హోమ్ › AI గుర్తింపు ఎంత ఖచ్చితమైనది? 22 LLMలపై బెంచ్‌మార్క్ | దోపిడీ గుర్తింపు సాధనం

AI గుర్తింపు ఎంత ఖచ్చితమైనది? 22 LLMలపై మా బెంచ్‌మార్క్

Q: మీరు నమూనా-వారీ సంభావ్యత అవుట్పుట్లను ఎందుకు ప్రచురించరు?

మేము ప్రచురిస్తాము — డౌన్లోడ్ చేయదగిన CSV ముడి సంభావ్యతలను కలిగి ఉంటుంది. మేము ప్రచురించనిది అసలైన వ్యాస టెక్స్ట్, ఎందుకంటే PAN25 కార్పస్ మరియు PERSUADE డేటాసెట్ పునఃపంపిణీ నిబంధనలను కలిగి ఉంటాయి. మీకు టెక్స్ట్ కావాలంటే, వాటి మూలాన్ని నేరుగా లాగండి (CSV డాక్యుమెంటేషన్లో లింకులు).

Q: AUC 1.0 కంటే తక్కువ ఉంటే నేను డిటెక్టర్ను నమ్మగలనా?

ఏ డిటెక్టర్ కూడా ప్రతి జెనరేటర్పై AUC 1.0 సాధించదు, కాబట్టి ప్రశ్న ‘ఇది పరిపూర్ణమేనా’ కాదు కానీ ‘ఇది పారదర్శకమేనా.’ AUC 0.95 ప్రచురించే మరియు అది ఎక్కడ కష్టపడుతుందో చెప్పే డిటెక్టర్ ‘పరిశ్రమ-అగ్రగామి ఖచ్చితత్వం’ ప్రచురించే మరియు ఏ సంఖ్య లేనిదానికంటే మరింత విశ్వసనీయంగా ఉంటుంది. మా AUC [AUC: 0.9884] నిజాయితీయైన సగటు పనితీరు; మీరు మీ కొనుగోలు నిర్ణయం తీసుకోవలసిన చోట జెనరేటర్-వారీ మరియు వ్యాస-రకం విభజనలు ఉన్నాయి.

GPT-5, Claude 4, Gemini 2, మరియు Llama 3తో సహా 22 జెనరేటివ్ మోడళ్ళకు వ్యతిరేకంగా మా AI డిటెక్టర్ యొక్క వాస్తవ-ప్రపంచ ఖచ్చితత్వాన్ని మేము ప్రచురిస్తాము. మోడల్-వారీ పట్టికలు, నిజాయితీయైన పరిమితులు, మరియు పరిశోధకుల కోసం డౌన్‌లోడ్ చేయదగిన డేటాసెట్.

2026-04-17 · Plagiarism Detector Team

మేము మా ఖచ్చితత్వ సంఖ్యలను ఎందుకు ప్రచురిస్తాము

చాలా AI గుర్తింపు సాధనాలు మిమ్మల్ని ఒక అస్పష్టమైన స్కోర్‌ను నమ్మాలని అడుగుతాయి. మీకు ఆధారాలు అర్హమని మేము భావిస్తాము. ఈ పేజీలో మేము మా అంతర్గత ధ్రువీకరణ రన్ యొక్క పూర్తి ఫలితాలను పంచుకుంటాము — మేము పరీక్షించిన ప్రతి జెనరేటర్, ప్రతి దానిపై AUC-ROC స్కోర్, మాకు అత్యంత ఇబ్బంది కలిగించిన వ్యాస రకాలు, మరియు మేము ఉత్పత్తిలో ఉపయోగించే నిర్ణయ థ్రెషోల్డ్‌లు.

ఈ స్థాయి పారదర్శకత AI-గుర్తింపు రంగంలో అసాధారణమైనది. చాలా పోటీదారులు — ప్లేజియరిజం-చెకర్ విక్రేతలు, నిపుణ AI-గుర్తింపు సేవలు, సాధారణ SaaS సాధనాలు — ఖచ్చితత్వ డేటాను లేదా ఒకే ఒక ఎంపిక చేసిన సంఖ్యను ప్రచురిస్తాయి. ఆ నమూనా నిలబడదు: విద్యావేత్తలు, ప్రచురణకర్తలు, మరియు పరిశోధకులు ఏదైనా సాధనంపై ఆధారపడే ముందు పునరుత్పాదక బెంచ్‌మార్క్‌లు అవసరం.

మా సంఖ్యలు మా ModernBERT డిటెక్టర్‌ను శిక్షణ ఇవ్వడానికి ఉపయోగించిన క్యాలిబ్రేషన్ కార్పస్ యొక్క 1,000-నమూనా ధ్రువీకరణ విభాజనం నుండి వస్తాయి. ఈ బెంచ్‌మార్క్‌ను నడిపించే అదే పద్ధతి మీరు మా సాధనం ద్వారా సమర్పించే ప్రతి పత్రంపై అమలవుతుంది. డెమోల కోసం ఏదీ దాచిపెట్టబడదు.

పరీక్షా కార్పస్ మరియు పద్ధతి

ధ్రువీకరణ సెట్ 1,200-నమూనా క్యాలిబ్రేషన్ కార్పస్ నుండి తీసిన 1,000 వ్యాసాలను కలిగి ఉంటుంది: 600 మానవ-రచించిన వ్యాసాలు (PAN25 షేర్డ్-టాస్క్ డేటా మరియు PERSUADE వాదాత్మక వ్యాసాల డేటాసెట్ నుండి) మరియు 600 AI-రూపొందించిన వ్యాసాలు (నియంత్రిత ప్రాంప్టింగ్ కింద 22 విభిన్న పెద్ద భాషా నమూనాల ద్వారా ఉత్పత్తి చేయబడ్డాయి). 80/20 శిక్షణ-ధ్రువీకరణ విభాజనం స్థిరంగా మరియు పునరావృతయోగ్యంగా ఉంటుంది.

ప్రతి నమూనా గ్రౌండ్ ట్రూత్‌ను లీక్ చేయగల మెటాడేటాకు యాక్సెస్ లేకుండా వేరుగా స్కోర్ చేయబడుతుంది. డిటెక్టర్ [0, 100] లో ఒక సంభావ్యతను అందిస్తుంది, ఇది నమూనా AI-రూపొందించబడిన అవకాశాన్ని సూచిస్తుంది. తర్వాత మేము జెనరేటర్ వారీగా మరియు వ్యాస-రకం స్థాయిలో రిసీవర్-ఆపరేటింగ్-కారెక్టరిస్టిక్ కర్వ్ (AUC-ROC) కింద ప్రాంతాన్ని లెక్కిస్తాము.

అన్ని థ్రెషోల్డ్‌లు, శిక్షణ హైపర్‌పారామీటర్‌లు, మరియు ముడి సంభావ్యత అవుట్‌పుట్‌లు లాగ్ చేయబడతాయి. డేటాసెట్ ఈ పేజీ దిగువన డౌన్‌లోడ్ కోసం అందుబాటులో ఉంది — CSV ఫార్మాట్, నమూనా వారీగా ఒక వరుస, జెనరేటర్ గుర్తింపు, వ్యాస-రకం లేబుల్, ముడి స్కోర్, మరియు తుది బైనరీ తీర్పుతో.

ముఖ్యాంశ ఫలితాలు

పూర్తి 1,000-నమూనా సెట్‌లో, మా ఎన్‌సెంబుల్ డిటెక్టర్ AUC-ROC [AUC: 0.9884] సాధిస్తుంది. మేము ఉత్పత్తిలో ఉపయోగించే 50% నిర్ణయ థ్రెషోల్డ్ వద్ద: ధ్రువీకరణ సెట్‌లో మానవ వ్యాసాలపై 0 తప్పుడు పాజిటివ్‌లు, మరియు AI వ్యాసాలపై 60% రీకాల్. 26.56% యొక్క F1-అనుకూల థ్రెషోల్డ్ వద్ద, రీకాల్ 2% తప్పుడు పాజిటివ్‌ల ధరతో 90%కి పెరుగుతుంది — అధిక-సెన్సిటివిటీ స్క్రీనింగ్ వర్క్‌ఫ్లోలకు మరింత అనుకూలమైన ట్రేడ్-ఆఫ్.

మా పబ్లిక్ సాధనంపై పత్రం-స్థాయి తీర్పు సంప్రదాయ 50% థ్రెషోల్డ్‌ను ఉపయోగిస్తుంది, గరిష్ట రీకాల్‌కంటే శూన్య తప్పుడు పాజిటివ్‌లకు ప్రాధాన్యత ఇస్తుంది. ఉపాధ్యాయులు, ప్రచురణకర్తలు, మరియు పరిశోధకులు మరింత దూకుడు ఫ్లాగింగ్ కోసం విడ్జెట్‌లోని సెన్సిటివిటీ స్లైడర్ ద్వారా దీన్ని భర్తీ చేయవచ్చు.

పోల్చిడికి, Binoculars జీరో-షాట్ కాంపోనెంట్ మాత్రమే (2× Llama-3.1-8B సెటప్) స్వతంత్రంగా AUC [AUC: 0.8509] స్కోర్ చేస్తుంది. ఫైన్-ట్యూన్డ్ ModernBERT కాంపోనెంట్ మాత్రమే ఇన్-డిస్ట్రిబ్యూషన్ వ్యాసాలపై [AUC: 1.0000] మరియు ఔట్-ఆఫ్-డిస్ట్రిబ్యూషన్ టెక్స్ట్‌పై [AUC: 0.9069] స్కోర్ చేస్తుంది. ఎన్‌సెంబుల్ ఏ ఒక్క అక్షంలోనైనా వాటి మధ్య ఉంటుంది కానీ రెండింటినీ సగటున అధిగమిస్తుంది ఎందుకంటే ఇది వాటి పరిపూరక బలహీనతలను సరిదిద్దుతుంది.

జెనరేటర్-వారీ విభజన

ఇక్కడ మోడల్-వారీ AUC-ROC పట్టిక ఉంది. మా ధ్రువీకరణ సెట్‌లో గుర్తించడానికి అత్యంత సులభమైనది నుండి కష్టమైనది వరకు మోడళ్ళు క్రమబద్ధీకరించబడ్డాయి. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI మోడళ్ళు: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Others: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

ముఖ్యాంశ నమూనా: కొత్త, పెద్ద, ఇన్‌స్ట్రక్షన్-ట్యూన్డ్ మోడళ్ళు మన సహా ఏ గణాంక డిటెక్టర్‌కు మరింత మానవ-సదృశంగా కనిపించే టెక్స్ట్ ఉత్పత్తి చేసే ధోరణి ఉంది. Claude 4.5 Sonnet మరియు GPT-5.x అనేవి మా స్కోర్ పంపిణీలు మానవ బేస్‌లైన్‌తో అత్యంత అతివ్యాప్తి చెందే రెండు కుటుంబాలు. ఇది 2025లో ప్రచురించిన ప్రతి స్వతంత్ర అధ్యయనంతో సరిపోతుంది — ఆయుధ పోటీ వాస్తవమైనది మరియు మోడల్ పరిమాణం గుర్తింపుకు ప్రత్యక్ష అవరోధం.

డిటెక్టర్ ఎక్కడ కష్టపడుతుంది

అన్ని టెక్స్ట్‌లు సమానంగా గుర్తించదగినవి కావు. మేము ఫలితాలను వ్యాస రకం వారీగా విభజిస్తాము — ప్రతి PERSUADE ప్రాంప్ట్ వర్గం — మరియు అత్యుత్తమ మరియు అత్యంత చెత్తమైన మధ్య అంతరం విస్తృతంగా ఉంటుంది. [PER-TYPE TABLE]

వాదాత్మక, ఒప్పించే, మరియు వివరణాత్మక వ్యాసాలు: డిటెక్టర్ యొక్క బలమైన డొమైన్. AUC సాధారణంగా 0.97–1.00 ఎందుకంటే శిక్షణ కార్పస్‌లు ఈ శైలులకు అధిక బరువు ఇస్తాయి. చాలా అకాడెమిక్-ఇంటిగ్రిటీ వినియోగ సందర్భాలు ఇక్కడ ఉంటాయి.

సృజనాత్మక రచన మరియు సాహిత్య విశ్లేషణ: మా బలహీనమైన డొమైన్. literary_analysis కోసం AUC 0.69కి పడిపోతుంది — కల్పనలో మానవ శైలి LLM అవుట్‌పుట్‌లతో కలుస్తుంది మరియు మా సూపర్‌వైజ్డ్ లేదా జీరో-షాట్ కాంపోనెంట్ వాటిని విశ్వసనీయంగా వేరు చేయలేదు. కల్పనపై అధిక AI స్కోర్‌ను సందేహంతో పరిగణించండి.

మీ స్వంత టెక్స్ట్‌పై డిటెక్టర్‌ను ప్రయత్నించండి

ఏదైనా పత్రాన్ని పేస్ట్ చేయండి మరియు ఈ బెంచ్‌మార్క్ సంఖ్యల కోసం మేము ఉపయోగించే అదే వాక్య-వారీ తీర్పు మరియు నిర్ణయ థ్రెషోల్డ్‌లను చూడండి. ఉచితం, సైన్అప్ అవసరం లేదు.

పరిమితులు మరియు వైఫల్య విధానాలు

మూడు రకాల టెక్స్ట్‌లు మా ధ్రువీకరణ సెట్ సూచించే దానికంటే తరచుగా మా డిటెక్టర్ నుండి తప్పించుకుంటాయి. మానవీకృత AI టెక్స్ట్ — విరోధాభాస పారాఫ్రేజింగ్ లేదా శైలి-బదిలీ సాధనం ద్వారా పాస్ చేసిన అవుట్‌పుట్ — అంతర్లీన టెక్స్ట్ పూర్తిగా రూపొందించబడినప్పుడు కూడా తరచుగా మానవ-వలె స్కోర్ చేస్తుంది. చిన్న టెక్స్ట్ (100 పదాల కంటే తక్కువ) అస్సలు వర్గీకరించడం కష్టం ఎందుకంటే తగినంత గణాంక సంకేతం లేదు. అమాతృ ఆంగ్ల రచన AI-రూపొందించబడినట్లు స్కోర్ కావచ్చు ఎందుకంటే LLMలు మరియు ESL రచయితలు నిర్దిష్ట లెక్సికల్ మరియు సింటాక్టిక్ ప్రాధాన్యతలను పంచుకుంటారు.

మా డిటెక్టర్ సంభావ్యత-ఆధారితమైనది, సాక్ష్యాత్మకమైనది కాదు. అధిక AI స్కోర్ మరింత దర్యాప్తు చేయడానికి ఒక సంకేతం, దుర్నీతికి ఆధారం కాదు. స్కోర్‌ను సందర్భంతో జత చేయమని మేము బలంగా సిఫారసు చేస్తాము: ఇటీవలి సవరణ చరిత్ర, వెర్షన్ డ్రాఫ్ట్‌లు, అదే రచయిత నుండి రచనా నమూనాలు, మరియు — అనుమతి ఉన్న చోట — రచయితతో ఒక చిన్న ఫాలో-అప్ సంభాషణ.

తాజా జెనరేటర్ అవుట్‌పుట్‌లపై మేము నిరంతరం పున:శిక్షణ ఇస్తాము, కానీ ఎల్లప్పుడూ ఆలస్యం ఉంటుంది: గత వారం విడుదలైన మోడల్ శిక్షణా డేటాలో బాగా ప్రతిబింబించబడకపోవచ్చు. మీ వర్క్‌ఫ్లో తాజా మోడళ్ళను పట్టుకోవడంపై ఆధారపడినట్లయితే, నవీకరించిన సంఖ్యల కోసం త్రైమాసికంగా మా బెంచ్‌మార్క్ పేజీని తిరిగి తనిఖీ చేయండి.

పూర్తి డేటాసెట్ డౌన్‌లోడ్ చేయండి

పరిశోధకులు, పాత్రికేయులు, మరియు విద్యావేత్తలు మా దావాలను స్వతంత్రంగా ధృవీకరించగలిగేలా మేము ముడి ధ్రువీకరణ ఫలితాలను ప్రచురిస్తాము. CSV ఇవి కలిగి ఉంటుంది: నమూనా ID, జెనరేటర్ గుర్తింపు (లేదా 'human'), వ్యాస-రకం లేబుల్, ముడి సంభావ్యత అవుట్‌పుట్, 50% థ్రెషోల్డ్ వద్ద బైనరీ తీర్పు, 26.56% థ్రెషోల్డ్ వద్ద బైనరీ తీర్పు.

డౌన్‌లోడ్: ai-detector-benchmark-2026-04.csv (త్రైమాసికంగా నవీకరించబడుతుంది). అకాడెమిక్ వినియోగం నిరంకుశంగా ఉంటుంది; వాణిజ్య పున:ప్రచురణకు ఆట్రిబ్యూషన్ అవసరం: “దోపిడీ గుర్తింపు సాధనం — AI డిటెక్షన్ బెంచ్‌మార్క్ 2026-04”.

అదే పద్ధతి యొక్క ఇంటరాక్టివ్ వెర్షన్ కోసం మీ స్వంత టెక్స్ట్‌పై, మా AI & Plagiarism Checker సాధనాన్ని ప్రయత్నించండి — ఏదైనా పత్రాన్ని పేస్ట్ చేయండి మరియు వాక్య-వారీ తీర్పు, అదే నిర్ణయ థ్రెషోల్డ్‌లు, మరియు ఈ ప్రచురించిన సంఖ్యల కోసం మేము ఉపయోగించే అదే కాన్ఫిడెన్స్ ఇంటర్వల్ చూడండి.

తరచుగా అడిగే ప్రశ్నలు

ఈ బెంచ్‌మార్క్ ఎంత తరచుగా నవీకరించబడుతుంది?

ప్రతి త్రైమాసికంలో. ఒక ప్రధాన జెనరేటర్ (GPT-6, Claude 5, Gemini 3) విడుదలైనప్పుడు, మేము దాన్ని 4 వారాలలోపు పరీక్షా కార్పస్‌కు చేర్చి నవీకరించిన పట్టికను పున:ప్రచురిస్తాము. చారిత్రక వెర్షన్‌లు తేదీ పేర్లతో సంగ్రహించబడతాయి — 2026-04 ఎడిషన్ ప్రస్తుత స్థిర విడుదల.

మీరు నమూనా-వారీ సంభావ్యత అవుట్‌పుట్‌లను ఎందుకు ప్రచురించరు?

మేము ప్రచురిస్తాము — డౌన్‌లోడ్ చేయదగిన CSV ముడి సంభావ్యతలను కలిగి ఉంటుంది. మేము ప్రచురించనిది అసలైన వ్యాస టెక్స్ట్, ఎందుకంటే PAN25 కార్పస్ మరియు PERSUADE డేటాసెట్ పునఃపంపిణీ నిబంధనలను కలిగి ఉంటాయి. మీకు టెక్స్ట్ కావాలంటే, వాటి మూలాన్ని నేరుగా లాగండి (CSV డాక్యుమెంటేషన్‌లో లింకులు).

AUC 1.0 కంటే తక్కువ ఉంటే నేను డిటెక్టర్‌ను నమ్మగలనా?

ఏ డిటెక్టర్ కూడా ప్రతి జెనరేటర్‌పై AUC 1.0 సాధించదు, కాబట్టి ప్రశ్న ‘ఇది పరిపూర్ణమేనా’ కాదు కానీ ‘ఇది పారదర్శకమేనా.’ AUC 0.95 ప్రచురించే మరియు అది ఎక్కడ కష్టపడుతుందో చెప్పే డిటెక్టర్ ‘పరిశ్రమ-అగ్రగామి ఖచ్చితత్వం’ ప్రచురించే మరియు ఏ సంఖ్య లేనిదానికంటే మరింత విశ్వసనీయంగా ఉంటుంది. మా AUC [AUC: 0.9884] నిజాయితీయైన సగటు పనితీరు; మీరు మీ కొనుగోలు నిర్ణయం తీసుకోవలసిన చోట జెనరేటర్-వారీ మరియు వ్యాస-రకం విభజనలు ఉన్నాయి.

మీ AI డిటెక్టర్ అకాడెమిక్-ప్రచురణ-సిద్ధంగా ఉందా?

అంతర్లీన పద్ధతి అలా ఉంది — Binoculars (ICML 2024) మరియు ModernBERT రెండూ సహకార-సమీక్షిత ఆర్కిటెక్చర్‌లు. మా నిర్దిష్ట ఫైన్-ట్యూనింగ్ కార్పస్ మరియు థ్రెషోల్డ్‌లు యాజమాన్యమైనవి కానీ బెంచ్‌మార్క్ పద్ధతి పూర్తిగా పునరుత్పాదక.

ఉచిత ఆన్‌లైన్ సాధనం డెస్క్‌టాప్ ఉత్పత్తితో ఎలా పోల్చుకుంటుంది?

అదే ఇంజన్, అదే ఖచ్చితత్వ సంఖ్యలు, అదే వాక్య-వారీ తీర్పు తర్కం. డెస్క్‌టాప్ ఉత్పత్తి అపరిమిత పత్రం పొడవు, ఆఫ్‌లైన్ స్కానింగ్, 4 బిలియన్ వెబ్ పేజీలకు వ్యతిరేకంగా ఏకీకృత ప్లేజియరిజం మిల్లడం, మరియు మొత్తం ఫోల్డర్‌ల బ్యాచ్ ప్రాసెసింగ్ జోడిస్తుంది. ఒకసారి తనిఖీల కోసం ఆన్‌లైన్ సాధనం సరిపోతుంది; రోజువారీ వర్క్‌ఫ్లోల కోసం డెస్క్‌టాప్ సరైన సాధనం.

బెంచ్‌మార్క్ ఫలితాలు మా అంతర్గత ధ్రువీకరణ సెట్ నుండి తీసుకోబడ్డాయి మరియు ఔట్-ఆఫ్-డిస్ట్రిబ్యూషన్ టెక్స్ట్‌కు సాధారణీకరించకపోవచ్చు. ప్రచురించిన సంఖ్యలు 1,000 నమూనాలలో సగటు పనితీరును సూచిస్తాయి; మీ పత్రం భిన్నంగా స్కోర్ కావచ్చు. AI గుర్తింపు ఫలితాలను అనేక ఇన్‌పుట్‌లలో ఒకటిగా ఉపయోగించండి, రచయితత్వానికి ఏకైక ఆధారంగా కాదు.