GPT-5, Claude 4, Gemini 2, మరియు Llama 3తో సహా 22 జెనరేటివ్ మోడళ్ళకు వ్యతిరేకంగా మా AI డిటెక్టర్ యొక్క వాస్తవ-ప్రపంచ ఖచ్చితత్వాన్ని మేము ప్రచురిస్తాము. మోడల్-వారీ పట్టికలు, నిజాయితీయైన పరిమితులు, మరియు పరిశోధకుల కోసం డౌన్లోడ్ చేయదగిన డేటాసెట్.
చాలా AI గుర్తింపు సాధనాలు మిమ్మల్ని ఒక అస్పష్టమైన స్కోర్ను నమ్మాలని అడుగుతాయి. మీకు ఆధారాలు అర్హమని మేము భావిస్తాము. ఈ పేజీలో మేము మా అంతర్గత ధ్రువీకరణ రన్ యొక్క పూర్తి ఫలితాలను పంచుకుంటాము — మేము పరీక్షించిన ప్రతి జెనరేటర్, ప్రతి దానిపై AUC-ROC స్కోర్, మాకు అత్యంత ఇబ్బంది కలిగించిన వ్యాస రకాలు, మరియు మేము ఉత్పత్తిలో ఉపయోగించే నిర్ణయ థ్రెషోల్డ్లు.
ఈ స్థాయి పారదర్శకత AI-గుర్తింపు రంగంలో అసాధారణమైనది. చాలా పోటీదారులు — ప్లేజియరిజం-చెకర్ విక్రేతలు, నిపుణ AI-గుర్తింపు సేవలు, సాధారణ SaaS సాధనాలు — ఖచ్చితత్వ డేటాను లేదా ఒకే ఒక ఎంపిక చేసిన సంఖ్యను ప్రచురిస్తాయి. ఆ నమూనా నిలబడదు: విద్యావేత్తలు, ప్రచురణకర్తలు, మరియు పరిశోధకులు ఏదైనా సాధనంపై ఆధారపడే ముందు పునరుత్పాదక బెంచ్మార్క్లు అవసరం.
మా సంఖ్యలు మా ModernBERT డిటెక్టర్ను శిక్షణ ఇవ్వడానికి ఉపయోగించిన క్యాలిబ్రేషన్ కార్పస్ యొక్క 1,000-నమూనా ధ్రువీకరణ విభాజనం నుండి వస్తాయి. ఈ బెంచ్మార్క్ను నడిపించే అదే పద్ధతి మీరు మా సాధనం ద్వారా సమర్పించే ప్రతి పత్రంపై అమలవుతుంది. డెమోల కోసం ఏదీ దాచిపెట్టబడదు.
ధ్రువీకరణ సెట్ 1,200-నమూనా క్యాలిబ్రేషన్ కార్పస్ నుండి తీసిన 1,000 వ్యాసాలను కలిగి ఉంటుంది: 600 మానవ-రచించిన వ్యాసాలు (PAN25 షేర్డ్-టాస్క్ డేటా మరియు PERSUADE వాదాత్మక వ్యాసాల డేటాసెట్ నుండి) మరియు 600 AI-రూపొందించిన వ్యాసాలు (నియంత్రిత ప్రాంప్టింగ్ కింద 22 విభిన్న పెద్ద భాషా నమూనాల ద్వారా ఉత్పత్తి చేయబడ్డాయి). 80/20 శిక్షణ-ధ్రువీకరణ విభాజనం స్థిరంగా మరియు పునరావృతయోగ్యంగా ఉంటుంది.
ప్రతి నమూనా గ్రౌండ్ ట్రూత్ను లీక్ చేయగల మెటాడేటాకు యాక్సెస్ లేకుండా వేరుగా స్కోర్ చేయబడుతుంది. డిటెక్టర్ [0, 100] లో ఒక సంభావ్యతను అందిస్తుంది, ఇది నమూనా AI-రూపొందించబడిన అవకాశాన్ని సూచిస్తుంది. తర్వాత మేము జెనరేటర్ వారీగా మరియు వ్యాస-రకం స్థాయిలో రిసీవర్-ఆపరేటింగ్-కారెక్టరిస్టిక్ కర్వ్ (AUC-ROC) కింద ప్రాంతాన్ని లెక్కిస్తాము.
అన్ని థ్రెషోల్డ్లు, శిక్షణ హైపర్పారామీటర్లు, మరియు ముడి సంభావ్యత అవుట్పుట్లు లాగ్ చేయబడతాయి. డేటాసెట్ ఈ పేజీ దిగువన డౌన్లోడ్ కోసం అందుబాటులో ఉంది — CSV ఫార్మాట్, నమూనా వారీగా ఒక వరుస, జెనరేటర్ గుర్తింపు, వ్యాస-రకం లేబుల్, ముడి స్కోర్, మరియు తుది బైనరీ తీర్పుతో.
పూర్తి 1,000-నమూనా సెట్లో, మా ఎన్సెంబుల్ డిటెక్టర్ AUC-ROC [AUC: 0.9884] సాధిస్తుంది. మేము ఉత్పత్తిలో ఉపయోగించే 50% నిర్ణయ థ్రెషోల్డ్ వద్ద: ధ్రువీకరణ సెట్లో మానవ వ్యాసాలపై 0 తప్పుడు పాజిటివ్లు, మరియు AI వ్యాసాలపై 60% రీకాల్. 26.56% యొక్క F1-అనుకూల థ్రెషోల్డ్ వద్ద, రీకాల్ 2% తప్పుడు పాజిటివ్ల ధరతో 90%కి పెరుగుతుంది — అధిక-సెన్సిటివిటీ స్క్రీనింగ్ వర్క్ఫ్లోలకు మరింత అనుకూలమైన ట్రేడ్-ఆఫ్.
మా పబ్లిక్ సాధనంపై పత్రం-స్థాయి తీర్పు సంప్రదాయ 50% థ్రెషోల్డ్ను ఉపయోగిస్తుంది, గరిష్ట రీకాల్కంటే శూన్య తప్పుడు పాజిటివ్లకు ప్రాధాన్యత ఇస్తుంది. ఉపాధ్యాయులు, ప్రచురణకర్తలు, మరియు పరిశోధకులు మరింత దూకుడు ఫ్లాగింగ్ కోసం విడ్జెట్లోని సెన్సిటివిటీ స్లైడర్ ద్వారా దీన్ని భర్తీ చేయవచ్చు.
పోల్చిడికి, Binoculars జీరో-షాట్ కాంపోనెంట్ మాత్రమే (2× Llama-3.1-8B సెటప్) స్వతంత్రంగా AUC [AUC: 0.8509] స్కోర్ చేస్తుంది. ఫైన్-ట్యూన్డ్ ModernBERT కాంపోనెంట్ మాత్రమే ఇన్-డిస్ట్రిబ్యూషన్ వ్యాసాలపై [AUC: 1.0000] మరియు ఔట్-ఆఫ్-డిస్ట్రిబ్యూషన్ టెక్స్ట్పై [AUC: 0.9069] స్కోర్ చేస్తుంది. ఎన్సెంబుల్ ఏ ఒక్క అక్షంలోనైనా వాటి మధ్య ఉంటుంది కానీ రెండింటినీ సగటున అధిగమిస్తుంది ఎందుకంటే ఇది వాటి పరిపూరక బలహీనతలను సరిదిద్దుతుంది.
ఇక్కడ మోడల్-వారీ AUC-ROC పట్టిక ఉంది. మా ధ్రువీకరణ సెట్లో గుర్తించడానికి అత్యంత సులభమైనది నుండి కష్టమైనది వరకు మోడళ్ళు క్రమబద్ధీకరించబడ్డాయి. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI మోడళ్ళు: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Others: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
ముఖ్యాంశ నమూనా: కొత్త, పెద్ద, ఇన్స్ట్రక్షన్-ట్యూన్డ్ మోడళ్ళు మన సహా ఏ గణాంక డిటెక్టర్కు మరింత మానవ-సదృశంగా కనిపించే టెక్స్ట్ ఉత్పత్తి చేసే ధోరణి ఉంది. Claude 4.5 Sonnet మరియు GPT-5.x అనేవి మా స్కోర్ పంపిణీలు మానవ బేస్లైన్తో అత్యంత అతివ్యాప్తి చెందే రెండు కుటుంబాలు. ఇది 2025లో ప్రచురించిన ప్రతి స్వతంత్ర అధ్యయనంతో సరిపోతుంది — ఆయుధ పోటీ వాస్తవమైనది మరియు మోడల్ పరిమాణం గుర్తింపుకు ప్రత్యక్ష అవరోధం.
అన్ని టెక్స్ట్లు సమానంగా గుర్తించదగినవి కావు. మేము ఫలితాలను వ్యాస రకం వారీగా విభజిస్తాము — ప్రతి PERSUADE ప్రాంప్ట్ వర్గం — మరియు అత్యుత్తమ మరియు అత్యంత చెత్తమైన మధ్య అంతరం విస్తృతంగా ఉంటుంది. [PER-TYPE TABLE]
వాదాత్మక, ఒప్పించే, మరియు వివరణాత్మక వ్యాసాలు: డిటెక్టర్ యొక్క బలమైన డొమైన్. AUC సాధారణంగా 0.97–1.00 ఎందుకంటే శిక్షణ కార్పస్లు ఈ శైలులకు అధిక బరువు ఇస్తాయి. చాలా అకాడెమిక్-ఇంటిగ్రిటీ వినియోగ సందర్భాలు ఇక్కడ ఉంటాయి.
సృజనాత్మక రచన మరియు సాహిత్య విశ్లేషణ: మా బలహీనమైన డొమైన్. literary_analysis కోసం AUC 0.69కి పడిపోతుంది — కల్పనలో మానవ శైలి LLM అవుట్పుట్లతో కలుస్తుంది మరియు మా సూపర్వైజ్డ్ లేదా జీరో-షాట్ కాంపోనెంట్ వాటిని విశ్వసనీయంగా వేరు చేయలేదు. కల్పనపై అధిక AI స్కోర్ను సందేహంతో పరిగణించండి.
ఏదైనా పత్రాన్ని పేస్ట్ చేయండి మరియు ఈ బెంచ్మార్క్ సంఖ్యల కోసం మేము ఉపయోగించే అదే వాక్య-వారీ తీర్పు మరియు నిర్ణయ థ్రెషోల్డ్లను చూడండి. ఉచితం, సైన్అప్ అవసరం లేదు.
మూడు రకాల టెక్స్ట్లు మా ధ్రువీకరణ సెట్ సూచించే దానికంటే తరచుగా మా డిటెక్టర్ నుండి తప్పించుకుంటాయి. మానవీకృత AI టెక్స్ట్ — విరోధాభాస పారాఫ్రేజింగ్ లేదా శైలి-బదిలీ సాధనం ద్వారా పాస్ చేసిన అవుట్పుట్ — అంతర్లీన టెక్స్ట్ పూర్తిగా రూపొందించబడినప్పుడు కూడా తరచుగా మానవ-వలె స్కోర్ చేస్తుంది. చిన్న టెక్స్ట్ (100 పదాల కంటే తక్కువ) అస్సలు వర్గీకరించడం కష్టం ఎందుకంటే తగినంత గణాంక సంకేతం లేదు. అమాతృ ఆంగ్ల రచన AI-రూపొందించబడినట్లు స్కోర్ కావచ్చు ఎందుకంటే LLMలు మరియు ESL రచయితలు నిర్దిష్ట లెక్సికల్ మరియు సింటాక్టిక్ ప్రాధాన్యతలను పంచుకుంటారు.
మా డిటెక్టర్ సంభావ్యత-ఆధారితమైనది, సాక్ష్యాత్మకమైనది కాదు. అధిక AI స్కోర్ మరింత దర్యాప్తు చేయడానికి ఒక సంకేతం, దుర్నీతికి ఆధారం కాదు. స్కోర్ను సందర్భంతో జత చేయమని మేము బలంగా సిఫారసు చేస్తాము: ఇటీవలి సవరణ చరిత్ర, వెర్షన్ డ్రాఫ్ట్లు, అదే రచయిత నుండి రచనా నమూనాలు, మరియు — అనుమతి ఉన్న చోట — రచయితతో ఒక చిన్న ఫాలో-అప్ సంభాషణ.
తాజా జెనరేటర్ అవుట్పుట్లపై మేము నిరంతరం పున:శిక్షణ ఇస్తాము, కానీ ఎల్లప్పుడూ ఆలస్యం ఉంటుంది: గత వారం విడుదలైన మోడల్ శిక్షణా డేటాలో బాగా ప్రతిబింబించబడకపోవచ్చు. మీ వర్క్ఫ్లో తాజా మోడళ్ళను పట్టుకోవడంపై ఆధారపడినట్లయితే, నవీకరించిన సంఖ్యల కోసం త్రైమాసికంగా మా బెంచ్మార్క్ పేజీని తిరిగి తనిఖీ చేయండి.
పరిశోధకులు, పాత్రికేయులు, మరియు విద్యావేత్తలు మా దావాలను స్వతంత్రంగా ధృవీకరించగలిగేలా మేము ముడి ధ్రువీకరణ ఫలితాలను ప్రచురిస్తాము. CSV ఇవి కలిగి ఉంటుంది: నమూనా ID, జెనరేటర్ గుర్తింపు (లేదా 'human'), వ్యాస-రకం లేబుల్, ముడి సంభావ్యత అవుట్పుట్, 50% థ్రెషోల్డ్ వద్ద బైనరీ తీర్పు, 26.56% థ్రెషోల్డ్ వద్ద బైనరీ తీర్పు.
డౌన్లోడ్: ai-detector-benchmark-2026-04.csv (త్రైమాసికంగా నవీకరించబడుతుంది). అకాడెమిక్ వినియోగం నిరంకుశంగా ఉంటుంది; వాణిజ్య పున:ప్రచురణకు ఆట్రిబ్యూషన్ అవసరం: “దోపిడీ గుర్తింపు సాధనం — AI డిటెక్షన్ బెంచ్మార్క్ 2026-04”.
అదే పద్ధతి యొక్క ఇంటరాక్టివ్ వెర్షన్ కోసం మీ స్వంత టెక్స్ట్పై, మా AI & Plagiarism Checker సాధనాన్ని ప్రయత్నించండి — ఏదైనా పత్రాన్ని పేస్ట్ చేయండి మరియు వాక్య-వారీ తీర్పు, అదే నిర్ణయ థ్రెషోల్డ్లు, మరియు ఈ ప్రచురించిన సంఖ్యల కోసం మేము ఉపయోగించే అదే కాన్ఫిడెన్స్ ఇంటర్వల్ చూడండి.
బెంచ్మార్క్ ఫలితాలు మా అంతర్గత ధ్రువీకరణ సెట్ నుండి తీసుకోబడ్డాయి మరియు ఔట్-ఆఫ్-డిస్ట్రిబ్యూషన్ టెక్స్ట్కు సాధారణీకరించకపోవచ్చు. ప్రచురించిన సంఖ్యలు 1,000 నమూనాలలో సగటు పనితీరును సూచిస్తాయి; మీ పత్రం భిన్నంగా స్కోర్ కావచ్చు. AI గుర్తింపు ఫలితాలను అనేక ఇన్పుట్లలో ఒకటిగా ఉపయోగించండి, రచయితత్వానికి ఏకైక ఆధారంగా కాదు.