शीर्ष पर जाएँ
घर AI पहचान कितनी सटीक है? 22 LLMs में बेंचमार्क | साहित्यिक चोरी डिटेक्टर

AI पहचान कितनी सटीक है? 22 LLMs में हमारा बेंचमार्क

हम 22 जनरेटिव मॉडल के विरुद्ध अपने AI डिटेक्टर की वास्तविक सटीकता प्रकाशित करते हैं — जिनमें GPT-5, Claude 4, Gemini 2, और Llama 3 शामिल हैं। प्रति-मॉडल तालिकाएँ, ईमानदार सीमाएँ, और शोधकर्ताओं के लिए डाउनलोड योग्य डेटासेट।

2026-04-17 · Plagiarism Detector Team

हम अपनी सटीकता के आँकड़े क्यों प्रकाशित करते हैं

अधिकांश AI डिटेक्शन टूल आपसे एक अपारदर्शी स्कोर पर भरोसा करने को कहते हैं। हमारा मानना है कि आप साक्ष्य के हकदार हैं। इस पृष्ठ पर हम अपने आंतरिक वैलिडेशन रन के पूर्ण परिणाम साझा करते हैं — हमने जो प्रत्येक जनरेटर परीक्षण किया, उस पर AUC-ROC स्कोर, जिन निबंध प्रकारों ने हमें सबसे अधिक परेशान किया, और उत्पादन में हम जो निर्णय थ्रेशोल्ड उपयोग करते हैं।

AI-डिटेक्शन क्षेत्र में इस स्तर की पारदर्शिता असामान्य है। अधिकांश प्रतिस्पर्धी — साहित्यिक चोरी-जाँचकर्ता विक्रेता, विशेषज्ञ AI-डिटेक्शन सेवाएँ, सामान्य SaaS टूल — या तो कोई सटीकता डेटा प्रकाशित नहीं करते या एक चुनिंदा अनुकूल संख्या प्रकाशित करते हैं। यह पैटर्न अटिकाऊ है: शिक्षक, प्रकाशक, और शोधकर्ता किसी भी टूल पर निर्भर होने से पहले पुनरुत्पादनीय बेंचमार्क की आवश्यकता रखते हैं।

हमारे आँकड़े हमारे ModernBERT डिटेक्टर को प्रशिक्षित करने के लिए उपयोग किए गए कैलिब्रेशन कॉर्पस के 1,000-सैंपल वैलिडेशन स्प्लिट से आते हैं। यही पद्धति जो इस बेंचमार्क को संचालित करती है, आपके टूल के माध्यम से सबमिट किए गए प्रत्येक दस्तावेज़ पर चलती है। डेमो के लिए कुछ भी नहीं छुपाया गया है।

परीक्षण कॉर्पस और पद्धति

वैलिडेशन सेट में 1,200-सैंपल कैलिब्रेशन कॉर्पस से लिए गए 1,000 निबंध हैं: 600 मानव-लिखित निबंध (PAN25 शेयर्ड-टास्क डेटा और PERSUADE तर्कात्मक निबंध डेटासेट से) और 600 AI-जनित निबंध (नियंत्रित प्रॉम्पटिंग के तहत 22 अलग-अलग बड़े भाषा मॉडल द्वारा उत्पादित)। 80/20 प्रशिक्षण-वैलिडेशन स्प्लिट निश्चित और दोहराने योग्य है।

प्रत्येक सैंपल को अलगाव में स्कोर किया जाता है, बिना किसी मेटाडेटा तक पहुँच के जो ग्राउंड ट्रुथ लीक कर सके। डिटेक्टर [0, 100] में एक प्रायिकता लौटाता है जो इस संभावना को दर्शाती है कि सैंपल AI-जनित है। फिर हम प्रति जनरेटर और निबंध-प्रकार स्तर पर रिसीवर-ऑपरेटिंग-कैरेक्टरिस्टिक वक्र (AUC-ROC) के अंतर्गत क्षेत्र की गणना करते हैं।

सभी थ्रेशोल्ड, प्रशिक्षण हाइपरपैरामीटर, और कच्चे प्रायिकता आउटपुट लॉग किए जाते हैं। डेटासेट स्वयं इस पृष्ठ के नीचे डाउनलोड के लिए उपलब्ध है — CSV फॉर्मेट, प्रति सैंपल एक पंक्ति, जनरेटर पहचान, निबंध-प्रकार लेबल, कच्चे स्कोर, और अंतिम बाइनरी निर्णय के साथ।

मुख्य परिणाम

पूरे 1,000-सैंपल सेट में, हमारा एन्सेम्बल डिटेक्टर AUC-ROC [AUC: 0.9884] प्राप्त करता है। उत्पादन में हम जो 50% निर्णय थ्रेशोल्ड उपयोग करते हैं उस पर: वैलिडेशन सेट में मानव निबंधों पर 0 गलत सकारात्मक, और AI निबंधों पर 60% रिकॉल। 26.56% के F1-ऑप्टिमल थ्रेशोल्ड पर, 2% गलत सकारात्मक की कीमत पर रिकॉल 90% तक बढ़ जाता है — यह ट्रेडऑफ उच्च-संवेदनशीलता स्क्रीनिंग वर्कफ़्लो के लिए बेहतर उपयुक्त है।

हमारे सार्वजनिक टूल पर दस्तावेज़-स्तरीय निर्णय रूढ़िवादी 50% थ्रेशोल्ड का उपयोग करता है, अधिकतम रिकॉल पर शून्य गलत सकारात्मक को प्राथमिकता देता है। शिक्षक, प्रकाशक, और शोधकर्ता जब अधिक आक्रामक फ्लैगिंग चाहते हैं तो विजेट में संवेदनशीलता स्लाइडर के माध्यम से इसे ओवरराइड कर सकते हैं।

तुलना के लिए, Binoculars ज़ीरो-शॉट घटक अकेले (एक 2× Llama-3.1-8B सेटअप) अकेले AUC [AUC: 0.8509] स्कोर करता है। फाइन-ट्यून्ड ModernBERT घटक अकेले इन-डिस्ट्रीब्यूशन निबंधों पर [AUC: 1.0000] और आउट-ऑफ-डिस्ट्रीब्यूशन टेक्स्ट पर [AUC: 0.9069] स्कोर करता है। एन्सेम्बल किसी भी एकल अक्ष पर उनके बीच बैठता है लेकिन औसतन दोनों से बेहतर प्रदर्शन करता है क्योंकि यह उनकी पूरक कमजोरियों को सुधारता है।

प्रति-जनरेटर विश्लेषण

यहाँ प्रति-मॉडल AUC-ROC तालिका है। मॉडल हमारे वैलिडेशन सेट पर सबसे आसान से सबसे कठिन पहचान के क्रम में व्यवस्थित हैं। [प्रति-मॉडल तालिका — प्रकाशन से पहले dkr_eval_pan25/ परिणामों से वास्तविक संख्याएँ भरें]

OpenAI मॉडल: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]। Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]। Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]। Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]। अन्य: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?]।

मुख्य पैटर्न: नए, बड़े, इंस्ट्रक्शन-ट्यून्ड मॉडल ऐसा टेक्स्ट उत्पादित करते हैं जो किसी भी सांख्यिकीय डिटेक्टर को — हमारे सहित — अधिक मानव-जैसा लगता है। Claude 4.5 Sonnet और GPT-5.x वे दो परिवार हैं जहाँ हमारे स्कोर वितरण मानव आधार रेखा के साथ सबसे अधिक ओवरलैप करते हैं। यह 2025 में प्रकाशित प्रत्येक स्वतंत्र अध्ययन से मेल खाता है — हथियारों की दौड़ वास्तविक है और मॉडल का आकार पहचान के लिए एक सीधी बाधा है।

डिटेक्टर कहाँ संघर्ष करता है

सभी टेक्स्ट समान रूप से पहचाने जाने योग्य नहीं हैं। हम परिणामों को निबंध प्रकार द्वारा विभाजित करते हैं — प्रत्येक PERSUADE प्रॉम्प्ट श्रेणी — और सर्वश्रेष्ठ और सबसे खराब के बीच का अंतर व्यापक है। [प्रति-प्रकार तालिका]

तर्कात्मक, प्रेरक, और व्याख्यात्मक निबंध: डिटेक्टर का सबसे मजबूत क्षेत्र। AUC आमतौर पर 0.97–1.00 क्योंकि प्रशिक्षण कॉर्पस इन शैलियों को अधिक महत्व देते हैं। यहीं अधिकांश शैक्षणिक-अखंडता उपयोग मामले आते हैं।

रचनात्मक लेखन और साहित्यिक विश्लेषण: हमारा सबसे कमजोर क्षेत्र। literary_analysis के लिए AUC 0.69 तक गिर जाता है — कथा साहित्य में मानव शैली LLM आउटपुट के साथ अभिसरण करती है और हमारे पर्यवेक्षित न ज़ीरो-शॉट घटक दोनों उन्हें विश्वसनीय रूप से अलग नहीं कर सकते। कथा साहित्य पर उच्च AI स्कोर के साथ संदेह के साथ व्यवहार करें।

अपने स्वयं के टेक्स्ट पर डिटेक्टर आज़माएँ

कोई भी दस्तावेज़ पेस्ट करें और वही प्रति-वाक्य निर्णय और निर्णय थ्रेशोल्ड देखें जो हम इन बेंचमार्क आँकड़ों के लिए उपयोग करते हैं। निःशुल्क, बिना साइनअप के।

सीमाएँ और विफलता के तरीके

तीन प्रकार के टेक्स्ट हमारे डिटेक्टर से बच निकलते हैं जो हमारे वैलिडेशन सेट के सुझाव से अधिक बार होता है। मानवीकृत AI टेक्स्ट — प्रतिकूल पैराफ्रेज़िंग या स्टाइल-ट्रांसफर टूल से गुजरा आउटपुट — अक्सर मानव के रूप में स्कोर करता है, भले ही अंतर्निहित टेक्स्ट पूरी तरह से जनित था। छोटा टेक्स्ट (100 शब्दों से कम) बिल्कुल भी वर्गीकृत करना कठिन है क्योंकि अपर्याप्त सांख्यिकीय संकेत हैं। गैर-मूल अंग्रेजी लेखन AI-जनित के रूप में स्कोर कर सकता है क्योंकि LLM और ESL लेखक कुछ शाब्दिक और वाक्यात्मक प्राथमिकताएँ साझा करते हैं।

हमारा डिटेक्टर प्रायिकतापूर्ण है, साक्ष्यिक नहीं। उच्च AI स्कोर आगे जाँच का संकेत है, दुर्व्यवहार का प्रमाण नहीं। हम दृढ़ता से स्कोर को संदर्भ के साथ जोड़ने की सलाह देते हैं: हाल के संपादन इतिहास, संस्करण ड्राफ्ट, उसी लेखक के लेखन नमूने, और — जहाँ अनुमत हो — लेखक के साथ एक संक्षिप्त अनुवर्ती बातचीत।

हम नवीनतम जनरेटर आउटपुट पर निरंतर पुनः प्रशिक्षण करते हैं, लेकिन हमेशा एक अंतराल होता है: पिछले सप्ताह जारी मॉडल प्रशिक्षण डेटा में अच्छी तरह से प्रतिनिधित्व नहीं हो सकता। यदि आपका वर्कफ़्लो नवीनतम मॉडल पकड़ने पर निर्भर करता है, तो अपडेट किए गए आँकड़ों के लिए त्रैमासिक हमारे बेंचमार्क पृष्ठ की जाँच करें।

पूर्ण डेटासेट डाउनलोड करें

हम कच्चे वैलिडेशन परिणाम प्रकाशित करते हैं ताकि शोधकर्ता, पत्रकार, और शिक्षक स्वतंत्र रूप से हमारे दावों की पुष्टि कर सकें। CSV में शामिल हैं: सैंपल ID, जनरेटर पहचान (या 'human'), निबंध-प्रकार लेबल, कच्चा प्रायिकता आउटपुट, 50% थ्रेशोल्ड पर बाइनरी निर्णय, 26.56% थ्रेशोल्ड पर बाइनरी निर्णय।

डाउनलोड: ai-detector-benchmark-2026-04.csv (त्रैमासिक अपडेट किया गया)। शैक्षणिक उपयोग असीमित है; व्यावसायिक पुनः-प्रकाशन के लिए उद्धरण आवश्यक है: “Plagiarism Detector — AI Detection Benchmark 2026-04”।

अपने स्वयं के टेक्स्ट पर उसी पद्धति का इंटरेक्टिव संस्करण आज़माने के लिए, हमारा AI & साहित्यिक चोरी जाँचकर्ता टूल आज़माएँ — कोई भी दस्तावेज़ पेस्ट करें और प्रति-वाक्य निर्णय, वही निर्णय थ्रेशोल्ड, और वही विश्वास अंतराल देखें जो हम इन प्रकाशित आँकड़ों के लिए उपयोग करते हैं।

अक्सर पूछे जाने वाले प्रश्नों

यह बेंचमार्क कितनी बार अपडेट किया जाता है?
हर तिमाही। जब कोई प्रमुख जनरेटर (GPT-6, Claude 5, Gemini 3) लॉन्च होता है तो हम 4 सप्ताह के भीतर इसे परीक्षण कॉर्पस में जोड़ते हैं और अपडेट की गई तालिका पुनः प्रकाशित करते हैं। ऐतिहासिक संस्करण दिनांकित फ़ाइलनामों के साथ संग्रहीत हैं — 2026-04 संस्करण वर्तमान स्थिर रिलीज़ है।
आप प्रति-सैंपल प्रायिकता आउटपुट क्यों नहीं प्रकाशित करते?
हम करते हैं — डाउनलोड करने योग्य CSV में कच्ची प्रायिकताएँ हैं। जो हम प्रकाशित नहीं करते वह मूल निबंध टेक्स्ट है, क्योंकि PAN25 कॉर्पस और PERSUADE डेटासेट पुनर्वितरण प्रतिबंध लेते हैं। यदि आप टेक्स्ट चाहते हैं, तो उन डेटासेट को सीधे उनके स्रोत से प्राप्त करें (CSV दस्तावेज़ीकरण में लिंक)।
क्या मैं किसी डिटेक्टर पर भरोसा कर सकता हूँ यदि AUC 1.0 से कम है?
कोई भी डिटेक्टर प्रत्येक जनरेटर पर AUC 1.0 प्राप्त नहीं करता, इसलिए प्रश्न यह नहीं है कि ‘क्या यह सही है’ बल्कि ‘क्या यह पारदर्शी है।’ एक डिटेक्टर जो AUC 0.95 प्रकाशित करता है और बताता है कि वह कहाँ संघर्ष करता है, उस से अधिक भरोसेमंद है जो बिना किसी संख्या के ‘उद्योग-अग्रणी सटीकता’ प्रकाशित करता है। हमारा AUC [AUC: 0.9884] ईमानदार औसत प्रदर्शन है; प्रति-जनरेटर और प्रति-निबंध-प्रकार विश्लेषण वह जगह है जहाँ आपको अपना क्रय निर्णय लेना चाहिए।
क्या आपका AI डिटेक्टर शैक्षणिक-प्रकाशन के लिए तैयार है?
अंतर्निहित पद्धति है — Binoculars (ICML 2024) और ModernBERT दोनों सहकर्मी-समीक्षित आर्किटेक्चर हैं। हमारा विशिष्ट फाइन-ट्यूनिंग कॉर्पस और थ्रेशोल्ड स्वामित्व हैं लेकिन बेंचमार्क पद्धति पूरी तरह से पुनरुत्पादनीय है।
निःशुल्क ऑनलाइन टूल डेस्कटॉप उत्पाद से कैसे तुलना करता है?
समान इंजन, समान सटीकता आँकड़े, समान प्रति-वाक्य निर्णय तर्क। डेस्कटॉप उत्पाद असीमित दस्तावेज़ लंबाई, ऑफलाइन स्कैनिंग, 4 अरब वेब पेजों के विरुद्ध एकीकृत साहित्यिक चोरी मिलान, और पूरे फ़ोल्डर की बैच प्रोसेसिंग जोड़ता है। एकमुश्त जाँच के लिए ऑनलाइन टूल पर्याप्त है; दैनिक वर्कफ़्लो के लिए डेस्कटॉप सही टूल है।

बेंचमार्क परिणाम हमारे आंतरिक वैलिडेशन सेट से प्राप्त हैं और आउट-ऑफ-डिस्ट्रीब्यूशन टेक्स्ट पर सामान्यीकृत नहीं हो सकते। प्रकाशित आँकड़े 1,000 सैंपल में औसत प्रदर्शन दर्शाते हैं; आपका दस्तावेज़ अलग तरह से स्कोर कर सकता है। AI डिटेक्शन परिणामों को कई इनपुट में से एक के रूप में उपयोग करें, लेखकत्व के एकमात्र साक्ष्य के रूप में नहीं।