सभी AI टेक्स्ट समान रूप से पहचाने जाने योग्य नहीं हैं। यहाँ हमारे प्रति-जनरेटर बेंचमार्क के परिणाम हैं — कौन से मॉडल परिवारों को हमारा डिटेक्टर लगभग सही सटीकता से पकड़ता है, किन के साथ संघर्ष करता है, और यह आपको पहचान वर्कफ़्लो चुनने के बारे में क्या बताता है।
[लीडरबोर्ड तालिका — प्रकाशन से पहले बेंचमार्क से वास्तविक प्रति-मॉडल AUC संख्याएँ भरें]
सबसे आसान से सबसे कठिन पहचान के क्रम में हमारे वैलिडेशन सेट पर व्यवस्थित। फैलाव व्यापक है — कुछ मॉडल परिवारों पर AUC 0.99 से अधिक है जबकि अन्य 0.80 के दशक में गिर जाते हैं। पहचान कठिनाई मॉडल के आकार, इंस्ट्रक्शन-ट्यूनिंग परिष्कार, और आउटपुट विचरण के साथ सहसंबंधित होती है।
पूर्ण प्रति-जनरेटर विश्लेषण पद्धति के लिए, हमारा सटीकता बेंचमार्क पृष्ठ देखें। यह लेख उन उपयोगकर्ताओं के लिए उस डेटा के व्यावहारिक निहितार्थों को सारांशित करता है जो यह चुन रहे हैं कि किस डिटेक्टर पर भरोसा करें और कौन सा मॉडल उपयोग करें।
GPT-3.5 पहचानना सबसे आसान आधुनिक मॉडल है — हमारे सेट पर AUC [AUC: ?]। विरासत पीढ़ी अवशेष (दोहराव, हिचकिचाहट, नीरस रजिस्टर) स्पष्ट रूप से मौजूद हैं। GPT-4 AUC [AUC: ?] तक गिरता है, GPT-4o [AUC: ?] तक, जो क्रमशः बेहतर कैलिब्रेशन को दर्शाता है। GPT-5.x परिवार में सबसे कठिन है — AUC [AUC: ?] — क्योंकि इंस्ट्रक्शन-ट्यूनिंग टीम ने स्पष्ट रूप से पहचान-अवशेष हटाने को लक्षित किया।
व्यावहारिक निहितार्थ: GPT-3.5-युग धोखाधड़ी के बारे में चिंतित शैक्षणिक वर्कफ़्लो अकेले पहचान पर बहुत अधिक निर्भर कर सकते हैं। GPT-5 के बारे में चिंतित वर्कफ़्लो को पहचान को संदर्भगत साक्ष्य के साथ जोड़ना होगा, जैसा कि हमारे शिक्षक वर्कफ़्लो गाइड में वर्णित है।
तापमान सेटिंग्स मायने रखती हैं। कम-तापमान आउटपुट (t≤0.5) पहचानना आसान है क्योंकि वे संकीर्ण शब्दावली पर प्रायिकता द्रव्यमान केंद्रित करते हैं। अधिकांश चैट इंटरफेस t≈0.7 पर डिफ़ॉल्ट होते हैं, टेक्स्ट को मध्यम रूप से पहचाने जाने योग्य ज़ोन में रखते हैं। प्रतिकूल उपयोगकर्ता स्पष्ट रूप से तापमान बढ़ाते हैं या विविध डिकोडिंग का उपयोग करते हैं रेंज को चौड़ा करने और पहचान से बचने के लिए — हमारा एन्सेम्बल आंशिक रूप से इसके लिए सुधार करता है लेकिन पूरी तरह से नहीं।
Claude 3 Opus: AUC [AUC: ?]। Claude 3.5 Sonnet: [AUC: ?]। Claude 4 Opus: [AUC: ?]। Claude 4.5 Sonnet: [AUC: ?]। Claude परिवार लगातार समान-पीढ़ी GPT मॉडल की तुलना में कम दोहरावदार, अधिक शैलीगत रूप से विविध टेक्स्ट उत्पादित करता है, जो इसे सांख्यिकीय तरीकों से पहचानना कठिन बनाता है।
Claude का संवैधानिक-AI प्रशिक्षण विशेष रूप से उन “मशीन संकेतों” को लक्षित करता है जिन्हें हमारा पर्यवेक्षित क्लासिफायर सीखता है — हिचकिचाहट पैटर्न, विशिष्ट संयोजकों का अत्यधिक उपयोग, अनुमानित पैराग्राफ संरचना। यह एक प्रत्यक्ष प्रतिकूल संबंध है: जनरेटर को उन विशेषताओं के विरुद्ध प्रशिक्षित किया जाता है जिन पर डिटेक्टर निर्भर करता है।
Claude 4.5 Sonnet और GPT-5.x कठिनाई में करीब हैं। उनके स्कोर वितरण हमारे वैलिडेशन डेटा में मानव आधार रेखा के साथ सबसे अधिक ओवरलैप करते हैं। यदि आपका वर्कफ़्लो इनमें से किसी भी मॉडल को लक्षित करता है, तो डिफ़ॉल्ट थ्रेशोल्ड पर कम रिकॉल की अपेक्षा करें और उच्च-संवेदनशीलता स्क्रीनिंग के लिए F1-ऑप्टिमल पर जाने पर विचार करें।
Gemini 1.5 Pro: AUC [AUC: ?]। Gemini 2.0: [AUC: ?]। Gemini 2.5: [AUC: ?]। Gemini ने संस्करणों में सबसे परिवर्तनशील पहचान प्रदर्शन दिखाया है — कुछ मध्यवर्ती रिलीज़ अस्थायी रूप से पिछड़ गए थे सुधार आने से पहले।
Gemini का बहु-मॉडल प्रशिक्षण का अर्थ है कि टेक्स्ट-केवल आउटपुट कभी-कभी छवि-कैप्शन या कोड-स्पष्टीकरण क्षेत्रों से अवशिष्ट पैटर्न लेते हैं। हमारा डिटेक्टर इन्हें पकड़ता है, जो शुद्ध गद्य की तुलना में मिश्रित-क्षेत्र प्रॉम्प्ट पर Gemini की थोड़ी अधिक पहचाने जाने योग्यता की व्याख्या करता है।
Google Workspace उपयोगकर्ताओं के लिए जिनके छात्र या कर्मचारी Docs के माध्यम से Gemini का उपयोग करते हैं, पहचान संकेत कच्चे API आउटपुट के समान है। हमने प्रत्यक्ष Gemini API उपयोग से अलग workspace-integration-विशिष्ट टालने के पैटर्न नहीं देखे हैं।
किसी भी LLM का आउटपुट पेस्ट करें और प्रति-वाक्य निर्णय देखें। हमारा डिटेक्टर सभी 22 मॉडल परिवारों को एकल एन्सेम्बल जाँच के रूप में मानता है।
Llama 3.1: AUC [AUC: ?]। Llama 3.3: [AUC: ?]। Qwen 2.5: [AUC: ?]। Qwen 3: [AUC: ?]। DeepSeek R1: [AUC: ?]। Mistral Large: [AUC: ?]। ओपन-वेट मॉडल बंद वाले की तुलना में व्यापक रेंज में फैले हैं — फाइन-ट्यूनिंग वेरिएंट, क्वांटाइज़्ड डिप्लॉयमेंट, और समुदाय-संशोधित चेकपॉइंट सभी सूक्ष्म रूप से अलग आउटपुट उत्पादित करते हैं।
ओपन-वेट पर पहचान रणनीतिक रूप से महत्वपूर्ण है क्योंकि मानवीकरण टूल आमतौर पर ओपन-वेट मॉडल पर बनाए जाते हैं — Llama और Mistral डेरिवेटिव स्थानीय रूप से कम लागत पर चलते हैं, इसीलिए पैराफ्रेज़िंग और स्टाइल-ट्रांसफर सेवाएँ उन्हें सस्ती कीमत देती हैं। यदि आपकी चिंता मानवीकृत AI है, तो आप अंततः Llama-परिवार पीढ़ी के विरुद्ध बचाव कर रहे हैं।
DeepSeek R1 और o3-mini (OpenAI रीज़निंग मॉडल) अलग उल्लेख के योग्य हैं। दोनों रीज़निंग-चेन अवशेषों के साथ टेक्स्ट उत्पादित करते हैं — आउटपुट में दृश्यमान स्पष्ट चरण-दर-चरण तर्क — जिसे हमारे डिटेक्टर ने पहचानना सीखा है। रीज़निंग मॉडल इस कारण वर्तमान में अपने बेस-चैट समकक्षों की तुलना में पहचानना आसान हैं।
यदि आप लिखने के लिए एक मॉडल चुन रहे हैं और पहचान आपकी चिंता नहीं है, तो Claude 4.5 Sonnet और GPT-5 पहचानने में सबसे कठिन हैं। यदि आप एक पहचान वर्कफ़्लो बना रहे हैं, तो उन मॉडलों को प्राथमिकता दें जो आप वास्तव में देखते हैं: अधिकांश शैक्षणिक दुरुपयोग अभी भी निःशुल्क इंटरफेस के माध्यम से GPT-4/5 पर चलता है; अधिकांश सामग्री-फार्मिंग Llama-व्युत्पन्न मानवीकरण पर चलती है।
एकल मॉडल परिवार पर प्रशिक्षित एकल डिटेक्टर दूसरों पर सबसे खराब प्रदर्शन करेगा। हमारा एन्सेम्बल दृष्टिकोण सभी 22 जनरेटरों के सैंपल पर प्रशिक्षित होता है, इसीलिए कठिन मामलों (Claude 4.5, GPT-5) पर प्रति-मॉडल AUC अभी भी 0.90 से ऊपर है जबकि कोई भी एकल-मॉडल-प्रशिक्षित डिटेक्टर 0.80 से नीचे गिर जाएगा।
अंतर्निहित रुझान: पहचान कठिनाई जनरेटर रिलीज़ कैडेंस से तेज़ी से बढ़ रही है। प्रत्येक नया फ्लैगशिप पिछले से पहचानना कठिन है, पुनः प्रशिक्षण अंतराल को बंद करता है लेकिन पूरी तरह से नहीं। अपेक्षा करें कि 2026–2027 आधार रेखा फ्रंटियर मॉडल पर कम AUC और विरासत मॉडल पर लगभग स्थिर होगी।
प्रति-मॉडल AUC संख्याएँ हमारी आंतरिक वैलिडेशन से प्राप्त हैं और सामान्यीकृत नहीं हो सकतीं। प्रत्येक मॉडल की कठिनाई समय के साथ बदलती है क्योंकि जनरेटर और हमारा प्रशिक्षण कॉर्पस दोनों विकसित होते हैं। वर्तमान डेटा 2026-04 बेंचमार्क रन को दर्शाता है।