शीर्ष पर जाएँ
घर कौन सा AI पहचानना सबसे कठिन है? GPT बनाम Claude बनाम Gemini | साहित्यिक चोरी डिटेक्टर

कौन सा AI पहचानना सबसे कठिन है? GPT बनाम Claude बनाम Gemini बनाम Llama

सभी AI टेक्स्ट समान रूप से पहचाने जाने योग्य नहीं हैं। यहाँ हमारे प्रति-जनरेटर बेंचमार्क के परिणाम हैं — कौन से मॉडल परिवारों को हमारा डिटेक्टर लगभग सही सटीकता से पकड़ता है, किन के साथ संघर्ष करता है, और यह आपको पहचान वर्कफ़्लो चुनने के बारे में क्या बताता है।

2026-04-17 · Plagiarism Detector Team

संक्षिप्त उत्तर — लीडरबोर्ड

[लीडरबोर्ड तालिका — प्रकाशन से पहले बेंचमार्क से वास्तविक प्रति-मॉडल AUC संख्याएँ भरें]

सबसे आसान से सबसे कठिन पहचान के क्रम में हमारे वैलिडेशन सेट पर व्यवस्थित। फैलाव व्यापक है — कुछ मॉडल परिवारों पर AUC 0.99 से अधिक है जबकि अन्य 0.80 के दशक में गिर जाते हैं। पहचान कठिनाई मॉडल के आकार, इंस्ट्रक्शन-ट्यूनिंग परिष्कार, और आउटपुट विचरण के साथ सहसंबंधित होती है।

पूर्ण प्रति-जनरेटर विश्लेषण पद्धति के लिए, हमारा सटीकता बेंचमार्क पृष्ठ देखें। यह लेख उन उपयोगकर्ताओं के लिए उस डेटा के व्यावहारिक निहितार्थों को सारांशित करता है जो यह चुन रहे हैं कि किस डिटेक्टर पर भरोसा करें और कौन सा मॉडल उपयोग करें।

OpenAI परिवार — GPT

GPT-3.5 पहचानना सबसे आसान आधुनिक मॉडल है — हमारे सेट पर AUC [AUC: ?]। विरासत पीढ़ी अवशेष (दोहराव, हिचकिचाहट, नीरस रजिस्टर) स्पष्ट रूप से मौजूद हैं। GPT-4 AUC [AUC: ?] तक गिरता है, GPT-4o [AUC: ?] तक, जो क्रमशः बेहतर कैलिब्रेशन को दर्शाता है। GPT-5.x परिवार में सबसे कठिन है — AUC [AUC: ?] — क्योंकि इंस्ट्रक्शन-ट्यूनिंग टीम ने स्पष्ट रूप से पहचान-अवशेष हटाने को लक्षित किया।

व्यावहारिक निहितार्थ: GPT-3.5-युग धोखाधड़ी के बारे में चिंतित शैक्षणिक वर्कफ़्लो अकेले पहचान पर बहुत अधिक निर्भर कर सकते हैं। GPT-5 के बारे में चिंतित वर्कफ़्लो को पहचान को संदर्भगत साक्ष्य के साथ जोड़ना होगा, जैसा कि हमारे शिक्षक वर्कफ़्लो गाइड में वर्णित है।

तापमान सेटिंग्स मायने रखती हैं। कम-तापमान आउटपुट (t≤0.5) पहचानना आसान है क्योंकि वे संकीर्ण शब्दावली पर प्रायिकता द्रव्यमान केंद्रित करते हैं। अधिकांश चैट इंटरफेस t≈0.7 पर डिफ़ॉल्ट होते हैं, टेक्स्ट को मध्यम रूप से पहचाने जाने योग्य ज़ोन में रखते हैं। प्रतिकूल उपयोगकर्ता स्पष्ट रूप से तापमान बढ़ाते हैं या विविध डिकोडिंग का उपयोग करते हैं रेंज को चौड़ा करने और पहचान से बचने के लिए — हमारा एन्सेम्बल आंशिक रूप से इसके लिए सुधार करता है लेकिन पूरी तरह से नहीं।

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]। Claude 3.5 Sonnet: [AUC: ?]। Claude 4 Opus: [AUC: ?]। Claude 4.5 Sonnet: [AUC: ?]। Claude परिवार लगातार समान-पीढ़ी GPT मॉडल की तुलना में कम दोहरावदार, अधिक शैलीगत रूप से विविध टेक्स्ट उत्पादित करता है, जो इसे सांख्यिकीय तरीकों से पहचानना कठिन बनाता है।

Claude का संवैधानिक-AI प्रशिक्षण विशेष रूप से उन “मशीन संकेतों” को लक्षित करता है जिन्हें हमारा पर्यवेक्षित क्लासिफायर सीखता है — हिचकिचाहट पैटर्न, विशिष्ट संयोजकों का अत्यधिक उपयोग, अनुमानित पैराग्राफ संरचना। यह एक प्रत्यक्ष प्रतिकूल संबंध है: जनरेटर को उन विशेषताओं के विरुद्ध प्रशिक्षित किया जाता है जिन पर डिटेक्टर निर्भर करता है।

Claude 4.5 Sonnet और GPT-5.x कठिनाई में करीब हैं। उनके स्कोर वितरण हमारे वैलिडेशन डेटा में मानव आधार रेखा के साथ सबसे अधिक ओवरलैप करते हैं। यदि आपका वर्कफ़्लो इनमें से किसी भी मॉडल को लक्षित करता है, तो डिफ़ॉल्ट थ्रेशोल्ड पर कम रिकॉल की अपेक्षा करें और उच्च-संवेदनशीलता स्क्रीनिंग के लिए F1-ऑप्टिमल पर जाने पर विचार करें।

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]। Gemini 2.0: [AUC: ?]। Gemini 2.5: [AUC: ?]। Gemini ने संस्करणों में सबसे परिवर्तनशील पहचान प्रदर्शन दिखाया है — कुछ मध्यवर्ती रिलीज़ अस्थायी रूप से पिछड़ गए थे सुधार आने से पहले।

Gemini का बहु-मॉडल प्रशिक्षण का अर्थ है कि टेक्स्ट-केवल आउटपुट कभी-कभी छवि-कैप्शन या कोड-स्पष्टीकरण क्षेत्रों से अवशिष्ट पैटर्न लेते हैं। हमारा डिटेक्टर इन्हें पकड़ता है, जो शुद्ध गद्य की तुलना में मिश्रित-क्षेत्र प्रॉम्प्ट पर Gemini की थोड़ी अधिक पहचाने जाने योग्यता की व्याख्या करता है।

Google Workspace उपयोगकर्ताओं के लिए जिनके छात्र या कर्मचारी Docs के माध्यम से Gemini का उपयोग करते हैं, पहचान संकेत कच्चे API आउटपुट के समान है। हमने प्रत्यक्ष Gemini API उपयोग से अलग workspace-integration-विशिष्ट टालने के पैटर्न नहीं देखे हैं।

किसी भी मॉडल से एक नमूना जाँचें

किसी भी LLM का आउटपुट पेस्ट करें और प्रति-वाक्य निर्णय देखें। हमारा डिटेक्टर सभी 22 मॉडल परिवारों को एकल एन्सेम्बल जाँच के रूप में मानता है।

Meta और ओपन-वेट मॉडल

Llama 3.1: AUC [AUC: ?]। Llama 3.3: [AUC: ?]। Qwen 2.5: [AUC: ?]। Qwen 3: [AUC: ?]। DeepSeek R1: [AUC: ?]। Mistral Large: [AUC: ?]। ओपन-वेट मॉडल बंद वाले की तुलना में व्यापक रेंज में फैले हैं — फाइन-ट्यूनिंग वेरिएंट, क्वांटाइज़्ड डिप्लॉयमेंट, और समुदाय-संशोधित चेकपॉइंट सभी सूक्ष्म रूप से अलग आउटपुट उत्पादित करते हैं।

ओपन-वेट पर पहचान रणनीतिक रूप से महत्वपूर्ण है क्योंकि मानवीकरण टूल आमतौर पर ओपन-वेट मॉडल पर बनाए जाते हैं — Llama और Mistral डेरिवेटिव स्थानीय रूप से कम लागत पर चलते हैं, इसीलिए पैराफ्रेज़िंग और स्टाइल-ट्रांसफर सेवाएँ उन्हें सस्ती कीमत देती हैं। यदि आपकी चिंता मानवीकृत AI है, तो आप अंततः Llama-परिवार पीढ़ी के विरुद्ध बचाव कर रहे हैं।

DeepSeek R1 और o3-mini (OpenAI रीज़निंग मॉडल) अलग उल्लेख के योग्य हैं। दोनों रीज़निंग-चेन अवशेषों के साथ टेक्स्ट उत्पादित करते हैं — आउटपुट में दृश्यमान स्पष्ट चरण-दर-चरण तर्क — जिसे हमारे डिटेक्टर ने पहचानना सीखा है। रीज़निंग मॉडल इस कारण वर्तमान में अपने बेस-चैट समकक्षों की तुलना में पहचानना आसान हैं।

ये अंतर आपके लिए क्या मायने रखते हैं

यदि आप लिखने के लिए एक मॉडल चुन रहे हैं और पहचान आपकी चिंता नहीं है, तो Claude 4.5 Sonnet और GPT-5 पहचानने में सबसे कठिन हैं। यदि आप एक पहचान वर्कफ़्लो बना रहे हैं, तो उन मॉडलों को प्राथमिकता दें जो आप वास्तव में देखते हैं: अधिकांश शैक्षणिक दुरुपयोग अभी भी निःशुल्क इंटरफेस के माध्यम से GPT-4/5 पर चलता है; अधिकांश सामग्री-फार्मिंग Llama-व्युत्पन्न मानवीकरण पर चलती है।

एकल मॉडल परिवार पर प्रशिक्षित एकल डिटेक्टर दूसरों पर सबसे खराब प्रदर्शन करेगा। हमारा एन्सेम्बल दृष्टिकोण सभी 22 जनरेटरों के सैंपल पर प्रशिक्षित होता है, इसीलिए कठिन मामलों (Claude 4.5, GPT-5) पर प्रति-मॉडल AUC अभी भी 0.90 से ऊपर है जबकि कोई भी एकल-मॉडल-प्रशिक्षित डिटेक्टर 0.80 से नीचे गिर जाएगा।

अंतर्निहित रुझान: पहचान कठिनाई जनरेटर रिलीज़ कैडेंस से तेज़ी से बढ़ रही है। प्रत्येक नया फ्लैगशिप पिछले से पहचानना कठिन है, पुनः प्रशिक्षण अंतराल को बंद करता है लेकिन पूरी तरह से नहीं। अपेक्षा करें कि 2026–2027 आधार रेखा फ्रंटियर मॉडल पर कम AUC और विरासत मॉडल पर लगभग स्थिर होगी।

अक्सर पूछे जाने वाले प्रश्नों

यदि कुछ मॉडल पहचानना कठिन हैं, तो क्या मुझे डिटेक्टरों का उपयोग बिल्कुल बंद कर देना चाहिए?
नहीं — सबसे कठिन मॉडल परिवारों पर भी हमारा AUC 0.85 से ऊपर है, जो एक मजबूत संकेत है। प्रश्न यह है कि आप संकेत का उपयोग कैसे करते हैं। पहचानना-कठिन मॉडलों के लिए, स्कोर को पुष्टि करने वाले साक्ष्य (संपादन इतिहास, कक्षा-में काम, छात्र बातचीत) के साथ जोड़ें। आसान मॉडलों के लिए, स्कोर अकेले अक्सर पर्याप्त होता है।
यदि मैं पहचान से बचना चाहता हूँ तो मुझे कौन सा मॉडल उपयोग करना चाहिए?
हम इस प्रश्न का सीधे उत्तर नहीं देते — हम एक पहचान टूल चलाते हैं, न कि टालने की गाइड। हम यह कहेंगे: पहचाने जाने योग्य बनाम न पहचाने जाने योग्य मॉडल चुनने का सही अक्ष नहीं है। गुणवत्ता, लागत, और उद्देश्य-उपयुक्तता पहचान कठिनाई से कहीं अधिक मायने रखते हैं। यदि आप AI सहायता के साथ वैध रूप से लिख रहे हैं, तो प्रकटीकरण और पारदर्शी वर्कफ़्लो टूल छुपाने से अधिक मायने रखते हैं।
क्या ओपन-वेट मॉडल वेरिएंट की अलग पहचान प्रोफाइल हैं?
हाँ, और सार्थक रूप से। एक विशिष्ट लेखन शैली के लिए प्रशिक्षित समुदाय-फाइन-ट्यून किया गया Llama 3.3 वेरिएंट वेनिला Llama 3.3 से अलग स्कोर करने वाला टेक्स्ट उत्पादित कर सकता है। हमारा बेंचमार्क मानक चेकपॉइंट को कवर करता है; कस्टम फाइन-ट्यून आसान हो सकते हैं (यदि वे आउटपुट वितरण को संकीर्ण करते हैं) या कठिन (यदि वे स्पष्ट रूप से पहचान के विरुद्ध प्रतिकूल-प्रशिक्षण करते हैं)।
तापमान और सैंपलिंग पहचाने जाने योग्यता को कैसे प्रभावित करती है?
उच्च तापमान और अधिक विविध सैंपलिंग आम तौर पर पहचाने जाने योग्यता को कम करते हैं क्योंकि वे आउटपुट वितरण को चौड़ा करते हैं। कम-तापमान लालची डिकोडिंग पहचानना सबसे आसान है। अधिकांश उत्पादन चैट इंटरफेस न्यूक्लियस सैंपलिंग के साथ t≈0.7–1.0 पर चलते हैं, जो उन्हें मध्यम रूप से पहचाने जाने योग्य व्यवस्था में रखता है — हमारा एन्सेम्बल डिफ़ॉल्ट रेंज में समान रूप से प्रदर्शन करता है।
GPT-6 या Claude 5 कब आएंगे और मुझे क्या उम्मीद करनी चाहिए?
मध्य-2026 दोनों के लिए आम सहमति पूर्वानुमान है। नए परिवारों पर पहचान AUC के लॉन्च के बाद पहले 4–8 सप्ताह में 0.80–0.85 रेंज में गिरने की अपेक्षा करें जबकि हम सैंपल इकट्ठा करते हैं और पुनः प्रशिक्षण करते हैं। ऐतिहासिक संस्करण बताते हैं कि यदि मॉडल व्यापक रूप से उपलब्ध हो तो 8–12 सप्ताह में पूर्ण पुनर्प्राप्ति होती है; दुर्लभ या सीमित-पहुँच मॉडलों के लिए अधिक।

प्रति-मॉडल AUC संख्याएँ हमारी आंतरिक वैलिडेशन से प्राप्त हैं और सामान्यीकृत नहीं हो सकतीं। प्रत्येक मॉडल की कठिनाई समय के साथ बदलती है क्योंकि जनरेटर और हमारा प्रशिक्षण कॉर्पस दोनों विकसित होते हैं। वर्तमान डेटा 2026-04 बेंचमार्क रन को दर्शाता है।