साहित्यिक चोरी डिटेक्टर एक ब्लैक बॉक्स नहीं है। इसके डिटेक्शन इंजन को इस क्षेत्र की प्राथमिक वैज्ञानिक बेंचमार्क — PAN प्रतियोगिता — में प्रविष्ट किया गया है और नौ अंतरराष्ट्रीय मूल्यांकनों में स्वतंत्र शैक्षणिक आयोजकों द्वारा परखा गया है। पूर्ण रिकॉर्ड नीचे दिया गया है; प्रत्येक परिणाम अपने आधिकारिक स्रोत से लिंक है।
| वर्ष | प्रतियोगिता | स्थान | टास्क | रैंक | स्कोर | स्रोत |
|---|---|---|---|---|---|---|
| 2009 | साहित्यिक चोरी पहचान पर पहली अंतरराष्ट्रीय प्रतियोगिता | PAN @ SEPLN · San Sebastián | बाहरी पहचान | 4 / 10 | 0.3045 | अवलोकन |
| 2010 | साहित्यिक चोरी पहचान पर दूसरी अंतरराष्ट्रीय प्रतियोगिता | PAN @ CLEF · Padua | बाहरी पहचान | 8 / 18 | 0.5093 | अवलोकन · पेपर |
| 2011 | साहित्यिक चोरी पहचान पर तीसरी अंतरराष्ट्रीय प्रतियोगिता | PAN @ CLEF · Amsterdam | बाहरी (WordNet प्रयोग) | 7 / 9 | 0.19 | अवलोकन · पेपर |
| 2011 | CL!TR — Cross-Language Indian Text Re-Use | PAN@FIRE · IIT Bombay, Mumbai | Hindi↔English पुनः उपयोग | 4 (सर्वश्रेष्ठ रन) | F 0.603 | लीडरबोर्ड · अवलोकन |
| 2012 | साहित्यिक चोरी पहचान पर चौथी अंतरराष्ट्रीय प्रतियोगिता | PAN @ CLEF · Rome | टेक्स्ट संरेखण | 6 / 10 | 0.538 | अवलोकन · पेपर |
| 2012 | CL!NSS — Cross-Language Indian News Story Search 1ST | PAN@FIRE · ISI Kolkata | पत्रकारिता पुनः उपयोग (en→hi) | 1 / 3 | NDCG@10 0.34 | अवलोकन · पेपर |
| 2013 | साहित्यिक चोरी पहचान पर पाँचवीं अंतरराष्ट्रीय प्रतियोगिता | PAN @ CLEF · Valencia | टेक्स्ट संरेखण | 6 / 9 | 0.61523 | अवलोकन · पेपर |
| 2014 | साहित्यिक चोरी पहचान पर छठी अंतरराष्ट्रीय प्रतियोगिता 1ST* | PAN @ CLEF · Sheffield | टेक्स्ट संरेखण | 1 std · 3/10 | 0.868 | अवलोकन · पेपर |
| 2026 | Voight-Kampff Generative AI Detection TOP AUC | PAN @ CLEF · Jena | मानव-बनाम-AI टेक्स्ट | 3 / 34 | ROC-AUC 0.996 | लीडरबोर्ड |
plagdet = PAN का समग्र साहित्यिक चोरी पहचान स्कोर (सटीकता, रिकॉल और ग्रैन्यूलैरिटी का संयोजन)। NDCG@10 = रैंकिंग गुणवत्ता। ROC-AUC = थ्रेशोल्ड-स्वतंत्र वर्गीकरण गुणवत्ता। *2014: मानक परीक्षण कॉर्पस पर प्रथम स्थान, आधिकारिक रैंकिंग कॉर्पस पर 10 में से तीसरा। 2026: 34 टीमों में तीसरा; किसी भी टीम या बेसलाइन से अधिक ROC-AUC।
प्रत्येक प्रतियोगिता ने एक ऐसी तकनीक को प्रलेखित किया जो शिपिंग इंजन को सूचित करती है। शोध और सॉफ़्टवेयर एक ही परंपरा हैं — विपणन दावे नहीं, बल्कि प्रकाशित, सहकर्मी-समीक्षित विधियाँ।
पुनः उपयोग किए गए अंशों की तेज़ उम्मीदवार पहचान (PAN 2010, 2014)।
उच्च सटीकता के साथ स्रोत ↔ संदिग्ध अंशों का सटीक मिलान (PAN 2012–2014)।
पैराफ्रेज़ और क्रॉस-लिंगुअल पुनः उपयोग के लिए WordNet और TF-IDF / अनुवाद विधियाँ (PAN 2011; FIRE 2011–2012)।
मानव बनाम मशीन लेखकत्व में भेद — PAN 2026 में शीर्ष ROC-AUC।