वैज्ञानिक अभिलेख

स्वतंत्र रूप से सत्यापन योग्य बेंचमार्क रिकॉर्ड, 2009 – 2026

साहित्यिक चोरी डिटेक्टर एक ब्लैक बॉक्स नहीं है। इसके डिटेक्शन इंजन को इस क्षेत्र की प्राथमिक वैज्ञानिक बेंचमार्क — PAN प्रतियोगिता — में प्रविष्ट किया गया है और नौ अंतरराष्ट्रीय मूल्यांकनों में स्वतंत्र शैक्षणिक आयोजकों द्वारा परखा गया है। पूर्ण रिकॉर्ड नीचे दिया गया है; प्रत्येक परिणाम अपने आधिकारिक स्रोत से लिंक है।

प्रमुख डेवलपर और शोधकर्ता: Yurii Palkovskii · Zhytomyr State University · SkyLine LLC · DBLP प्रोफ़ाइल

संक्षेप में 2009 से 2014 के बीच इंजन ने साहित्यिक चोरी पहचान पर सभी छह वार्षिक PAN अंतरराष्ट्रीय प्रतियोगिताओं और भारत में दो PAN@FIRE क्रॉस-लैंग्वेज टास्क में भाग लिया — 2012 में English–Hindi CL!NSS टास्क जीता। 2026 में उसी परंपरा ने PAN के Voight-Kampff Generative AI Detection टास्क में भाग लिया और मूल्यांकन में किसी भी प्रणाली की तुलना में सर्वोच्च ROC-AUC (0.996) दर्ज किया, जो 34 टीमों में तीसरे स्थान पर रहा। यह उत्पाद 2007 से निरंतर उपलब्ध है।

पूर्ण प्रतियोगिता रिकॉर्ड

नौ मूल्यांकन, प्रत्येक परिणाम का स्रोत सहित

वर्ष	प्रतियोगिता	स्थान	टास्क	रैंक	स्कोर	स्रोत
2009	साहित्यिक चोरी पहचान पर पहली अंतरराष्ट्रीय प्रतियोगिता	PAN @ SEPLN · San Sebastián	बाहरी पहचान	4 / 10	0.3045	अवलोकन
2010	साहित्यिक चोरी पहचान पर दूसरी अंतरराष्ट्रीय प्रतियोगिता	PAN @ CLEF · Padua	बाहरी पहचान	8 / 18	0.5093	अवलोकन · पेपर
2011	साहित्यिक चोरी पहचान पर तीसरी अंतरराष्ट्रीय प्रतियोगिता	PAN @ CLEF · Amsterdam	बाहरी (WordNet प्रयोग)	7 / 9	0.19	अवलोकन · पेपर
2011	CL!TR — Cross-Language Indian Text Re-Use	PAN@FIRE · IIT Bombay, Mumbai	Hindi↔English पुनः उपयोग	4 (सर्वश्रेष्ठ रन)	F 0.603	लीडरबोर्ड · अवलोकन
2012	साहित्यिक चोरी पहचान पर चौथी अंतरराष्ट्रीय प्रतियोगिता	PAN @ CLEF · Rome	टेक्स्ट संरेखण	6 / 10	0.538	अवलोकन · पेपर
2012	CL!NSS — Cross-Language Indian News Story Search 1ST	PAN@FIRE · ISI Kolkata	पत्रकारिता पुनः उपयोग (en→hi)	1 / 3	NDCG@10 0.34	अवलोकन · पेपर
2013	साहित्यिक चोरी पहचान पर पाँचवीं अंतरराष्ट्रीय प्रतियोगिता	PAN @ CLEF · Valencia	टेक्स्ट संरेखण	6 / 9	0.61523	अवलोकन · पेपर
2014	साहित्यिक चोरी पहचान पर छठी अंतरराष्ट्रीय प्रतियोगिता 1ST*	PAN @ CLEF · Sheffield	टेक्स्ट संरेखण	1 std · 3/10	0.868	अवलोकन · पेपर
2026	Voight-Kampff Generative AI Detection TOP AUC	PAN @ CLEF · Jena	मानव-बनाम-AI टेक्स्ट	3 / 34	ROC-AUC 0.996	लीडरबोर्ड

plagdet = PAN का समग्र साहित्यिक चोरी पहचान स्कोर (सटीकता, रिकॉल और ग्रैन्यूलैरिटी का संयोजन)। NDCG@10 = रैंकिंग गुणवत्ता। ROC-AUC = थ्रेशोल्ड-स्वतंत्र वर्गीकरण गुणवत्ता। *2014: मानक परीक्षण कॉर्पस पर प्रथम स्थान, आधिकारिक रैंकिंग कॉर्पस पर 10 में से तीसरा। 2026: 34 टीमों में तीसरा; किसी भी टीम या बेसलाइन से अधिक ROC-AUC।

प्रयोगशाला से उत्पाद तक

वे विधियाँ जिन पर आप भरोसा कर रहे हैं

प्रत्येक प्रतियोगिता ने एक ऐसी तकनीक को प्रलेखित किया जो शिपिंग इंजन को सूचित करती है। शोध और सॉफ़्टवेयर एक ही परंपरा हैं — विपणन दावे नहीं, बल्कि प्रकाशित, सहकर्मी-समीक्षित विधियाँ।

N-gram फिंगरप्रिंटिंग

पुनः उपयोग किए गए अंशों की तेज़ उम्मीदवार पहचान (PAN 2010, 2014)।

टेक्स्ट संरेखण

उच्च सटीकता के साथ स्रोत ↔ संदिग्ध अंशों का सटीक मिलान (PAN 2012–2014)।

सिमेंटिक और क्रॉस-लैंग्वेज समानता

पैराफ्रेज़ और क्रॉस-लिंगुअल पुनः उपयोग के लिए WordNet और TF-IDF / अनुवाद विधियाँ (PAN 2011; FIRE 2011–2012)।

AI-जनित टेक्स्ट पहचान

मानव बनाम मशीन लेखकत्व में भेद — PAN 2026 में शीर्ष ROC-AUC।

सहकर्मी-समीक्षित प्रकाशन

ग्रंथसूची

Developing a High-Resolution Universal Multi-Type N-Gram Plagiarism Detector. Palkovskii & Belov. PAN @ CLEF 2014 Working Notes. CEUR-WS Vol-1180 ↗
Using Hybrid Similarity Methods for Plagiarism Detection. Palkovskii & Belov. PAN @ CLEF 2013. CEUR-WS Vol-1179 ↗
Applying Specific Clusterization & Fingerprint Density Distribution with a Genetic Algorithm. Palkovskii & Belov. PAN @ CLEF 2012. CEUR-WS Vol-1178 ↗
Using a TF-IDF Weight Ranking Model in CL!NSS. Palkovskii & Belov. FIRE 2012, ISI Kolkata. FIRE working notes ↗
Using WordNet-Based Semantic Similarity Measurement in External Plagiarism Detection. Palkovskii & Belov. PAN @ CLEF 2011. CEUR-WS Vol-1177 ↗
Exploring Fingerprinting as an External Plagiarism Detection Method. Palkovskii & Belov. PAN @ CLEF 2010. CEUR-WS Vol-1176 ↗
"Counter Plagiarism Detection Software" & "Counter-Counter Plagiarism Detection" Methods. Palkovskii. PAN'09. CEUR-WS Vol-502 ↗

लेखक के बारे में

Yurii Palkovskii

शोधकर्ता और प्रमुख डेवलपर · Zhytomyr State University, Institute of Foreign Philology · SkyLine LLC

साहित्यिक चोरी और AI-जनित टेक्स्ट पहचान पर CLEF/CEUR-WS और FIRE कार्यवाही में सात सहकर्मी-समीक्षित पेपर के लेखक, जिनके परिणाम PAN आयोजन समिति (Potthast, Stein, Rosso, Hagen et al.) द्वारा स्वतंत्र रूप से मूल्यांकित किए गए हैं।

DBLP प्रोफ़ाइल ↗

AI और साहित्यिक चोरी परखक आज़माएँ →

इस पृष्ठ पर प्रत्येक रैंक और स्कोर आधिकारिक प्रतियोगिता अवलोकन पेपर या लीडरबोर्ड से लिया गया है जो उसके साथ लिंक है — इस वेबसाइट से स्वतंत्र रूप से सत्यापन योग्य। उत्पाद 2007 से सक्रिय विकास में है; वर्तमान बिल्ड #2965।