किसी भी प्रकार के साहित्यिक चोरी विश्लेषण शुरू होने से पहले, सॉफ़्टवेयर को प्रस्तुत दस्तावेज़ से स्वच्छ, खोज योग्य पाठ निकालना आवश्यक है। यह समस्या देखने में जितनी सरल लगती है, उससे कहीं अधिक जटिल है, क्योंकि दस्तावेज़ कई प्रकार के प्रारूपों में आते हैं - DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT और HTML आदि - जिनमें से प्रत्येक की अपनी आंतरिक संरचना, प्रारूपण, मेटाडेटा, अंतर्निहित ऑब्जेक्ट और एन्कोडिंग होती है। एक विश्वसनीय पाठ निष्कर्षण प्रणाली को इन सभी प्रारूपों को सुसंगत रूप से संभालना चाहिए और तुलना के लिए उपयुक्त मानकीकृत सादा पाठ उत्पन्न करना चाहिए।
प्लेगरिज्म डिटेक्टर विश्वसनीयता को अधिकतम करने के लिए 5-स्तरीय टेक्स्ट एक्सट्रैक्शन आर्किटेक्चर का उपयोग करता है। DOCX फ़ाइलों के लिए, पहला स्तर सीधे नेटिव DocX XML संरचना को पार्स करता है। यदि यह विफल हो जाता है (खराब फ़ाइल या गैर-मानक फ़ॉर्मेटिंग के कारण), तो सिस्टम Microsoft के iFilter इंटरफ़ेस, फिर रॉ OpenXML पार्सिंग और अंत में अंतिम उपाय के रूप में Apache Tika यूनिवर्सल एक्सट्रैक्टर का उपयोग करता है। इस क्रमिक प्रक्रिया का अर्थ है कि क्षतिग्रस्त या गैर-मानक दस्तावेज़ों से भी उपयोगी टेक्स्ट प्राप्त होता है। यही बहु-स्तरीय सिद्धांत सभी 12+ समर्थित फ़ॉर्मेट पर लागू होता है, जिससे यह सुनिश्चित होता है कि कोई भी दस्तावेज़ अप्रसंस्कृत न रह जाए।
निष्कर्षण प्रक्रिया में एन्कोडिंग मानकीकरण भी शामिल है - विभिन्न वर्ण एन्कोडिंग (UTF-8, UTF-16, Windows-1252, ISO-8859) से पाठ को एक एकीकृत आंतरिक रूप में परिवर्तित करना। यह अत्यंत महत्वपूर्ण है क्योंकि एन्कोडिंग में विसंगति के कारण एक ही पाठ बाइट स्तर पर भिन्न दिखाई दे सकता है, जिससे साहित्यिक चोरी का पता लगाना मुश्किल हो जाता है। सही निष्कर्षण प्रक्रिया बाद के सभी पहचान चरणों के लिए आधार तैयार करती है।
एक बार जब साफ टेक्स्ट निकाल लिया जाता है, तो डिटेक्शन इंजन इसे टेक्स्ट फिंगरप्रिंटिंग नामक प्रक्रिया के माध्यम से विश्लेषण योग्य इकाइयों में तोड़ देता है। दस्तावेज़ को शब्दों के ओवरलैपिंग अनुक्रमों (एन-ग्राम) में विभाजित किया जाता है, और प्रत्येक अनुक्रम को एक कॉम्पैक्ट संख्यात्मक हैश - फिंगरप्रिंट में परिवर्तित किया जाता है। ये फिंगरप्रिंट कुशल पहचानकर्ता के रूप में कार्य करते हैं जिनकी तुलना अन्य स्रोतों से प्राप्त फिंगरप्रिंट से हर बार महंगे पूर्ण-पाठ तुलना किए बिना तेजी से की जा सकती है।
फिंगरप्रिंटिंग एल्गोरिदम को संवेदनशीलता और दक्षता के बीच संतुलन बनाए रखना चाहिए। छोटे एन-ग्राम (3-4 शब्द) अधिक मिलान पकड़ते हैं, लेकिन सामान्य वाक्यांशों से अत्यधिक गलत सकारात्मक परिणाम उत्पन्न करते हैं। लंबे एन-ग्राम (8-10 शब्द) अधिक विशिष्ट होते हैं, लेकिन कुछ शब्दों में बदलाव होने पर साहित्यिक चोरी का पता नहीं लगा पाते। उन्नत प्रणालियाँ परिवर्तनीय लंबाई की फिंगरप्रिंटिंग का उपयोग करती हैं, जिन्हें छँटाई एल्गोरिदम के साथ जोड़ा जाता है जो फिंगरप्रिंट के एक प्रतिनिधि उपसमूह का चयन करते हैं, जिससे किसी भी आकार के दस्तावेज़ों के लिए तुलना क्षेत्र को प्रबंधनीय रखते हुए पहचान सटीकता बनी रहती है।
दस्तावेज़ की फिंगरप्रिंटिंग हो जाने के बाद, डिटेक्शन इंजन को उन फिंगरप्रिंट्स की तुलना इंटरनेट पर मौजूद अन्य सामग्री से करनी होती है। प्लेगरिज्म डिटेक्टर एक विशिष्ट दृष्टिकोण अपनाता है: यह किसी एक मालिकाना डेटाबेस पर निर्भर रहने के बजाय, एक साथ चार प्रमुख सर्च इंजनों - गूगल, बिंग, याहू और डकडकगो - से क्वेरी करता है, जिनके संयुक्त रूप से 4 अरब से अधिक वेब पेजों के इंडेक्स का उपयोग करता है। यह मल्टी-इंजन रणनीति स्रोत कवरेज को काफी बढ़ा देती है, क्योंकि प्रत्येक सर्च इंजन वेब के अलग-अलग हिस्सों को इंडेक्स करता है और परिणामों को अलग-अलग रैंकिंग देता है।
क्वेरी प्रक्रिया खोज प्रश्नों के रूप में प्रस्तुत करने के लिए पाठ खंडों के बुद्धिमानीपूर्ण रोटेशन और चयन का उपयोग करती है। हर फिंगरप्रिंट की क्वेरी नहीं की जाती - इंजन दस्तावेज़ से सबसे विशिष्ट अंशों का चयन करता है, जो सामान्य वाक्यांशों के बजाय सार्थक मिलान लौटाने की सबसे अधिक संभावना रखते हैं। क्वेरी शेड्यूलिंग दर सीमाओं को प्रबंधित करती है और थ्रूपुट बनाए रखने के लिए अनुरोधों को विभिन्न इंजनों में वितरित करती है। इसका परिणाम सार्वजनिक रूप से उपलब्ध इंटरनेट सामग्री का एक व्यापक सर्वेक्षण है जिसे कोई एकल-इंजन दृष्टिकोण दोहरा नहीं सकता, जिसमें अकादमिक भंडार, समाचार अभिलेखागार, सामग्री फार्म, निबंध लेखन संस्थान और सामान्य वेब पेज सभी शामिल हैं।
जब सर्च इंजन क्वेरी संभावित रूप से मेल खाने वाले यूआरएल लौटाती हैं, तो डिटेक्शन इंजन स्रोत पुनर्प्राप्ति और तुलना चरण में प्रवेश करता है। प्रत्येक संभावित स्रोत पृष्ठ को फ़ेच किया जाता है, उसकी सामग्री निकाली जाती है और उसे सामान्यीकृत किया जाता है (वास्तविक लेख पाठ को अलग करने के लिए एचटीएमएल टैग, नेविगेशन तत्व, हेडर और फ़ूटर को हटाकर), और फिर प्रस्तुत दस्तावेज़ के साथ संरेखित किया जाता है। यह संरेखण अनुक्रम मिलान एल्गोरिदम का उपयोग करता है जो विराम चिह्नों, रिक्त स्थान और फ़ॉर्मेटिंग में मामूली भिन्नताओं को ध्यान में रखते हुए, दोनों पाठों के बीच सबसे लंबे सामान्य अनुक्रमों की पहचान करता है।
यह तुलना केवल सटीक मिलान तक सीमित नहीं है। इंजन फ़ज़ी मैचिंग का उपयोग करके उन अंशों की पहचान करता है जहाँ अलग-अलग शब्दों को समानार्थी शब्दों से बदला गया है, वाक्यों का क्रम बदला गया है, या जोड़ने वाले वाक्यांशों को जोड़ा या हटाया गया है। इससे सबसे आम बचाव तकनीक का पता चलता है: सतही पुनर्शब्दीकरण जो मूल अर्थ और संरचना को संरक्षित रखता है। प्रत्येक मिलान किए गए खंड को उसके स्रोत URL, ओवरलैप के प्रतिशत और संबंधित विशिष्ट पाठ अंशों के साथ रिकॉर्ड किया जाता है, जिससे मौलिकता रिपोर्ट के लिए कच्चा डेटा तैयार होता है।
सभी स्रोतों को प्राप्त करने और उनकी तुलना करने के बाद, इंजन एक समानता स्कोर की गणना करता है - एक प्रतिशत जो दर्शाता है कि प्रस्तुत दस्तावेज़ बाहरी स्रोतों से कितना मेल खाता है। यह गणना एक साधारण अनुपात से कहीं अधिक सूक्ष्म है। इंजन विभिन्न प्रकार के मिलानों में अंतर करता है: सटीक प्रतियां, लगभग मिलते-जुलते अंश (पुनर्कथन किए गए अंश), उचित रूप से उद्धृत और संदर्भित सामग्री, और सामान्य वाक्यांश या मानक पाठ जो साहित्यिक चोरी का संकेत नहीं देते हैं।
प्लेगरिज्म डिटेक्टर का संदर्भ पहचान सिस्टम दस्तावेज़ में मौजूद उद्धरणों, कथनों और ग्रंथसूची संदर्भों को स्वतः पहचान लेता है और उन्हें बिना संदर्भ वाले संदर्भों से अलग मानता है। उद्धरण चिह्नों में लिखे और उसके बाद दिए गए उद्धरण को वैध संदर्भ माना जाता है, न कि साहित्यिक चोरी। इससे समानता स्कोर में अत्यधिक वृद्धि नहीं होती, जो अन्यथा स्रोतों के उचित उपयोग के कारण अच्छी तरह से शोध किए गए शोध पत्रों को दंडित कर सकती है। अंतिम स्कोर वास्तविक मौलिकता संबंधी चिंताओं को दर्शाता है, जिससे समीक्षक को एक सार्थक और उपयोगी मापदंड मिलता है।
जैसे-जैसे AI द्वारा जनरेट किया गया टेक्स्ट अधिक प्रचलित होता जा रहा है, साहित्यिक चोरी का पता लगाने के लिए ऐसे कंटेंट की पहचान करना आवश्यक हो गया है जो किसी मौजूदा स्रोत से कॉपी नहीं किया गया है, लेकिन फिर भी मौलिक मानवीय रचना नहीं है। साहित्यिक चोरी डिटेक्टर में 0.98 की संवेदनशीलता वाला एक एकीकृत AI कंटेंट डिटेक्शन मॉड्यूल शामिल है, जो ChatGPT, Gemini और HuggingChat जैसे बड़े भाषा मॉडलों द्वारा निर्मित टेक्स्ट की पहचान करने में सक्षम है। यह डिटेक्शन टेक्स्ट के सांख्यिकीय गुणों - शब्द आवृत्ति वितरण, वाक्य-स्तरीय जटिलता, परिवर्तनशीलता (burstiness) पैटर्न और टोकन संभाव्यता अनुक्रम - का विश्लेषण करके कार्य करता है, जो मानव और मशीन लेखन के बीच व्यवस्थित रूप से भिन्न होते हैं।
मानव लेखन में वाक्यों की लंबाई में अधिक भिन्नता, शब्दों का अप्रत्याशित चयन और जटिलता के अनियमित पैटर्न देखने को मिलते हैं। इसके विपरीत, AI द्वारा निर्मित पाठ सांख्यिकीय रूप से संभावित शब्द अनुक्रमों की ओर प्रवृत्त होता है, जिसमें अधिक एकरूप वाक्य संरचना और संभाव्यता वितरण में एक विशिष्ट "सुचारूतापन" होता है। यह पहचान मॉडल मानव और AI दोनों प्रकार के पाठों के विशाल संग्रह पर प्रशिक्षित है और यह पैराग्राफ स्तर पर कार्य करके विस्तृत परिणाम प्रदान करता है। यह विश्लेषण एक ही स्कैन में पारंपरिक साहित्यिक चोरी पहचान के साथ चलता है, इसलिए समीक्षकों को अलग-अलग उपकरणों या कार्यप्रणालियों की आवश्यकता के बिना, नकल की गई सामग्री और AI द्वारा निर्मित अंशों दोनों को कवर करने वाली एक एकीकृत रिपोर्ट प्राप्त होती है।
चालाक उपयोगकर्ता विभिन्न तकनीकी युक्तियों के माध्यम से साहित्यिक चोरी का पता लगाने से बचने का प्रयास करते हैं। सबसे आम बचाव तकनीक यूनिकोड वर्ण प्रतिस्थापन है - लैटिन अक्षरों को अन्य यूनिकोड लिपियों के दिखने में समान अक्षरों से बदलना। उदाहरण के लिए, स्क्रीन पर सिरिलिक अक्षर "a" (U+0430) लैटिन अक्षर "a" (U+0061) के समान दिखता है, लेकिन कोड पॉइंट स्तर पर वे अलग-अलग अक्षर हैं। एक सामान्य पाठ तुलना सिरिलिक "a" के साथ लिखे गए "academic" को पूरी तरह से अलग शब्द मानेगी, जिससे साहित्यिक चोरी वाला अंश पूरी तरह से पकड़ से बच जाएगा।
प्लेगरिज्म डिटेक्टर अपने Unicode Anti-Cheating Engine (UACE) के माध्यम से इस समस्या का समाधान करता है। तुलना से पहले, UACE यूनिकोड ब्लॉकों (सिरिलिक, ग्रीक, अर्मेनियाई और अन्य लिपियों जिनमें मिलते-जुलते अक्षर होते हैं) में दिखने में एक जैसे अक्षरों को उनके लैटिन समकक्षों से मिलाकर सभी पाठ को सामान्यीकृत करता है। यह इंजन सैकड़ों अक्षर युग्मों को कवर करने वाली एक व्यापक प्रतिस्थापन तालिका रखता है। यह सामान्यीकरण पाठ निष्कर्षण चरण के दौरान पारदर्शी रूप से होता है, इसलिए प्रत्येक बाद का पहचान चरण मूल दस्तावेज़ में इस्तेमाल किए गए अक्षर संबंधी किसी भी हेरफेर की परवाह किए बिना, स्वच्छ और प्रामाणिक पाठ पर कार्य करता है।
अक्षर प्रतिस्थापन के अलावा, UACE अन्य तरीकों का भी पता लगाता है जिनमें शब्दों या अक्षरों के बीच अदृश्य यूनिकोड वर्णों (शून्य-चौड़ाई वाले रिक्त स्थान, शून्य-चौड़ाई वाले संयोजक, सॉफ्ट हाइफ़न) का सम्मिलन, दस्तावेज़ों में छिपा हुआ सफेद-पर-सफेद पाठ, और पहचानने योग्य वाक्यांशों को तोड़ने के लिए डाले गए माइक्रो-फ़ॉन्ट पाठ शामिल हैं। इन तकनीकों को मौलिकता रिपोर्ट में जानबूझकर की गई हेरफेर के प्रयासों के रूप में चिह्नित किया जाता है, जिससे समीक्षक को सचेत किया जाता है कि लेखक ने सक्रिय रूप से पता लगने से बचने का प्रयास किया है - जो स्वयं साहित्यिक चोरी के इरादे का एक मजबूत प्रमाण है।
साहित्यिक चोरी और एआई-जनित सामग्री की जांच शुरू करने के लिए एक निःशुल्क डेमो डाउनलोड करें या लाइसेंस खरीदें।
जांच प्रक्रिया का अंतिम चरण ओरिजिनैलिटी रिपोर्ट है - एक विस्तृत दस्तावेज़ जो सभी निष्कर्षों को व्यवस्थित और समीक्षा योग्य प्रारूप में प्रस्तुत करता है। रिपोर्ट में प्रस्तुत पाठ में मेल खाने वाले अंशों को स्रोत के अनुसार रंग-कोडित करके हाइलाइट किया गया है, और प्रत्येक मिलान को उसके संबंधित URL या डेटाबेस प्रविष्टि से जोड़ा गया है। सारांश अनुभाग में समग्र समानता स्कोर, मेल खाने वाले स्रोतों की संख्या, AI द्वारा उत्पन्न सामग्री का प्रतिशत और मिलान प्रकारों (सटीक, पुनर्कथन, उद्धृत) का विवरण दिया गया है।
संस्थानों के लिए, मौलिकता रिपोर्ट पर संगठन का लोगो लगाया जा सकता है, जिससे अकादमिक सत्यनिष्ठा रिकॉर्ड के लिए एक पेशेवर, मानकीकृत प्रारूप उपलब्ध होता है। ये रिपोर्ट साक्ष्य-स्तरीय होती हैं और औपचारिक समीक्षा प्रक्रियाओं, अकादमिक सत्यनिष्ठा सुनवाई या कानूनी संदर्भों में उपयोग के लिए उपयुक्त हैं। रिपोर्ट में प्रत्येक दावे की स्वतंत्र रूप से पुष्टि की जा सकती है: समीक्षक मूल स्रोत पर क्लिक करके मिलान की पुष्टि स्वयं कर सकते हैं। यह पारदर्शिता सुनिश्चित करती है कि साहित्यिक चोरी के निष्कर्ष उचित और निष्पक्ष हों, जिससे समीक्षा प्रक्रिया की सत्यनिष्ठा और मूल्यांकन किए जा रहे व्यक्ति के अधिकारों दोनों की रक्षा होती है।
साहित्यिक चोरी का पता लगाने में एक मूलभूत वास्तुशिल्पीय विकल्प यह है कि दस्तावेज़ों को उपयोगकर्ता के कंप्यूटर पर स्थानीय रूप से संसाधित किया जाए या दूरस्थ क्लाउड सर्वर पर अपलोड किया जाए। क्लाउड-आधारित साहित्यिक चोरी जाँचकर्ताओं को उपयोगकर्ताओं को अपने दस्तावेज़ प्रदाता के सर्वरों पर अपलोड करने की आवश्यकता होती है, जहाँ पाठ को निकाला जाता है, विश्लेषण किया जाता है और अक्सर डेटाबेस में संग्रहीत किया जाता है। इससे गोपनीयता और निजता संबंधी गंभीर चिंताएँ उत्पन्न होती हैं - विशेष रूप से संवेदनशील अकादमिक शोध, अप्रकाशित पांडुलिपियों, कानूनी दस्तावेजों और कॉर्पोरेट सामग्रियों के लिए। क्लाउड सेवाओं पर अपलोड किए गए दस्तावेज़ों को रखा जा सकता है, अनुक्रमित किया जा सकता है या एआई मॉडल को प्रशिक्षित करने के लिए उपयोग किया जा सकता है, और डेटा उल्लंघन गोपनीय सामग्री को उजागर कर सकता है।
प्लेगरिज्म डिटेक्टर पूरी तरह से डेस्कटॉप पर काम करता है। दस्तावेज़ स्थानीय रूप से खोले, पार्स किए और विश्लेषण किए जाते हैं - पूरा टेक्स्ट कभी भी किसी बाहरी सर्वर पर नहीं भेजा जाता। तुलना के लिए केवल चयनित टेक्स्ट अंश (खोज क्वेरी) ही सर्च इंजन को भेजे जाते हैं, ठीक उसी तरह जैसे कोई व्यक्ति ब्राउज़र में किसी वाक्यांश को मैन्युअल रूप से खोजता है। यह आर्किटेक्चर गोपनीयता की मूलभूत गारंटी प्रदान करता है: पूरा दस्तावेज़ कभी भी उपयोगकर्ता के कंप्यूटर से बाहर नहीं जाता। संवेदनशील सामग्री संभालने वाले संस्थानों - जैसे कि कानूनी फर्मों द्वारा ब्रीफ की जाँच, चिकित्सा शोधकर्ताओं द्वारा शोध पत्रों की समीक्षा, सरकारी एजेंसियों द्वारा रिपोर्टों का ऑडिट - के लिए यह डेस्कटॉप-फर्स्ट दृष्टिकोण केवल एक प्राथमिकता नहीं बल्कि अनुपालन की आवश्यकता है। एक बार की खरीदारी मॉडल (कोई आवर्ती सदस्यता नहीं) के साथ, यह गोपनीयता और लागत दोनों की पूर्वानुमान्यता प्रदान करता है।