کوئی بھی سرقہ تجزیہ شروع ہونے سے پہلے، سافٹ ویئر کو جمع کردہ دستاویز سے صاف، قابلِ تلاش متن نکالنا ضروری ہے۔ یہ ظاہر ہونے سے زیادہ پیچیدہ مسئلہ ہے کیونکہ دستاویزات متعدد فارمیٹس میں آتی ہیں — DOC، DOCX، PDF، RTF، PPT، PPTX، TXT، ODT، اور HTML — جن میں سے ہر ایک کی فارمیٹنگ، میٹا ڈیٹا، مدغم اشیاء، اور انکوڈنگ کی اپنی اندرونی ساخت ہوتی ہے۔ ایک قابلِ اعتماد متن نکالنے کا پائپ لائن کو ان تمام فارمیٹس کو یکساں طور پر سنبھالنا ہوگا۔
سرقہ کا پتہ لگانے والا قابلِ اعتمادی کو زیادہ سے زیادہ کرنے کے لیے 5 درجے کی متن نکالنے کی فن تعمیر استعمال کرتا ہے۔ DOCX فائلوں کے لیے پہلا درجہ مقامی DocX XML ساخت کو براہِ راست تجزیہ کرتا ہے۔ اگر یہ ناکام ہو تو سسٹم Microsoft کے iFilter انٹرفیس، پھر خام OpenXML تجزیہ، اور بالآخر آخری حربے کے عالمی نکالنے والے کے طور پر Apache Tika پر واپس آتا ہے۔ یہ سلسلہ وار نقطہ نظر کا مطلب ہے کہ خراب یا غیر معیاری دستاویزات بھی قابلِ استعمال متن دیتی ہیں۔
نکالنے کا عمل انکوڈنگ معمول کاری کو بھی سنبھالتا ہے — مختلف کریکٹر انکوڈنگز (UTF-8، UTF-16، Windows-1252، ISO-8859 ویریئنٹس) سے متن کو ایک متحد اندرونی نمائندگی میں تبدیل کرنا۔ یہ اہم ہے کیونکہ انکوڈنگ کی غلط مماثلت ایک جیسے متن کو بائٹ سطح پر مختلف ظاہر کروا سکتی ہے جس سے سرقہ کی مماثلتیں رہ جاتی ہیں۔ مناسب نکالنا ہر بعد کے شناخت کے مرحلے کی بنیاد رکھتا ہے۔
صاف متن نکالنے کے بعد شناخت انجن اسے متن فنگر پرنٹنگ نامی عمل کے ذریعے قابلِ تجزیہ اکائیوں میں توڑتا ہے۔ دستاویز کو الفاظ کی اوورلیپنگ ترتیبوں (n-grams) میں تقسیم کیا جاتا ہے اور ہر ترتیب ایک مختصر عددی ہیش — فنگر پرنٹ — میں تبدیل ہوتی ہے۔ یہ فنگر پرنٹ مؤثر شناخت کنندگان کے طور پر کام کرتے ہیں جنہیں دیگر ذرائع کے فنگر پرنٹوں سے ہر بار مہنگا مکمل متن موازنہ کیے بغیر تیزی سے موازنہ کیا جا سکتا ہے۔
فنگر پرنٹنگ الگورتھم کو حساسیت اور کارکردگی میں توازن رکھنا چاہیے۔ چھوٹے n-grams (3-4 الفاظ) زیادہ مماثلتیں پکڑتے ہیں لیکن عام فقروں سے بہت زیادہ غلط مثبت نتائج پیدا کرتے ہیں۔ لمبے n-grams (8-10 الفاظ) زیادہ مخصوص ہوتے ہیں لیکن سرقہ کو یاد کر سکتے ہیں جہاں کچھ الفاظ بدلے گئے ہوں۔ جدید سسٹم متغیر لمبائی کی فنگر پرنٹنگ کو ایسے الگورتھم کے ساتھ جوڑتے ہیں جو نمائندہ فنگر پرنٹوں کا ایک سب سیٹ منتخب کرتے ہیں۔
دستاویز کی فنگر پرنٹنگ کے ساتھ شناخت انجن کو انٹرنیٹ پر موجودہ مواد کے خلاف ان فنگر پرنٹوں کا موازنہ کرنا ضروری ہے۔ سرقہ کا پتہ لگانے والا ایک مخصوص نقطہ نظر اختیار کرتا ہے: ایک ملکیتی ڈیٹا بیس پر انحصار کرنے کی بجائے یہ بیک وقت چار بڑے سرچ انجنوں — Google، Bing، Yahoo، اور DuckDuckGo — سے سوال کرتا ہے، ان کے 4 ارب سے زیادہ ویب صفحات کے مجموعی انڈیکس تک رسائی حاصل کرتا ہے۔ یہ کثیر انجنی حکمت عملی ذریعہ کوریج کو ڈرامائی طور پر بڑھاتی ہے۔
سوال کرنے کا عمل متن کے ٹکڑوں کے ذہین گردشی اور منتخب کرنے کا استعمال کرتا ہے۔ ہر فنگر پرنٹ سوال نہیں کیا جاتا — انجن دستاویز سے سب سے منفرد حصے منتخب کرتا ہے، وہ جو عام فقروں کی بجائے معنی خیز مماثلتیں واپس کرنے کا سب سے زیادہ امکان رکھتے ہوں۔ نتیجہ عوامی انٹرنیٹ مواد کی ایک جامع تلاش ہے جسے کوئی ایک انجن نقل نہیں کر سکتا۔
جب سرچ انجن سوالات ممکنہ مماثل URLs واپس کرتے ہیں تو شناخت انجن ذریعہ بازیافت اور موازنہ کے مرحلے میں داخل ہوتا ہے۔ ہر امیدوار ذریعہ صفحہ بازیافت کیا جاتا ہے، اس کا مواد نکالا اور معمول بنایا جاتا ہے (HTML ٹیگز، نیویگیشن عناصر، ہیڈرز، اور فوٹرز کو ہٹانا) اور پھر جمع کردہ دستاویز کے ساتھ ترتیب میں رکھا جاتا ہے۔ یہ ترتیب ترتیب مماثلت الگورتھم استعمال کرتی ہے جو دو متونوں کے درمیان سب سے لمبے مشترکہ ذیلی ترتیبوں کی شناخت کرتے ہیں۔
موازنہ صرف درست مماثلتوں تک محدود نہیں ہے۔ انجن ان حصوں کی شناخت کے لیے دھندلی مماثلت انجام دیتا ہے جہاں انفرادی الفاظ کو ہم معنی الفاظ سے تبدیل کیا گیا ہو، جملے کی ترتیب دوبارہ ترتیب دی گئی ہو، یا جوڑنے والے فقرے شامل یا ہٹائے گئے ہوں۔ یہ سب سے عام چوری کی تکنیک کو پکڑتا ہے: سطحی دوبارہ الفاظ جو اصل معنی اور ساخت کو محفوظ رکھتا ہے۔
تمام ذرائع بازیافت اور موازنہ کیے جانے کے بعد انجن ایک مشابہت اسکور حساب کرتا ہے — ایک فیصد جو ظاہر کرتا ہے کہ جمع کردہ دستاویز کتنی بیرونی ذرائع سے مماثل ہے۔ یہ حساب ایک سادہ تناسب سے زیادہ باریک بینی والا ہے۔ انجن مختلف قسم کی مماثلتوں میں فرق کرتا ہے: عین نقل، قریبی مماثلتیں (پیرا فریز شدہ حصے)، مناسب طریقے سے اقتباس اور حوالہ دیا گیا مواد، اور عام فقرے یا معیاری متن جو سرقہ کی نشاندہی نہیں کرتا۔
سرقہ کا پتہ لگانے والے کا حوالہ شناخت نظام خودکار طور پر دستاویز میں اقتباسات، اقوال، اور کتابیاتی حوالوں کی شناخت کرتا ہے اور انہیں غیر منسوب مماثلتوں سے مختلف انداز میں پیش کرتا ہے۔ اقتباس کے نشانوں کے ساتھ بند متن کا ایک بلاک اور اس کے بعد حوالہ سرقہ کے طور پر نہیں بلکہ جائز حوالہ کے طور پر نشان زد کیا جاتا ہے۔ یہ بڑھائے ہوئے مشابہت اسکورز کو روکتا ہے جو دوسری صورت میں اچھی طرح سے تحقیق شدہ مقالوں کو ذرائع کے مناسب استعمال کے لیے سزا دیتے۔
جیسے جیسے مصنوعی ذہانت سے تخلیق شدہ متن زیادہ عام ہوتا جا رہا ہے سرقہ شناخت کو ایسے مواد کو حل کرنا ضروری ہے جو کسی موجودہ ماخذ سے نقل نہیں کیا گیا لیکن پھر بھی اصل انسانی کام نہیں ہے۔ سرقہ کا پتہ لگانے والا ChatGPT، Gemini، اور HuggingChat سمیت بڑے زبان ماڈلز کے تیار کردہ متن کی شناخت کرنے کی صلاحیت کے ساتھ 0.98 حساسیت والا مربوط مصنوعی ذہانت مواد شناخت ماڈیول شامل کرتا ہے۔ شناخت متن کی شماریاتی خصوصیات کا تجزیہ کرتی ہے — لفظی تعدد تقسیم، جملے کی سطح پریکسٹی، برسٹینیس نمونے، اور ٹوکن امکان ترتیبیں — جو انسانی اور مشین تحریر کے درمیان منظم طریقے سے مختلف ہوتی ہیں۔
انسانی تحریر جملے کی لمبائی میں زیادہ تغیر، زیادہ غیر متوقع لفظی انتخاب، اور پیچیدگی میں بے قاعدہ نمونے ظاہر کرتی ہے۔ اس کے برعکس مصنوعی ذہانت سے تخلیق شدہ متن زیادہ یکساں جملے کی ساخت کے ساتھ شماریاتی طور پر ممکنہ لفظی ترتیبوں اور اس کی امکان تقسیم میں ایک مخصوص «ہمواری» کی طرف مائل ہوتا ہے۔ شناخت ماڈل انسانی اور مصنوعی ذہانت دونوں متونوں کے بڑے مجموعوں پر تربیت یافتہ ہے اور دانے دار نتائج فراہم کرنے کے لیے پیراگراف سطح پر کام کرتا ہے۔
پیچیدہ صارف مختلف تکنیکی چالوں کے ذریعے سرقہ شناخت کو شکست دینے کی کوشش کرتے ہیں۔ سب سے عام چوری کی تکنیک یونی کوڈ کریکٹر تبادلہ ہے — لاطینی حروف کو دیگر یونی کوڈ اسکرپٹس کے بصری طور پر ایک جیسے حروف سے بدلنا۔ مثلاً سیریلک حرف «а» (U+0430) اسکرین پر لاطینی حرف «a» (U+0061) کی طرح نظر آتا ہے لیکن یہ کوڈ پوائنٹ سطح پر مختلف حروف ہیں۔ ایک سادہ متن موازنہ سیریلک «a» کے ساتھ لکھے گئے «academic» کو بالکل مختلف لفظ سمجھتا جس سے نقل شدہ حصہ شناخت سے بچ جاتا۔
سرقہ کا پتہ لگانے والا اس کو اپنے یونی کوڈ دھوکہ بازی مخالف انجن (UACE) سے حل کرتا ہے۔ موازنہ سے پہلے UACE یونی کوڈ بلاکس میں بصری طور پر مساوی حروف کو — سیریلک، یونانی، آرمینیائی، اور دیگر اسکرپٹس جن میں ملتے جلتے حروف ہوتے ہیں — ان کے لاطینی مساوی تک نقش کر کے تمام متن کو معمول بناتا ہے۔ انجن سیکڑوں حروف کے جوڑوں پر محیط ایک جامع تبادلہ جدول برقرار رکھتا ہے۔ یہ معمول کاری متن نکالنے کے مرحلے کے دوران شفافیت سے ہوتی ہے۔
کریکٹر تبادلہ کے علاوہ UACE دیگر چوری کے طریقوں کا بھی پتہ لگاتا ہے جن میں الفاظ یا حروف کے درمیان پوشیدہ یونی کوڈ حروف (زیرو ویڈتھ اسپیس، زیرو ویڈتھ جوائنرز، سافٹ ہائفن) کا اندراج، دستاویزات میں سفید پس منظر پر سفید متن، اور قابلِ شناخت فقروں کو توڑنے کے لیے ڈالا گیا مائیکرو فونٹ متن شامل ہیں۔ یہ تکنیکیں اصالت رپورٹ میں جان بوجھ کر ہیرا پھیری کی کوشش کے طور پر نشان زد کی جاتی ہیں۔
مفت ڈیمو ڈاؤن لوڈ کریں یا سرقہ اور AI سے تیار کردہ مواد کی جانچ شروع کرنے کے لیے لائسنس خریدیں۔
شناخت کے عمل کا اختتام اصالت رپورٹ ہے — ایک تفصیلی دستاویز جو تمام نتائج کو منظم، قابلِ جائزہ فارمیٹ میں پیش کرتی ہے۔ رپورٹ جمع کردہ متن میں مماثل حصوں کو رنگ کوڈ کے ساتھ نمایاں کرتی ہے، ہر مماثلت کو اس کے متعلقہ URL یا ڈیٹا بیس اندراج سے جوڑتی ہے۔ خلاصہ سیکشن مجموعی مشابہت اسکور، ملائی گئی ذرائع کی تعداد، پتہ لگائی گئی مصنوعی ذہانت کے مواد کا فیصد، اور مماثلت کی اقسام کی تفصیل دکھاتا ہے۔
اداروں کے لیے اصالت رپورٹوں کو تنظیم کے لوگو کے ساتھ برانڈ کیا جا سکتا ہے جس سے تعلیمی دیانت داری کے ریکارڈ کے لیے ایک پیشہ ور، معیاری فارمیٹ ملتا ہے۔ رپورٹیں ثبوت کے معیار کی ہیں — رسمی جائزہ کارروائیوں، تعلیمی دیانت داری کی سماعتوں، یا قانونی تناظر میں استعمال کے لیے موزوں۔ رپورٹ میں ہر دعویٰ آزادانہ طور پر قابلِ تصدیق ہے: جائزہ لینے والے اصل ماخذ پر کلک کر کے اپنی آنکھوں سے مماثلت کی تصدیق کر سکتے ہیں۔
سرقہ شناخت میں بنیادی معماری انتخاب یہ ہے کہ آیا دستاویزات صارف کی مشین پر مقامی طور پر پروسیس ہوتی ہیں یا ریموٹ کلاؤڈ سرور پر اپ لوڈ کی جاتی ہیں۔ کلاؤڈ پر مبنی سرقہ جانچنے والے صارفین کو اپنی دستاویزات فراہم کنندہ کے سرورز پر اپ لوڈ کرنے کی ضرورت ہوتی ہے جہاں متن نکالا، تجزیہ کیا، اور اکثر ڈیٹا بیس میں محفوظ کیا جاتا ہے۔ یہ اہم رازداری اور خفیہ رکھنے کی فکروں کو جنم دیتا ہے — خاص طور پر حساس تعلیمی تحقیق، غیر شائع شدہ مسودات، قانونی دستاویزات، اور کارپوریٹ مواد کے لیے۔
سرقہ کا پتہ لگانے والا مکمل طور پر ڈیسک ٹاپ پر کام کرتا ہے۔ دستاویزات مقامی طور پر کھولی، تجزیہ کی، اور تشخیص کی جاتی ہیں — مکمل متن کبھی بھی کسی بیرونی سرور کو منتقل نہیں کیا جاتا۔ صرف منتخب متن کے ٹکڑے (سرچ سوالات) موازنہ کے لیے سرچ انجنوں کو بھیجے جاتے ہیں، اسی طرح جیسے ایک انسان براؤزر میں ایک فقرہ دستی طور پر تلاش کرتا ہے۔ یہ فن تعمیر ایک بنیادی رازداری کی ضمانت فراہم کرتی ہے: مکمل دستاویز کبھی صارف کی مشین نہیں چھوڑتی۔