قبل بدء أي تحليل للانتحال، يجب على البرنامج استخراج نص نظيف وقابل للبحث من المستند المُقدَّم. هذه مشكلة أكثر تعقيداً مما تبدو عليه، لأن المستندات تصل بتنسيقات متنوعة — DOC وDOCX وPDF وRTF وPPT وPPTX وTXT وODT وHTML وغيرها — كل منها يمتلك بنيته الداخلية الخاصة من التنسيق والبيانات الوصفية والعناصر المضمّنة والترميز. خط أنابيب استخراج النص الموثوق يجب أن يتعامل مع جميع هذه التنسيقات باتساق، مُنتجاً نصاً عادياً مُقنَّناً مناسباً للمقارنة.
يستخدم كاشف الانتحال معمارية استخراج نص من 5 مستويات لتحقيق أقصى موثوقية. بالنسبة لملفات DOCX، يُحلّل المستوى الأول البنية الأصلية لـ DocX XML مباشرةً. فإن فشل ذلك (بسبب تلف أو تنسيق غير قياسي)، ينتقل النظام إلى واجهة iFilter من Microsoft، ثم إلى تحليل OpenXML الخام، وأخيراً إلى Apache Tika كمستخرج شامل للملاذ الأخير. يعني هذا النهج المتدرج أن حتى المستندات التالفة أو غير القياسية تُنتج نصاً قابلاً للاستخدام. يسري نفس المبدأ متعدد المستويات عبر جميع التنسيقات الأكثر من 12 المدعومة، مما يضمن عدم بقاء أي مستند دون معالجة.
تتعامل عملية الاستخراج أيضاً مع تطبيع الترميز — تحويل النصوص من ترميزات الأحرف المتنوعة (UTF-8 وUTF-16 وWindows-1252 وإصدارات ISO-8859) إلى تمثيل داخلي موحد. وهذا أمر بالغ الأهمية لأن التعارضات في الترميز قد تجعل النصوص المتطابقة تبدو مختلفة على مستوى البايت، مما يؤدي إلى إغفال تطابقات الانتحال. الاستخراج الصحيح يُرسي الأساس لكل مرحلة كشف لاحقة.
بمجرد استخراج النص النظيف، يُجزّئ محرك الكشف النص إلى وحدات قابلة للتحليل من خلال عملية تُسمى البصمات الرقمية للنص. يُقسَّم المستند إلى تسلسلات متداخلة من الكلمات (n-grams)، ويتحوّل كل تسلسل إلى تجزئة رقمية مدمجة — بصمة رقمية. تعمل هذه البصمات كمعرّفات فعّالة يمكن مقارنتها بسرعة مع بصمات من مصادر أخرى دون إجراء مقارنات نصية كاملة مُكلفة في كل مرة.
يجب أن تحقق خوارزمية البصمة الرقمية توازناً بين الحساسية والكفاءة. تُولّد n-grams القصيرة (3-4 كلمات) تطابقات أكثر لكن تُنتج إيجابيات كاذبة مفرطة من العبارات الشائعة. أما n-grams الأطول (8-10 كلمات) فأكثر تحديداً لكنها قد تُفوّت الانتحال في حال تغيير بعض الكلمات. تستخدم الأنظمة المتقدمة بصمات رقمية متغيرة الطول مدمجة مع خوارزميات التهرئة التي تختار مجموعة فرعية تمثيلية من البصمات، محافظةً على دقة الكشف مع إبقاء مساحة المقارنة قابلة للإدارة لأي حجم من المستندات.
بعد وضع البصمة الرقمية للمستند، يجب على محرك الكشف مقارنة تلك البصمات بالمحتوى الموجود عبر الإنترنت. يتبع كاشف الانتحال نهجاً مميزاً: بدلاً من الاعتماد على قاعدة بيانات ملكية واحدة، يستعلم أربعة محركات بحث رئيسية في آنٍ واحد — Google وBing وYahoo وDuckDuckGo — للوصول إلى فهرسها المشترك لأكثر من 4 مليار صفحة ويب. تُعظّم هذه الاستراتيجية متعددة المحركات تغطية المصادر بشكل دراماتيكي، لأن كل محرك بحث يُفهرس أجزاء مختلفة من الويب ويُصنّف النتائج بأسلوب مختلف.
تستخدم عملية الاستعلام تدويراً ذكياً واختياراً لمقاطع النص لإرسالها كاستعلامات بحثية. لا تُستعلَم عن كل بصمة — يختار المحرك أكثر المقاطع تميزاً في المستند، تلك الأرجح في إرجاع تطابقات ذات مغزى لا عبارات عامة. تُدير جدولة الاستعلامات حدود المعدل وتُوزّع الطلبات عبر المحركات للحفاظ على الإنتاجية. والنتيجة مسح شامل للمحتوى الإلكتروني المتاح للعموم لا يستطيع أي نهج بمحرك واحد تحقيقه، يغطي المستودعات الأكاديمية وأرشيفات الأخبار ومزارع المحتوى ومطاحن المقالات وصفحات الويب العامة على حدٍّ سواء.
حين تُرجع استعلامات محركات البحث روابط URL تتطابق محتمَلاً، يدخل محرك الكشف في مرحلة استرداد المصادر والمقارنة. تُسترد كل صفحة مصدر مرشحة، ويُستخرج محتواها ويُقنَّن (بإزالة علامات HTML وعناصر التنقل والرؤوس والتذييلات لعزل نص المقال الفعلي)، ثم يُوازَن مع المستند المُقدَّم. يستخدم هذا التوازن خوارزميات مطابقة التسلسل التي تُحدد أطول المتتاليات المشتركة بين النصين، مع مراعاة الاختلافات الطفيفة في علامات الترقيم والمسافات والتنسيق.
المقارنة لا تقتصر على التطابقات التامة. يُجري المحرك المطابقة الغامضة لتحديد المقاطع التي استُبدلت فيها كلمات بمرادفات، أو رُتِّب ترتيب الجمل من جديد، أو أُضيفت عبارات رابطة أو حُذفت. هذا يكشف تقنية التحايل الأكثر شيوعاً: إعادة الصياغة السطحية التي تحافظ على المعنى والبنية الأصليين. يُسجَّل كل مقطع متطابق مع رابط URL مصدره ونسبة التداخل وشظايا النص المحددة المقابلة، مما يبني البيانات الخام لتقرير الأصالة.
بعد استرداد جميع المصادر ومقارنتها، يحسب المحرك درجة التشابه — نسبة مئوية تمثل مقدار ما يُطابق المستند المُقدَّم مصادرَ خارجية. هذا الحساب أدق من مجرد نسبة بسيطة. يُميّز المحرك بين أنواع مختلفة من التطابقات: النسخ الدقيقة والتطابقات التقريبية (المقاطع المُعادة صياغتها) والمواد المقتبسة المُستشهد بها والعبارات الشائعة أو النصوص النمطية التي لا تُشير إلى انتحال.
يُحدد نظام كشف المراجع في كاشف الانتحال الاستشهاداتِ والاقتباساتِ والمراجعَ البيبليوغرافية تلقائياً داخل المستند ويتعامل معها بشكل مختلف عن التطابقات غير المُسنَدة. يُصنَّف مقطع النص المحاط بعلامات اقتباس والمصحوب باستشهاد على أنه مرجع مشروع لا انتحال. هذا يمنع الدرجات المرتفعة المُبالغ فيها التي قد تُعاقب الأوراق البحثية الجيدة المصادر على استخدامها الصحيح للمصادر. تعكس الدرجة النهائية مخاوف الأصالة الحقيقية، مانحةً المراجع مقياساً ذا مغزى وقابلاً للتطبيق.
مع تزايد انتشار النصوص المولّدة بالذكاء الاصطناعي، يجب أن يُعالج كشف الانتحال المحتوى الذي لا يُنسخ من أي مصدر موجود لكنه مع ذلك ليس عملاً إنسانياً أصيلاً. يتضمن كاشف الانتحال وحدة كشف محتوى ذكاء اصطناعي متكاملة بحساسية 0.98، قادرة على تحديد النصوص التي أنتجتها نماذج لغوية كبيرة بما فيها ChatGPT وGemini وHuggingChat. يعمل الكشف بتحليل الخصائص الإحصائية للنص — توزيعات تكرار الكلمات واضطراب اللغة على مستوى الجملة وأنماط الانفجار وتسلسلات احتمالية الرموز — التي تختلف بشكل منهجي بين الكتابة البشرية والكتابة الآلية.
تميل الكتابة الإنسانية إلى إظهار تباين أكبر في أطوال الجمل، واختيارات كلمات أقل قابلية للتنبؤ، وأنماط تعقيد غير منتظمة. أما النص المولّد بالذكاء الاصطناعي فيميل إلى تسلسلات الكلمات الأكثر احتمالاً إحصائياً مع بنية جمل أكثر اتساقاً و"نعومة" مميزة في توزيعها الاحتمالي. النموذج مُدرَّب على مجاميع نصية كبيرة من النصوص الإنسانية والنصوص المولّدة بالذكاء الاصطناعي، ويعمل على مستوى الفقرة لتوفير نتائج دقيقة. يعمل هذا التحليل جنباً إلى جنب مع كشف الانتحال التقليدي في فحص واحد، بحيث يتلقى المراجعون تقريراً موحداً يغطي المحتوى المنسوخ والمقاطع المولّدة بالذكاء الاصطناعي دون الحاجة إلى أدوات أو سير عمل منفصلة.
يحاول المستخدمون المتمرسون خداع كشف الانتحال من خلال حيل تقنية متنوعة. أكثر تقنيات التحايل شيوعاً هي استبدال أحرف Unicode — استبدال الأحرف اللاتينية الأساسية بأحرف متطابقة بصرياً من نصوص Unicode أخرى. مثلاً، يبدو الحرف السيريلي "a" (U+0430) مطابقاً للحرف اللاتيني "a" (U+0061) على الشاشة، لكنهما حرفان مختلفان على مستوى نقطة الرمز. مقارنة النصوص الساذجة ستُعامل كلمة "academic" المكتوبة بحرف السيريلي "a" على أنها كلمة مختلفة تماماً، مما يجعل المقطع المنتحل يُفلت من الكشف كلياً.
يُعالج كاشف الانتحال هذا بـ محرك مكافحة الغش Unicode (UACE). قبل المقارنة، يُطبّع UACE جميع النصوص بتعيين الأحرف المتكافئة بصرياً عبر كتل Unicode — السيريلية واليونانية والأرمنية وغيرها من النصوص التي تحتوي على أحرف متشابهة — إلى نظيراتها اللاتينية. يحتفظ المحرك بجدول استبدال شامل يغطي مئات الأزواج الحرفية. يحدث هذا التطبيع بشفافية خلال مرحلة استخراج النص، بحيث تعمل كل مرحلة كشف لاحقة على نص نظيف معياري بصرف النظر عن الحيل الحرفية المطبّقة على المستند المصدر.
فوق استبدال الأحرف، تكشف UACE أيضاً أساليب تحايل أخرى بما فيها إدراج أحرف Unicode غير مرئية (مسافات بلا عرض ووصلات بلا عرض وواصلات ناعمة) بين الكلمات أو الأحرف، والنص الأبيض على خلفية بيضاء المخفي داخل المستندات، والنص بخط متناهي الصغر المُدرج لتقطيع العبارات القابلة للتعرف عليها. تُعلَم هذه التقنيات في تقرير الأصالة باعتبارها محاولات تلاعب متعمدة، مُنبّهةً المراجعَ بأن الكاتب سعى بنشاط لتجاوز الكشف — وهو بحد ذاته دليل قوي على نية الانتحال.
حمّل النسخة التجريبية المجانية أو اشترِ ترخيصاً لبدء فحص النصوص بحثاً عن الانتحال والمحتوى المولّد بالذكاء الاصطناعي.
ذروة عملية الكشف هي تقرير الأصالة — وثيقة مفصّلة تُقدّم جميع النتائج بتنسيق منظم وقابل للمراجعة. يُبرز التقرير المقاطع المتطابقة في النص المُقدَّم مرمّزةً بالألوان بحسب المصدر، مع ربط كل تطابق برابط URL مقابل أو إدخال قاعدة بيانات. يعرض قسم الملخص الدرجة الإجمالية للتشابه وعدد المصادر المتطابقة ونسبة المحتوى المولّد بالذكاء الاصطناعي المكتشف وتصنيف أنواع التطابق (دقيق ومُعاد صياغته ومُستشهد به).
للمؤسسات، يمكن وضع علامة تجارية على تقارير الأصالة بشعار المؤسسة، مما يوفر تنسيقاً احترافياً وموحداً مناسباً لسجلات النزاهة الأكاديمية. صُمِّمت التقارير لتكون بمستوى الأدلة — صالحة للاستخدام في إجراءات المراجعة الرسمية وجلسات النزاهة الأكاديمية أو السياقات القانونية. كل ادعاء في التقرير قابل للتحقق منه باستقلالية: يمكن للمراجعين النقر للوصول إلى المصدر الأصلي للتأكد من التطابق بأعينهم. تضمن هذه الشفافية قابلية الدفاع عن نتائج الانتحال وعدالتها، مما يحمي نزاهة عملية المراجعة وحقوق من يُقيَّم عمله.
الاختيار المعماري الجوهري في كشف الانتحال هو ما إذا كانت المستندات تُعالَج محلياً على جهاز المستخدم أو تُرفع إلى خادم سحابي بعيد. أدوات كشف الانتحال السحابية تتطلب من المستخدمين رفع مستنداتهم إلى خوادم المزوّد، حيث يُستخرج النص ويُحلَّل وغالباً يُخزَّن في قاعدة بيانات. يُثير هذا مخاوف جدية تتعلق بالخصوصية والسرية — ولا سيما للأبحاث الأكاديمية الحساسة والمخطوطات غير المنشورة والوثائق القانونية والمواد الشركاتية. قد يُحتفظ بالمستندات المرفوعة إلى الخدمات السحابية وتُفهرَس أو تُستخدَم لتدريب نماذج الذكاء الاصطناعي، وقد تكشف الاختراقات الأمنية عن محتوى سري.
يعمل كاشف الانتحال بالكامل على سطح المكتب. تُفتح المستندات وتُحلَّل وتُعالَج محلياً — فالنص الكامل لا يُرسَل إلى أي خادم خارجي. فحسب مقاطع نصية مختارة (استعلامات بحثية) تُرسَل إلى محركات البحث للمقارنة، بالطريقة ذاتها التي يبحث فيها الإنسان يدوياً عن عبارة في المتصفح. توفر هذه المعمارية ضماناً جوهرياً للخصوصية: المستند الكامل لا يغادر جهاز المستخدم قط. للمؤسسات التي تتعامل مع مواد حساسة — مكاتب القانون التي تتحقق من المذكرات، والباحثون الطبيون المراجعون للأوراق، والوكالات الحكومية التي تُدقّق في التقارير — هذا النهج القائم على سطح المكتب ليس مجرد تفضيل بل متطلب امتثال. إلى جانب نموذج الشراء لمرة واحدة (بلا اشتراك متكرر)، يوفر خصوصية وإمكانية التنبؤ بالتكلفة معاً.