بيت › ما مدى دقة الكشف عن النصوص المولَّدة بالذكاء الاصطناعي؟ معيار قياسي عبر 22 نموذجًا | كاشف الانتحال

ما مدى دقة الكشف عن نصوص الذكاء الاصطناعي؟ معيارنا القياسي عبر 22 نموذجًا

نُنشر دقة كاشفنا للذكاء الاصطناعي الفعلية في مواجهة 22 نموذجًا توليديًا، منها GPT-5 وClaude 4 وGemini 2 وLlama 3. جداول لكل نموذج على حدة، وتحديدات صادقة، ومجموعة بيانات قابلة للتنزيل للباحثين.

2026-04-17 · Plagiarism Detector Team

لماذا نُنشر أرقام الدقة الخاصة بنا

تطلب منك معظم أدوات كشف الذكاء الاصطناعي الثقة بدرجة واحدة غير شفافة. نحن نعتقد أنك تستحق الأدلة. في هذه الصفحة نشارك النتائج الكاملة لجولة التحقق الداخلية لدينا — كل نموذج اختبرناه، ودرجة AUC-ROC لكل منه، وأنواع المقالات التي سببت لنا أكبر الصعوبات، وعتبات القرار التي نستخدمها في الإنتاج.

هذا المستوى من الشفافية غير معتاد في مجال كشف الذكاء الاصطناعي. يُنشر معظم المنافسين — مورّدو أدوات فحص الانتحال، وخدمات كشف الذكاء الاصطناعي المتخصصة، وأدوات SaaS العامة — إما لا بيانات دقة على الإطلاق أو رقمًا واحدًا منتقى بعناية. هذا النمط غير مستدام: يحتاج المعلمون والناشرون والباحثون إلى معايير قابلة للتكرار قبل أن يتمكنوا من الاعتماد على أي أداة.

تأتي أرقامنا من تقسيم تحقق مكون من 1,000 عينة من مجموعة المعايرة المستخدمة لتدريب كاشفنا ModernBERT. تعمل المنهجية ذاتها التي تقود هذا المعيار على كل مستند تُرسله عبر أداتنا. لا شيء محجوب لأغراض العروض التوضيحية.

مجموعة الاختبار والمنهجية

تحتوي مجموعة التحقق على 1,000 مقالة مأخوذة من مجموعة معايرة مكونة من 1,200 عينة: 600 مقالة بشرية الكتابة (من بيانات PAN25 للمهام المشتركة ومجموعة مقالات PERSUADE الحجاجية) و600 مقالة مُولَّدة بالذكاء الاصطناعي (منتجة بواسطة 22 نموذج لغوي كبيرًا متميزًا في ظل تحفيز محكوم). تقسيم التدريب والتحقق بنسبة 80/20 ثابت وقابل للتكرار.

يُسجَّل كل عينة بشكل منفرد، دون الوصول إلى البيانات الوصفية التي قد تكشف الحقيقة. يعيد الكاشف احتمالًا في [0, 100] يمثل احتمال أن تكون العينة مُولَّدة بالذكاء الاصطناعي. ثم نحسب المساحة تحت منحنى خاصية التشغيل للمستقبِل (AUC-ROC) لكل نموذج ولكل نوع مقالة.

تُسجَّل جميع العتبات ومعاملات التدريب الفائق والمخرجات الاحتمالية الخام. مجموعة البيانات ذاتها متاحة للتنزيل في أسفل هذه الصفحة — بتنسيق CSV، صف واحد لكل عينة، مع هوية النموذج المولِّد، ووسم نوع المقالة، والدرجة الاحتمالية الخام، والحكم الثنائي النهائي.

النتائج الرئيسية

عبر مجموعة العينات الكاملة البالغة 1,000 عينة، يحقق كاشفنا المُجمَّع AUC-ROC [AUC: 0.9884]. عند عتبة القرار 50% التي نستخدمها في الإنتاج: 0 إيجابيات كاذبة على المقالات البشرية في مجموعة التحقق، و60% استدعاء على مقالات الذكاء الاصطناعي. عند عتبة F1 المثلى البالغة 26.56%، يرتفع الاستدعاء إلى 90% مع تكلفة 2% إيجابيات كاذبة — مقايضة أكثر ملاءمة لسير عمل الفحص عالي الحساسية.

يستخدم حكم المستند على أداتنا العامة عتبة 50% المحافظة، مُقدِّمًا الأولوية لصفر إيجابيات كاذبة على الاستدعاء الأقصى. يمكن للمعلمين والناشرين والباحثين تجاوز ذلك عبر شريط تمرير الحساسية في الأداة عندما يريدون تحديدًا أكثر حدة.

للمقارنة، يسجل مكوّن Binoculars الصفري منفردًا (إعداد 2× Llama-3.1-8B) AUC [AUC: 0.8509] بشكل مستقل. يسجل مكوّن ModernBERT المُعايَر منفردًا [AUC: 1.0000] على المقالات داخل التوزيع و[AUC: 0.9069] على النصوص خارج التوزيع. يقع المُجمَّع بينهما على أي محور واحد لكنه يتفوق على كليهما في المتوسط لأنه يُصحح نقاط ضعفهما التكميلية.

التفصيل بحسب النموذج

إليك جدول AUC-ROC لكل نموذج. مُرتَّبة من الأسهل إلى الأصعب كشفًا في مجموعة التحقق لدينا. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

نماذج OpenAI: GPT-3.5 [AUC: ?]، GPT-4 [AUC: ?]، GPT-4 Turbo [AUC: ?]، GPT-4o [AUC: ?]، GPT-5.0 [AUC: ?]، GPT-5.3 [AUC: ?]، GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?]، Claude 3.5 Sonnet [AUC: ?]، Claude 4 Opus [AUC: ?]، Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?]، Gemini 2.0 [AUC: ?]، Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?]، Llama 3.3 [AUC: ?]. أخرى: Qwen 2.5 [AUC: ?]، Qwen 3 [AUC: ?]، DeepSeek R1 [AUC: ?]، Mistral Large [AUC: ?]، o3-mini [AUC: ?].

النمط الرئيسي: تميل النماذج الأحدث والأكبر حجمًا والمُعايَرة بالتعليمات إلى إنتاج نصوص تبدو أكثر شبهًا بالكتابة البشرية لأي كاشف إحصائي، بما في ذلك كاشفنا. Claude 4.5 Sonnet وGPT-5.x هما العائلتان اللتان تتداخل فيهما توزيعات درجاتنا أكثر مع خط الأساس البشري. يتطابق هذا مع كل دراسة مستقلة نُشرت عام 2025 — سباق التسلح حقيقي وحجم النموذج عائق مباشر للكشف.

المجالات التي يواجه فيها الكاشف صعوبة

ليست جميع النصوص قابلة للكشف بدرجة متساوية. نقسّم النتائج بحسب نوع المقالة — كل فئة موجّهة من PERSUADE — والفجوة بين الأفضل والأسوأ واسعة. [PER-TYPE TABLE]

المقالات الحجاجية والإقناعية والتوضيحية: أقوى مجال للكاشف. يبلغ AUC عادةً 0.97–1.00 لأن مجموعات التدريب تُرجَّح بهذه الأساليب. هنا تقع معظم حالات استخدام النزاهة الأكاديمية.

الكتابة الإبداعية والتحليل الأدبي: أضعف مجال لدينا. بالنسبة للتحليل الأدبي، ينخفض AUC إلى 0.69 — يتقاطع الأسلوب البشري في الخيال مع مخرجات LLM ولا يستطيع مكوّنانا الخاضع للإشراف ولا الصفري التمييز بينهما بشكل موثوق. تعامل مع درجة ذكاء اصطناعي مرتفعة على الخيال بحذر.

جرّب الكاشف على نصك الخاص

الصق أي مستند وشاهد نفس حكم الجملة وعتبات القرار التي نستخدمها لهذه الأرقام المعيارية. مجاني، بدون تسجيل.

القيود وحالات الفشل

ثلاث فئات من النصوص تُفلت من كاشفنا أكثر مما تقترحه مجموعة التحقق. النصوص المُؤنسَنة بالذكاء الاصطناعي — المخرجات التي مرت عبر أداة إعادة صياغة عدائية أو نقل أسلوبي — غالبًا ما تُصنَّف على أنها بشرية حتى عندما يكون النص الأصلي مُولَّدًا بالكامل. النص القصير (أقل من 100 كلمة) يصعب تصنيفه على الإطلاق لأنه لا توجد إشارة إحصائية كافية. كتابة الإنجليزية لغير الناطقين بها يمكن أن تُصنَّف على أنها مُولَّدة بالذكاء الاصطناعي لأن LLMs وكتّاب اللغة الإنجليزية كلغة ثانية يتشاركون تفضيلات معجمية وتركيبية معينة.

كاشفنا احتمالي وليس دليلًا قاطعًا. الدرجة المرتفعة للذكاء الاصطناعي هي إشارة للتحقيق أكثر، وليست دليلًا على سوء السلوك. نوصي بشدة بإقران الدرجة بالسياق: تاريخ التعديلات الأخيرة، ومسودات الإصدارات، ونماذج الكتابة من نفس المؤلف، و— حيث يُسمح — محادثة متابعة قصيرة مع المؤلف.

نُعيد التدريب باستمرار على أحدث مخرجات النماذج، لكن هناك دائمًا تأخر: نموذج صدر الأسبوع الماضي قد لا يكون ممثلًا جيدًا في بيانات التدريب. إذا كان سير عملك يعتمد على اكتشاف أحدث النماذج، فراجع صفحة معيارنا ربع سنويًا للحصول على الأرقام المحدّثة.

تنزيل مجموعة البيانات الكاملة

نُنشر نتائج التحقق الخام حتى يتمكن الباحثون والصحفيون والمعلمون من التحقق المستقل من ادعاءاتنا. يحتوي ملف CSV على: معرّف العينة، وهوية النموذج المولِّد (أو 'بشري')، ووسم نوع المقالة، والمخرج الاحتمالي الخام، والحكم الثنائي عند عتبة 50%، والحكم الثنائي عند عتبة 26.56%.

تنزيل: ai-detector-benchmark-2026-04.csv (يُحدَّث ربع سنويًا). الاستخدام الأكاديمي غير مقيد؛ إعادة النشر التجاري تستلزم الإسناد: “كاشف الانتحال — معيار كشف الذكاء الاصطناعي 2026-04”.

للحصول على نسخة تفاعلية من المنهجية ذاتها على نصك الخاص، جرّب أداة فحص الذكاء الاصطناعي & الانتحال — الصق أي مستند وشاهد حكم كل جملة، وعتبات القرار ذاتها، وفترة الثقة ذاتها التي نستخدمها لهذه الأرقام المنشورة.

الأسئلة الشائعة

كم مرة يُحدَّث هذا المعيار؟

كل ربع سنة. عند إطلاق نموذج رئيسي (GPT-6, Claude 5, Gemini 3)، نضيفه إلى مجموعة الاختبار في غضون 4 أسابيع وننشر الجدول المحدَّث. الإصدارات التاريخية مُؤرشفة بأسماء ملفات مؤرخة — إصدار 2026-04 هو الإصدار المستقر الحالي.

لماذا لا تنشرون الاحتمالات الخام لكل عينة؟

ننشرها — يحتوي ملف CSV القابل للتنزيل على الاحتمالات الخام. ما لا نُنشره هو نص المقالة الأصلي، لأن مجموعة بيانات PAN25 ومجموعة PERSUADE تحملان قيودًا على إعادة التوزيع. إذا أردت النص، استخرج تلك المجموعات مباشرة من مصدرها (الروابط في توثيق CSV).

هل يمكنني الوثوق بكاشف إذا كان AUC أقل من 1.0؟

لا يحقق أي كاشف AUC 1.0 على كل نموذج، لذا فالسؤال ليس ‘هل هو مثالي’ بل ‘هل هو شفاف.’ الكاشف الذي يُنشر AUC 0.95 ويخبرك بمكامن ضعفه أجدر بالثقة من الذي يُنشر ‘دقة رائدة في الصناعة’ بدون رقم. AUC لدينا [AUC: 0.9884] هو متوسط الأداء الصادق؛ التفصيل بحسب النموذج وبحسب نوع المقالة هو المكان الذي ينبغي أن تتخذ فيه قرار الشراء.

هل كاشف الذكاء الاصطناعي لديكم مناسب للنشر الأكاديمي؟

المنهجية الأساسية مناسبة — Binoculars (ICML 2024) وModernBERT كلاهما معماريتان خاضعتان للمراجعة من الأقران. مجموعة الضبط الدقيق الخاصة بنا والعتبات ملكية خاصة، لكن منهجية المعيار قابلة للتكرار بالكامل.

كيف تقارن الأداة الإلكترونية المجانية بمنتج سطح المكتب؟

نفس المحرك، نفس أرقام الدقة، نفس منطق حكم الجمل. يضيف منتج سطح المكتب طول مستند غير محدود، وفحصًا دون اتصال، ومطابقة انتحال متكاملة مقابل 4 مليارات صفحة ويب، ومعالجة دفعات لمجلدات بأكملها. للفحوصات الفردية الأداة الإلكترونية كافية؛ لسير العمل اليومي، سطح المكتب هو الأداة الصحيحة.

نتائج المعيار مستمدة من مجموعة التحقق الداخلية لدينا وقد لا تُعمَّم على النصوص خارج التوزيع. تمثل الأرقام المنشورة متوسط الأداء عبر 1,000 عينة؛ قد تحصل وثيقتك على درجة مختلفة. استخدم نتائج كشف الذكاء الاصطناعي كمدخل واحد ضمن عوامل عديدة، وليس كدليل وحيد على تأليف النص.