אנו מפרסמים את הדיוק האמיתי של גלאי ה-AI שלנו מול 22 מודלים גנרטיביים, כולל GPT-5, Claude 4, Gemini 2 ו-Llama 3. טבלאות לכל מודל בנפרד, מגבלות כנות, וקובץ נתונים להורדה לחוקרים.
רוב כלי זיהוי ה-AI מבקשים שתסמכו על ציון אטום יחיד. אנו חושבים שמגיע לכם ראיות. בדף זה אנו משתפים את התוצאות המלאות של ריצת האימות הפנימית שלנו — כל גנרטור שבדקנו, ציון ה-AUC-ROC על כל אחד מהם, סוגי החיבורים שגרמו לנו לקשיים רבים ביותר, ורף ההחלטות שאנו משתמשים בו בייצור.
רמת שקיפות זו יוצאת דופן במרחב זיהוי ה-AI. מרבית המתחרים — ספקי כלי בדיקת פלגיאט, שירותי זיהוי AI מתמחים, כלי SaaS כלליים — מפרסמים או ללא נתוני דיוק כלל או מספר יחיד שנבחר בקפידה. הדפוס הזה אינו בר-קיימא: מחנכים, מוציאים לאור וחוקרים זקוקים לבנצ'מארקים ברי-הפקה לפני שיוכלו להסתמך על כל כלי.
המספרים שלנו מגיעים מפיצול אימות של 1,000 דגימות מקורפוס הכיול ששימש לאימון גלאי ModernBERT שלנו. אותה מתודולוגיה המניעה את הבנצ'מארק הזה פועלת על כל מסמך שאתם שולחים דרך הכלי שלנו. שום דבר לא מוחזק לצורכי הדגמות.
קבוצת האימות מכילה 1,000 חיבורים שנלקחו מקורפוס כיול של 1,200 דגימות: 600 חיבורים שנכתבו על ידי בני אדם (מנתוני המשימה המשותפת PAN25 ומערך הנתונים של חיבורים ארגומנטטיביים PERSUADE) ו-600 חיבורים שנוצרו על ידי AI (שנוצרו על ידי 22 מודלי שפה גדולים נפרדים בהנחיה מבוקרת). פיצול האימון-אימות 80/20 קבוע וניתן לשחזור.
כל דגימה מקבלת ציון בנפרד, ללא גישה למטא-נתונים שיכולים לדלוף אמת יסוד. הגלאי מחזיר הסתברות ב-[0, 100] המייצגת את הסיכוי שהדגימה נוצרה על ידי AI. לאחר מכן אנו מחשבים את השטח מתחת לעקומת המאפיין תפעולי של המקלט (AUC-ROC) לכל גנרטור ובגובה סוג החיבור.
כל הרפים, היפרפרמטרים של אימון, ופלטי הסתברות גולמיים מתועדים. קובץ הנתונים עצמו זמין להורדה בתחתית הדף הזה — פורמט CSV, שורה אחת לכל דגימה, עם זהות הגנרטור, תווית סוג החיבור, ציון גולמי, ופסיקה בינארית סופית.
על פני קבוצת 1,000 הדגימות המלאה, גלאי האנסמבל שלנו משיג AUC-ROC [AUC: 0.9884]. ברף ההחלטה של 50% שאנו משתמשים בו בייצור: 0 חיוביים שגויים על חיבורים אנושיים בקבוצת האימות, ו-60% recall על חיבורים שנוצרו על ידי AI. ברף ה-F1-אופטימלי של 26.56%, ה-recall עולה ל-90% במחיר של 2% חיוביים שגויים — פשרה המתאימה יותר לזרימות עבודה של סינון ברגישות גבוהה.
פסיקת רמת-המסמך בכלי הציבורי שלנו משתמשת ברף השמרני של 50%, תוך מתן עדיפות לאפס חיוביים שגויים על פני recall מרבי. מורים, מוציאים לאור וחוקרים יכולים לעקוף זאת דרך מחוון הרגישות בווידג'ט כשהם רוצים סימון אגרסיבי יותר.
לשם השוואה, רכיב ה-Binoculars ללא ירייה אפס (הגדרת Llama-3.1-8B כפולה) לבד משיג AUC [AUC: 0.8509] בנפרד. רכיב ה-ModernBERT המכוייל לבד משיג [AUC: 1.0000] על חיבורים מתוך ההתפלגות ו-[AUC: 0.9069] על טקסט מחוץ להתפלגות. האנסמבל יושב ביניהם על כל ציר יחיד אך עולה על שניהם בממוצע כי הוא מתקן את חולשותיהם המשלימות.
להלן טבלת AUC-ROC לכל מודל. המודלים מסודרים מהקל ביותר לזיהוי לקשה ביותר בקבוצת האימות שלנו. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
מודלי OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. אחרים: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
הדפוס הראשי: מודלים חדשים יותר, גדולים יותר ומכווננים-להוראה נוטים לייצר טקסט שנראה יותר אנושי לכל גלאי סטטיסטי, כולל שלנו. Claude 4.5 Sonnet ו-GPT-5.x הם שתי המשפחות שבהן ההתפלגויות של הציונים שלנו חופפות ביותר לקו הבסיס האנושי. זה מתאים לכל מחקר עצמאי שפורסם ב-2025 — מרוץ החימוש הוא אמיתי וגודל המודל הוא רוח נגדית ישירה לזיהוי.
לא כל הטקסטים ניתנים לזיהוי באותה מידה. אנו מפרקים תוצאות לפי סוג החיבור — כל קטגוריית פרומפט PERSUADE — והפער בין הטוב לרע הוא רחב. [PER-TYPE TABLE]
חיבורים ארגומנטטיביים, שכנועיים ואקספוזיטוריים: התחום החזק ביותר של הגלאי. AUC בדרך כלל 0.97–1.00 מכיוון שקורפוסי האימון מעניקים יתר משקל לסגנונות אלה. זהו המקום בו נופלות רוב מקרי השימוש של שלמות אקדמית.
כתיבה יוצרת וניתוח ספרותי: התחום החלש ביותר שלנו. לניתוח_ספרותי ה-AUC יורד ל-0.69 — הסגנון האנושי בפיקציה מתכנס עם פלטי LLM ולא רכיב המפוקח שלנו ולא הרכיב ללא-ירייה יכולים להבחין ביניהם באופן מהימן. התייחסו לציון AI גבוה בפיקציה בספקנות.
הדביקו כל מסמך וראו את אותה פסיקה לכל משפט ורפי ההחלטה שאנו משתמשים בהם למספרי הבנצ'מארק. חינמי, ללא הרשמה.
שלוש קטגוריות של טקסט בורחות מגלאי שלנו לעתים קרובות יותר ממה שקבוצת האימות שלנו מרמזת. טקסט AI שהוּאנס — פלט שעבר דרך כלי פרפרזה או העברת סגנון אנטגוניסטית — לעתים קרובות מקבל ציון כאנושי גם כאשר הטקסט הבסיסי נוצר לחלוטין. טקסט קצר (מתחת ל-100 מילים) קשה לסיווג כלל כי אין אות סטטיסטי מספיק. כתיבה באנגלית של דוברים לא ילידיים יכולה לקבל ציון כנוצרת-AI מכיוון שמודלי LLM וכותבי ESL חולקים העדפות לקסיקליות ותחביריות מסוימות.
הגלאי שלנו הוא הסתברותי, לא ראייתי. ציון AI גבוה הוא אות לחקור עוד, לא הוכחה לעבירת משמעת. אנו ממליצים בחום לשלב את הציון עם הקשר: היסטוריית עריכה אחרונה, טיוטות גרסאות, דוגמאות כתיבה מאותו מחבר, ו — במקום שמותר — שיחת המשך קצרה עם המחבר.
אנו מאמנים מחדש ברציפות על הפלטים האחרונים של הגנרטורים, אך תמיד קיים פיגור: מודל שיצא השבוע אולי אינו מיוצג היטב בנתוני האימון. אם זרימת העבודה שלכם תלויה בתפיסת המודלים האחרונים, בדקו מחדש את דף הבנצ'מארק שלנו מדי רבעון לקבלת המספרים המעודכנים.
אנו מפרסמים את תוצאות האימות הגולמיות כדי שחוקרים, עיתונאים ומחנכים יוכלו לאמת באופן עצמאי את טענותינו. ה-CSV מכיל: מזהה דגימה, זהות גנרטור (או 'human'), תווית סוג חיבור, פלט הסתברות גולמי, פסיקה בינארית ברף 50%, פסיקה בינארית ברף 26.56%.
הורדה: ai-detector-benchmark-2026-04.csv (מתעדכן מדי רבעון). שימוש אקדמי אינו מוגבל; פרסום מסחרי מחדש דורש ייחוס: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
לגרסה אינטראקטיבית של אותה מתודולוגיה על הטקסט שלכם, נסו את הכלי בודק AI & פלגיאט שלנו — הדביקו כל מסמך וראו את הפסיקה לכל משפט, אותם רפי ההחלטה, ואותו רווח הביטחון שאנו משתמשים בו למספרים שפורסמו.
תוצאות הבנצ'מארק נגזרות מקבוצת האימות הפנימית שלנו ועלולות שלא להכליל לטקסט מחוץ להתפלגות. המספרים שפורסמו מייצגים ביצועים ממוצעים על פני 1,000 דגימות; המסמך שלכם עלול לקבל ציון שונה. השתמשו בתוצאות זיהוי AI כקלט אחד מבין רבים, ולא כראיה בלעדית לזכות היוצרים.