נווט למעלה
בית איזה AI הקשה ביותר לזיהוי? GPT לעומת Claude לעומת Gemini | גלאי פלגיאט

איזה AI הקשה ביותר לזיהוי? GPT לעומת Claude לעומת Gemini לעומת Llama

לא כל טקסט AI ניתן לזיהוי באותה מידה. הנה תוצאות הבנצ'מארק שלנו לכל גנרטור — אילו משפחות מודלים הגלאי שלנו תופס בדיוק כמעט-מושלם, על אילו הוא מתקשה, ומה זה אומר לכם לגבי בחירת זרימת עבודה לזיהוי.

2026-04-17 · Plagiarism Detector Team

התשובה הקצרה — לוח הדרגה

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

מסודר מהקל ביותר לזיהוי לקשה ביותר על קבוצת האימות שלנו. הפיזור רחב — AUC על חלק ממשפחות המודלים עולה על 0.99 בעוד אחרים נופלים לתוך ה-0.80. קושי הזיהוי מתאם עם גודל המודל, תחכום כיוון-ההוראה, ושונות הפלט.

לפירוט המלא של מתודולוגיית הבנצ'מארק לכל גנרטור, ראו את דף בנצ'מארק הדיוק שלנו. מאמר זה מסכם את ההשלכות המעשיות של הנתונים הללו עבור משתמשים שבוחרים באיזה גלאי לסמוך ואיזה מודל להשתמש.

משפחת OpenAI — GPT

GPT-3.5 הוא המודל המודרני הקל ביותר לזיהוי — AUC [AUC: ?] על הסט שלנו. ממצאי הייצור הישן (חזרה, גיוס, רגיסטר bland) נותרים ברורים. GPT-4 יורד ל-AUC [AUC: ?], GPT-4o ל-[AUC: ?], המשקף כיול טוב יותר בהדרגה. GPT-5.x הוא הקשה ביותר מהמשפחה — AUC [AUC: ?] — כיוון שצוות כיוון-ההוראה ביקש במפורש הסרת ממצאי-זיהוי.

השלכה מעשית: זרימות עבודה אקדמיות שדואגות לרמאות מעידן GPT-3.5 יכולות להסתמך רבות על הזיהוי לבדו. זרימות עבודה שדואגות ל-GPT-5 צריכות לשלב זיהוי עם ראיות הקשריות, כמתואר במדריך זרימת העבודה למורים שלנו.

הגדרות הטמפרטורה חשובות. פלטים בטמפרטורה נמוכה (t≤0.5) קלים יותר לזיהוי מפני שהם מרכזים מסת הסתברות על אוצר מילים צר יותר. רוב ממשקי הצ'אט מוגדרים כברירת מחדל ל-t≈0.7, מה שמציב טקסט באזור ניתן-לזיהוי בינוני. משתמשים אנטגוניסטים מגבירים במפורש טמפרטורה או משתמשים בפענוח מגוון להרחבת הטווח ולהתחמקות מזיהוי — האנסמבל שלנו מתקן זאת חלקית אך לא לחלוטין.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. משפחת Claude מייצרת באופן עקבי טקסט פחות חזרתי ומגוון יותר מבחינת סגנון ממודלי GPT מאותו דור, מה שמקשה על זיהויה באמצעות שיטות סטטיסטיות.

אימון ה-constitutional-AI של Claude מכוון ספציפית ל“סימני המכונה” שהמסווג המפוקח שלנו לומד מהם — דפוסי גיוס, שימוש יתר במחברים ספציפיים, מבנה פסקאות צפוי. זהו יחס אנטגוניסטי ישיר: הגנרטור מאומן מול התכונות שהגלאי מסתמך עליהן.

Claude 4.5 Sonnet ו-GPT-5.x קרובים בקושי. ההתפלגויות של הציונים שלהם חופפות ביותר לקו הבסיס האנושי בנתוני האימות שלנו. אם זרימת העבודה שלכם מכוונת לאחד ממודלים אלה, צפו ל-recall מופחת ברף ברירת המחדל ושקלו להוריד לרף F1-אופטימלי לסינון ברגישות גבוהה.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini הראה את ביצועי הזיהוי המשתנים ביותר בין גרסאות — כמה הוצאות ביניים רגרסו זמנית לפני שהשיפורים נחתו.

האימון הרב-מודלי של Gemini אומר שפלטי טקסט-בלבד לפעמים נושאים דפוסים שיוריים מתחומי תיאור-תמונה או הסבר-קוד. הגלאי שלנו קולט אלה, מה שמסביר את יכולת הזיהוי הגבוהה יותר במקצת של Gemini על פרומפטים בתחומים מעורבים בהשוואה לפרוזה טהורה.

עבור משתמשי Google Workspace שהתלמידים או העובדים שלהם משתמשים ב-Gemini דרך Docs, אות הזיהוי דומה לפלט ה-API הגולמי. לא צפינו בדפוסי התחמקות ספציפיים לשילוב-סביבת-עבודה השונים מהשימוש הישיר ב-Gemini API.

בדקו דגימה מכל מודל

הדביקו פלט מכל LLM וראו את הפסיקה לכל משפט. הגלאי שלנו מתייחס לכל 22 משפחות המודלים כבדיקת אנסמבל אחת.

Meta ומודלים עם-משקלים-פתוחים

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. מודלים עם-משקלים-פתוחים מתפרסים על טווח רחב יותר מסגורים — וריאנטים מכווננים-דקות, פריסות כמותיות, ונקודות-ביקורת שונו-על-ידי-קהילה כולם מייצרים פלטים שונים בדקות.

זיהוי על מודלים-פתוחים חשוב אסטרטגית מפני שכלי הומנייזר נבנים בדרך כלל על מודלים עם-משקלים-פתוחים — נגזרות Llama ו-Mistral רצות מקומית בעלות נמוכה, שהיא הסיבה שהמחירים של שירותי פרפרזה והעברת סגנון מתאימים להם. אם הדאגה שלכם היא AI מוּאנס, אתם בסופו של דבר מגנים מפני ייצור משפחת-Llama.

DeepSeek R1 ו-o3-mini (מודל הנימוק של OpenAI) ראויים לאזכור נפרד. שניהם מייצרים טקסט עם ממצאי שרשרת-נימוק — לוגיקה שלב-אחר-שלב מפורשת הנראית בפלט — שהגלאי שלנו למד לזהות. מודלים של נימוק ניתנים לזיהוי יותר כרגע מאשר עמיתיהם בצ'אט-בסיסי מסיבה זו.

מה ההבדלים הללו אומרים לכם

אם אתם בוחרים מודל לכתיבה בו וזיהוי אינו בראש מעייניכם, Claude 4.5 Sonnet ו-GPT-5 הם הקשים ביותר לזיהוי. אם אתם בונים זרימת עבודה לזיהוי, תעדיפו את המודלים שאתם רואים בפועל: רוב ניצול לרעה אקדמי עדיין רץ על GPT-4/5 דרך ממשקים חינמיים; רוב חוות התוכן רצות על הומנייזרים בנגזרות-Llama.

גלאי יחיד שאומן על משפחת מודלים יחידה יניב ביצועים גרועים ביותר על האחרים. גישת האנסמבל שלנו מאמנת על דגימות מכל 22 הגנרטורים, שזוהי הסיבה שה-AUC לכל מודל במקרים קשים (Claude 4.5, GPT-5) עדיין מעל 0.90 בעוד שכל גלאי שאומן על-מודל-יחיד היה יורד מתחת ל-0.80.

המגמה הבסיסית: קושי הזיהוי עולה מהר יותר מקצב הוצאת הגנרטורים. כל דגל חדש קשה יותר לזיהוי מהקודם, אימון מחדש סוגר את הפער אך לא לחלוטין. צפו שקו הבסיס 2026–2027 יהיה AUC נמוך יותר על מודלים חזיתיים ובערך קבוע על מודלים ישנים.

שאלות נפוצות

אם חלק מהמודלים קשים יותר לזיהוי, האם עלי להימנע מגלאים לחלוטין?
לא — גם על משפחות המודלים הקשות ביותר ה-AUC שלנו מעל 0.85, שהוא אות חזק. השאלה היא כיצד אתם משתמשים באות. למודלים קשים-לזיהוי, שלבו את הציון עם ראיות מאמתות (היסטוריית עריכה, עבודה בכיתה, שיחת תלמיד). למודלים קלים יותר, הציון לבדו לרוב מספיק.
איזה מודל עלי להשתמש בו אם אני רוצה להימנע מזיהוי?
אנו לא עונים על שאלה זו ישירות — אנו מריצים כלי זיהוי, לא מדריך התחמקות. מה שנאמר: ניתן-לזיהוי מול לא-ניתן-לזיהוי אינו הציר הנכון לבחירת מודל. איכות, עלות, והתאמה-למטרה חשובים הרבה יותר מקושי הזיהוי. אם אתם כותבים בצורה לגיטימית בסיוע AI, גילוי וזרימת עבודה שקופה חשובים יותר מהסתרת הכלי.
האם לוריאנטים של מודלים עם-משקלים-פתוחים יש פרופילי זיהוי שונים?
כן, ובאופן משמעותי. וריאנט Llama 3.3 שכווין-דקות בקהילה לסגנון כתיבה ספציפי יכול לייצר טקסט שמקבל ציון שונה מ-Llama 3.3 וניל. הבנצ'מארק שלנו מכסה את נקודת-הביקורת הסטנדרטית; כיוונים-דקות מותאמים אישית עלולים להיות קלים יותר (אם הם מצמצמים התפלגויות פלט) או קשים יותר (אם הם מתאמנים-אנטגוניסטית מפורשות מול זיהוי).
כיצד טמפרטורה ודגימה משפיעות על יכולת הזיהוי?
טמפרטורה גבוהה יותר ודגימה מגוונת יותר בדרך כלל מפחיתות יכולת זיהוי מפני שהן מרחיבות את התפלגות הפלט. פענוח חמדני בטמפרטורה נמוכה הוא הקל ביותר לזיהוי. רוב ממשקי הצ'אט הייצוריים רצים ב-t≈0.7–1.0 עם דגימת גרעין, מה שמציב אותם במשטר ניתן-לזיהוי בינוני — האנסמבל שלנו מניב ביצועים דומים על פני הטווח הברירת-מחדל.
מתי GPT-6 או Claude 5 יגיעו ומה לצפות?
אמצע 2026 הוא תחזית הקונצנזוס לשניהם. צפו ש-AUC הזיהוי על המשפחות החדשות ייפול לטווח 0.80–0.85 ב-4–8 השבועות הראשונים לאחר ההשקה בעוד אנו אוספים דגימות ומאמנים מחדש. גרסאות היסטוריות מרמזות על התאוששות מלאה תוך 8–12 שבועות אם המודל זמין באופן נרחב; ארוך יותר עבור מודלים נדירים או בגישה מוגבלת.

מספרי AUC לכל מודל נגזרים מאימות פנימי שלנו ועלולים שלא להכליל. קושי כל מודל משתנה לאורך זמן ככל שגם הגנרטור וגם קורפוס האימון שלנו מתפתחים. הנתונים הנוכחיים משקפים ריצת הבנצ'מארק 2026-04.