Перейти вгору
додому Який ШІ найважче виявити? GPT проти Claude проти Gemini | Детектор плагіату

Який ШІ найважче виявити? GPT проти Claude проти Gemini проти Llama

Не весь текст ШІ однаково піддається виявленню. Ось результати нашого бенчмарку по генераторах — які сім'ї моделей наш детектор виявляє з майже досконалою точністю, з якими він бореться та що це говорить вам про вибір робочого процесу виявлення.

2026-04-17 · Plagiarism Detector Team

Коротка відповідь — таблиця лідерів

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Впорядковано від найлегших до найважчих для виявлення у нашій валідаційній вибірці. Розкид є великим — AUC для деяких сімей моделей перевищує 0,99, тоді як інші падають до 0,80-х. Складність виявлення корелює з розміром моделі, витонченістю інструктивного налаштування та варіативністю виходу.

Для повної методології розбивки по генераторах дивіться нашу сторінку бенчмарку точності. Ця стаття підсумовує практичні наслідки цих даних для користувачів, що обирають, якому детектору довіряти та яку модель використовувати.

Сімейство OpenAI — GPT

GPT-3.5 є найлегшою для виявлення сучасною моделлю — AUC [AUC: ?] на нашій вибірці. Артефакти застарілої генерації (повторення, застережливість, нудний реєстр) залишаються чітко присутніми. GPT-4 падає до AUC [AUC: ?], GPT-4o до [AUC: ?], що відображає прогресивно кращу калібровку. GPT-5.x є найважчим у сімействі — AUC [AUC: ?] — оскільки команда з інструктивного налаштування явно спрямовувалась на видалення артефактів виявлення.

Практичне значення: академічні робочі процеси, що стосуються обману за допомогою GPT-3.5, можуть значною мірою покладатися на одне виявлення. Робочі процеси, що стосуються GPT-5, мають поєднувати виявлення з контекстними доказами, як описано в нашому посібнику з робочого процесу для вчителів.

Налаштування температури мають значення. Виходи з низькою температурою (t≤0,5) легше виявити, оскільки вони концентрують масу ймовірності на вужчому словниковому запасі. Більшість чат-інтерфейсів за замовчуванням t≈0,7, що ставить текст у помірно виявляємій зоні. Ворожі користувачі явно підвищують температуру або використовують різноманітне декодування для розширення діапазону та ухилення від виявлення — наш ансамбль частково коригує це, але не повністю.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Сімейство Claude постійно виробляє менш повторюваний, більш стилістично різноманітний текст, ніж GPT-моделі того самого покоління, що робить його важчим для виявлення статистичними методами.

Навчання Claude на основі конституційного ШІ спеціально спрямоване на “машинні ознаки”, яким навчається наш наглядовий класифікатор — патерни застережливості, надмірне використання конкретних сполучників, передбачувана структура абзаців. Це є прямою ворожою стосунками: генератор навчається проти характеристик, на які покладається детектор.

Claude 4.5 Sonnet та GPT-5.x близькі за складністю. Їхні розподіли балів найбільше перетинаються з людською базою у наших валідаційних даних. Якщо ваш робочий процес спрямований на будь-яку з цих моделей, очікуйте зниженої повноти при стандартному порозі та розгляньте зниження до F1-оптимального для скринінгу з високою чутливістю.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini показав найбільш змінну продуктивність виявлення між версіями — деякі проміжні випуски тимчасово регресували до того, як покращення були впроваджені.

Мультимодальне навчання Gemini означає, що виходи лише тексту іноді несуть залишкові патерни з доменів підписів до зображень або пояснень коду. Наш детектор вловлює ці патерни, що пояснює дещо вищу виявляємість Gemini на змішаних доменних підказках, ніж на чистій прозі.

Для користувачів Google Workspace, чиї студенти або співробітники використовують Gemini через Документи, сигнал виявлення є подібним до необробленого виходу API. Ми не спостерігали патернів ухилення, специфічних для інтеграції з робочим простором, що відрізняються від прямого використання API Gemini.

Перевірте зразок будь-якої моделі

Вставте вихід будь-якого LLM і побачте вердикт по кожному реченню. Наш детектор трактує всі 22 сім'ї моделей як єдину ансамблеву перевірку.

Meta та моделі з відкритими вагами

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Моделі з відкритими вагами охоплюють ширший діапазон, ніж закриті — варіанти тонкого налаштування, квантизовані розгортання та модифіковані контрольні точки спільноти — всі вони виробляють дещо різні виходи.

Виявлення для відкритих ваг є стратегічно важливим, оскільки інструменти олюднення зазвичай будуються на моделях з відкритими вагами — похідні Llama та Mistral запускаються локально за низькою вартістю, тому сервіси перефразування та перенесення стилю оцінюють їх за вихідною вартістю. Якщо ваша проблема — олюднений ШІ, ви в кінцевому підсумку захищаєтеся проти генерації сімейства Llama.

DeepSeek R1 та o3-mini (модель міркування OpenAI) заслуговують окремої згадки. Обидві виробляють текст з артефактами ланцюга міркування — явна покрокова логіка, видима у виходах — яку наш детектор навчився розпізнавати. Моделі міркування наразі легше виявити, ніж їхні базові чат-аналоги з цієї причини.

Що ці відмінності означають для вас

Якщо ви обираєте модель для письма і виявлення не є вашою проблемою, Claude 4.5 Sonnet та GPT-5 є найважче виявляємими. Якщо ви будуєте робочий процес виявлення, пріоритизуйте моделі, які ви фактично бачите: більшість академічних зловживань все ще запускається на GPT-4/5 через безкоштовні інтерфейси; більшість контентного землеробства запускається на похідних олюднювачах Llama.

Один детектор, навчений на одній сім'ї моделей, матиме найгірший результат на інших. Наш ансамблевий підхід навчається на зразках від усіх 22 генераторів, тому AUC по моделях для важких випадків (Claude 4.5, GPT-5) все ще є вище 0,90, тоді як будь-який детектор, навчений на одній моделі, впаде нижче 0,80.

Основна тенденція: складність виявлення зростає швидше, ніж темп випуску генераторів. Кожен новий флагман є важчим для виявлення, ніж попередній, перенавчання закриває розрив, але не повністю. Очікуйте, що базовий рівень 2026–2027 матиме нижчий AUC на фронтирних моделях та приблизно постійний на застарілих моделях.

Часті запитання

Якщо деякі моделі важче виявити, чи варто взагалі уникати детекторів?
Ні — навіть для найважчих сімей моделей наш AUC вище 0,85, що є сильним сигналом. Питання в тому, як ви використовуєте сигнал. Для моделей, що важко виявляються, поєднуйте бал з підтверджувальними доказами (історія редагування, робота в класі, бесіда зі студентом). Для більш легких моделей самого балу часто достатньо.
Яку модель слід використовувати, якщо я хочу уникнути виявлення?
Ми не відповідаємо на це питання безпосередньо — ми запускаємо інструмент виявлення, а не посібник з ухилення. Що ми скажемо: виявляємий-проти-невиявляємого — це не правильна вісь для вибору моделі. Якість, вартість та відповідність меті мають набагато більше значення, ніж складність виявлення. Якщо ви законно пишете з допомогою ШІ, розкриття та прозорий робочий процес мають більше значення, ніж приховування інструменту.
Чи мають різні варіанти моделей з відкритими вагами різні профілі виявлення?
Так, і значно. Варіант Llama 3.3, тонко налаштований спільнотою для конкретного стилю письма, може виробляти текст, що отримує різний бал порівняно з ванільним Llama 3.3. Наш бенчмарк охоплює стандартний контрольний пункт; користувацькі тонкі налаштування можуть бути легшими (якщо вони звужують вихідні розподіли) або важчими (якщо вони явно тренуються ворожо проти виявлення).
Як температура та семплювання впливають на виявляємість?
Вища температура та більш різноманітне семплювання загалом знижують виявляємість, оскільки розширюють вихідний розподіл. Жадібне декодування з низькою температурою найлегше виявити. Більшість виробничих чат-інтерфейсів запускаються при t≈0,7–1,0 з ядерним семплюванням, що ставить їх у помірно виявляємий режим — наш ансамбль показує подібну продуктивність у стандартному діапазоні.
Коли вийдуть GPT-6 або Claude 5 і чого слід очікувати?
Середина 2026 року є консенсусним прогнозом для обох. Очікуйте, що AUC виявлення для нових сімей впаде до діапазону 0,80–0,85 протягом перших 4–8 тижнів після запуску, поки ми збираємо зразки та перенавчаємо. Історичні версії припускають повне відновлення протягом 8–12 тижнів, якщо модель є широко доступною; довше для рідкісних або моделей з обмеженим доступом.

Числа AUC по моделях отримані з нашої внутрішньої валідації і можуть не узагальнюватися. Складність виявлення кожної моделі змінюється з часом, оскільки і генератор, і наш навчальний корпус розвиваються. Поточні дані відображають бенчмарковий запуск 2026-04.