Не весь текст ШІ однаково піддається виявленню. Ось результати нашого бенчмарку по генераторах — які сім'ї моделей наш детектор виявляє з майже досконалою точністю, з якими він бореться та що це говорить вам про вибір робочого процесу виявлення.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Впорядковано від найлегших до найважчих для виявлення у нашій валідаційній вибірці. Розкид є великим — AUC для деяких сімей моделей перевищує 0,99, тоді як інші падають до 0,80-х. Складність виявлення корелює з розміром моделі, витонченістю інструктивного налаштування та варіативністю виходу.
Для повної методології розбивки по генераторах дивіться нашу сторінку бенчмарку точності. Ця стаття підсумовує практичні наслідки цих даних для користувачів, що обирають, якому детектору довіряти та яку модель використовувати.
GPT-3.5 є найлегшою для виявлення сучасною моделлю — AUC [AUC: ?] на нашій вибірці. Артефакти застарілої генерації (повторення, застережливість, нудний реєстр) залишаються чітко присутніми. GPT-4 падає до AUC [AUC: ?], GPT-4o до [AUC: ?], що відображає прогресивно кращу калібровку. GPT-5.x є найважчим у сімействі — AUC [AUC: ?] — оскільки команда з інструктивного налаштування явно спрямовувалась на видалення артефактів виявлення.
Практичне значення: академічні робочі процеси, що стосуються обману за допомогою GPT-3.5, можуть значною мірою покладатися на одне виявлення. Робочі процеси, що стосуються GPT-5, мають поєднувати виявлення з контекстними доказами, як описано в нашому посібнику з робочого процесу для вчителів.
Налаштування температури мають значення. Виходи з низькою температурою (t≤0,5) легше виявити, оскільки вони концентрують масу ймовірності на вужчому словниковому запасі. Більшість чат-інтерфейсів за замовчуванням t≈0,7, що ставить текст у помірно виявляємій зоні. Ворожі користувачі явно підвищують температуру або використовують різноманітне декодування для розширення діапазону та ухилення від виявлення — наш ансамбль частково коригує це, але не повністю.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Сімейство Claude постійно виробляє менш повторюваний, більш стилістично різноманітний текст, ніж GPT-моделі того самого покоління, що робить його важчим для виявлення статистичними методами.
Навчання Claude на основі конституційного ШІ спеціально спрямоване на “машинні ознаки”, яким навчається наш наглядовий класифікатор — патерни застережливості, надмірне використання конкретних сполучників, передбачувана структура абзаців. Це є прямою ворожою стосунками: генератор навчається проти характеристик, на які покладається детектор.
Claude 4.5 Sonnet та GPT-5.x близькі за складністю. Їхні розподіли балів найбільше перетинаються з людською базою у наших валідаційних даних. Якщо ваш робочий процес спрямований на будь-яку з цих моделей, очікуйте зниженої повноти при стандартному порозі та розгляньте зниження до F1-оптимального для скринінгу з високою чутливістю.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini показав найбільш змінну продуктивність виявлення між версіями — деякі проміжні випуски тимчасово регресували до того, як покращення були впроваджені.
Мультимодальне навчання Gemini означає, що виходи лише тексту іноді несуть залишкові патерни з доменів підписів до зображень або пояснень коду. Наш детектор вловлює ці патерни, що пояснює дещо вищу виявляємість Gemini на змішаних доменних підказках, ніж на чистій прозі.
Для користувачів Google Workspace, чиї студенти або співробітники використовують Gemini через Документи, сигнал виявлення є подібним до необробленого виходу API. Ми не спостерігали патернів ухилення, специфічних для інтеграції з робочим простором, що відрізняються від прямого використання API Gemini.
Вставте вихід будь-якого LLM і побачте вердикт по кожному реченню. Наш детектор трактує всі 22 сім'ї моделей як єдину ансамблеву перевірку.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Моделі з відкритими вагами охоплюють ширший діапазон, ніж закриті — варіанти тонкого налаштування, квантизовані розгортання та модифіковані контрольні точки спільноти — всі вони виробляють дещо різні виходи.
Виявлення для відкритих ваг є стратегічно важливим, оскільки інструменти олюднення зазвичай будуються на моделях з відкритими вагами — похідні Llama та Mistral запускаються локально за низькою вартістю, тому сервіси перефразування та перенесення стилю оцінюють їх за вихідною вартістю. Якщо ваша проблема — олюднений ШІ, ви в кінцевому підсумку захищаєтеся проти генерації сімейства Llama.
DeepSeek R1 та o3-mini (модель міркування OpenAI) заслуговують окремої згадки. Обидві виробляють текст з артефактами ланцюга міркування — явна покрокова логіка, видима у виходах — яку наш детектор навчився розпізнавати. Моделі міркування наразі легше виявити, ніж їхні базові чат-аналоги з цієї причини.
Якщо ви обираєте модель для письма і виявлення не є вашою проблемою, Claude 4.5 Sonnet та GPT-5 є найважче виявляємими. Якщо ви будуєте робочий процес виявлення, пріоритизуйте моделі, які ви фактично бачите: більшість академічних зловживань все ще запускається на GPT-4/5 через безкоштовні інтерфейси; більшість контентного землеробства запускається на похідних олюднювачах Llama.
Один детектор, навчений на одній сім'ї моделей, матиме найгірший результат на інших. Наш ансамблевий підхід навчається на зразках від усіх 22 генераторів, тому AUC по моделях для важких випадків (Claude 4.5, GPT-5) все ще є вище 0,90, тоді як будь-який детектор, навчений на одній моделі, впаде нижче 0,80.
Основна тенденція: складність виявлення зростає швидше, ніж темп випуску генераторів. Кожен новий флагман є важчим для виявлення, ніж попередній, перенавчання закриває розрив, але не повністю. Очікуйте, що базовий рівень 2026–2027 матиме нижчий AUC на фронтирних моделях та приблизно постійний на застарілих моделях.
Числа AUC по моделях отримані з нашої внутрішньої валідації і можуть не узагальнюватися. Складність виявлення кожної моделі змінюється з часом, оскільки і генератор, і наш навчальний корпус розвиваються. Поточні дані відображають бенчмарковий запуск 2026-04.