Ми публікуємо реальну точність нашого детектора ШІ для 22 генеративних моделей, включаючи GPT-5, Claude 4, Gemini 2 та Llama 3. Таблиці по кожній моделі, чесні обмеження та набір даних для завантаження для дослідників.
Більшість інструментів виявлення ШІ пропонують довіряти одному непрозорому балу. Ми вважаємо, що ви заслуговуєте на докази. На цій сторінці ми ділимося повними результатами нашого внутрішнього валідаційного запуску — кожним генератором, який ми тестували, показником AUC-ROC для кожного, типами есе, з якими у нас виникало найбільше труднощів, і порогами прийняття рішень, що використовуються у виробництві.
Такий рівень прозорості є незвичним у сфері виявлення ШІ. Більшість конкурентів — постачальники засобів перевірки на плагіат, спеціалізовані сервіси виявлення ШІ, загальні SaaS-інструменти — публікують або жодних даних про точність, або одне вибране число. Ця закономірність є нестійкою: педагоги, видавці та дослідники потребують відтворюваних бенчмарків, перш ніж зможуть покластися на будь-який інструмент.
Наші числа отримані з валідаційної вибірки 1 000 зразків калібрувального корпусу, використаного для навчання нашого детектора ModernBERT. Та сама методологія, що керує цим бенчмарком, працює з кожним документом, який ви надсилаєте через наш інструмент. Нічого не приховується для демонстрацій.
Валідаційна вибірка містить 1 000 есе, взятих з калібрувального корпусу з 1 200 зразків: 600 есе, написаних людьми (з даних спільного завдання PAN25 та набору аргументативних есе PERSUADE), та 600 есе, згенерованих ШІ (вироблених 22 різними великими мовними моделями в умовах контрольованого підказування). Розподіл навчання/валідації 80/20 є фіксованим і відтворюваним.
Кожен зразок оцінюється ізольовано, без доступу до метаданих, які могли б розкрити справжню відповідь. Детектор повертає ймовірність у діапазоні [0, 100], що відображає ймовірність того, що зразок згенерований ШІ. Потім ми обчислюємо площу під кривою робочих характеристик приймача (AUC-ROC) для кожного генератора та на рівні типу есе.
Всі пороги, гіперпараметри навчання та необроблені виходи ймовірностей реєструються. Сам набір даних доступний для завантаження внизу цієї сторінки — формат CSV, один рядок на зразок, з ідентифікатором генератора, міткою типу есе, необробленим балом та остаточним бінарним вердиктом.
На всій вибірці з 1 000 зразків наш ансамблевий детектор досягає AUC-ROC [AUC: 0,9884]. При порозі прийняття рішень 50%, що використовується у виробництві: 0 хибнопозитивних результатів на людських есе у валідаційній вибірці та 60% повноти на есе ШІ. При F1-оптимальному порозі 26,56% повнота зростає до 90% ціною 2% хибнопозитивних — компроміс, більш придатний для робочих процесів з високою чутливістю скринінгу.
Вердикт на рівні документа в нашому публічному інструменті використовує консервативний поріг 50%, надаючи пріоритет нульовим хибнопозитивним результатам над максимальною повнотою. Вчителі, видавці та дослідники можуть змінити це через повзунок чутливості у віджеті, коли хочуть більш агресивного позначення.
Для порівняння: компонент Binoculars з нульовою підказкою окремо (налаштування 2× Llama-3.1-8B) набирає AUC [AUC: 0,8509] самостійно. Тонко налаштований компонент ModernBERT окремо набирає [AUC: 1,0000] на внутрішньорозподільних есе та [AUC: 0,9069] на позарозподільному тексті. Ансамбль знаходиться між ними за будь-якою одиночною віссю, але перевершує обидва в середньому, оскільки виправляє їхні взаємодоповнювальні слабкості.
Ось таблиця AUC-ROC по моделях. Моделі впорядковані від найлегших до найважчих для виявлення у нашій валідаційній вибірці. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
Моделі OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Інші: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Основна закономірність: нові, більші, інструктивно-налаштовані моделі, як правило, виробляють текст, який більше нагадує людський для будь-якого статистичного детектора, включаючи наш. Claude 4.5 Sonnet та GPT-5.x — це дві сім'ї, де наші розподіли балів найбільше перетинаються з людською базою. Це відповідає кожному незалежному дослідженню, опублікованому у 2025 році — гонка озброєнь є реальною, і розмір моделі є прямим вустрічним вітром для виявлення.
Не весь текст однаково піддається виявленню. Ми розбиваємо результати за типом есе — кожна категорія підказок PERSUADE — і розрив між найкращим і найгіршим є значним. [PER-TYPE TABLE]
Аргументативні, переконливі та пояснювальні есе: найсильніша сфера детектора. AUC зазвичай 0,97–1,00, оскільки навчальні корпуси переважають ці стилі. Саме сюди належить більшість випадків використання академічної доброчесності.
Художнє письмо та літературний аналіз: наша найслабша сфера. Для literary_analysis AUC падає до 0,69 — людський стиль у художній літературі зливається з результатами LLM, і ні наш наглядовий, ні наш компонент з нульовою підказкою не можуть надійно їх відрізнити. Ставтеся до високого балу ШІ в художньому тексті з обережністю.
Вставте будь-який документ і побачте той самий вердикт по кожному реченню та пороги прийняття рішень, які ми використовуємо для цих бенчмаркових чисел. Безкоштовно, реєстрація не потрібна.
Три класи тексту уникають нашого детектора частіше, ніж припускає наша валідаційна вибірка. Олюднений текст ШІ — результат, пропущений через інструмент ворожого перефразування або перенесення стилю — часто оцінюється як людський, навіть якщо основний текст був повністю згенерований. Короткий текст (менше 100 слів) важко класифікувати взагалі, оскільки статистичного сигналу недостатньо. Нерідна англомовна письмова мова може оцінюватися як згенерована ШІ, оскільки LLM та автори, що пишуть англійською як іноземною, мають певні спільні лексичні та синтаксичні уподобання.
Наш детектор є ймовірнісним, а не доказовим. Високий бал ШІ — це сигнал для подальшого дослідження, а не доказ порушення. Ми наполегливо рекомендуємо поєднувати бал з контекстом: нещодавня історія редагувань, чернеткові варіанти, зразки письма того самого автора та — де це дозволено — коротка подальша бесіда з автором.
Ми постійно перенавчаємо на останніх результатах генераторів, але завжди є затримка: модель, випущена минулого тижня, може бути недостатньо представлена у навчальних даних. Якщо ваш робочий процес залежить від виявлення останніх моделей, щоквартально перевіряйте нашу сторінку бенчмарку для отримання оновлених чисел.
Ми публікуємо необроблені результати валідації, щоб дослідники, журналісти та педагоги могли незалежно перевірити наші твердження. CSV містить: ідентифікатор зразка, ідентифікатор генератора (або 'human'), мітку типу есе, необроблений вихід ймовірності, бінарний вердикт при порозі 50%, бінарний вердикт при порозі 26,56%.
Завантажити: ai-detector-benchmark-2026-04.csv (оновлюється щоквартально). Академічне використання є необмеженим; комерційна перепублікація вимагає атрибуції: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
Для інтерактивної версії тієї самої методології на вашому власному тексті спробуйте наш інструмент Детектор ШІ та плагіату — вставте будь-який документ і побачте вердикт по кожному реченню, ті самі пороги прийняття рішень та той самий довірчий інтервал, які ми використовуємо для цих опублікованих чисел.
Результати бенчмарку отримані з нашої внутрішньої валідаційної вибірки і можуть не узагальнюватися на позарозподільний текст. Опубліковані числа відображають середню продуктивність на 1 000 зразках; ваш документ може отримати інший бал. Використовуйте результати виявлення ШІ як один з багатьох вхідних даних, а не як єдиний доказ авторства.