додому › Наскільки точне виявлення ШІ? Бенчмарк для 22 LLM | Детектор плагіату

Наскільки точне виявлення ШІ? Наш бенчмарк для 22 LLM

Ми публікуємо реальну точність нашого детектора ШІ для 22 генеративних моделей, включаючи GPT-5, Claude 4, Gemini 2 та Llama 3. Таблиці по кожній моделі, чесні обмеження та набір даних для завантаження для дослідників.

2026-04-17 · Plagiarism Detector Team

Чому ми публікуємо наші показники точності

Більшість інструментів виявлення ШІ пропонують довіряти одному непрозорому балу. Ми вважаємо, що ви заслуговуєте на докази. На цій сторінці ми ділимося повними результатами нашого внутрішнього валідаційного запуску — кожним генератором, який ми тестували, показником AUC-ROC для кожного, типами есе, з якими у нас виникало найбільше труднощів, і порогами прийняття рішень, що використовуються у виробництві.

Такий рівень прозорості є незвичним у сфері виявлення ШІ. Більшість конкурентів — постачальники засобів перевірки на плагіат, спеціалізовані сервіси виявлення ШІ, загальні SaaS-інструменти — публікують або жодних даних про точність, або одне вибране число. Ця закономірність є нестійкою: педагоги, видавці та дослідники потребують відтворюваних бенчмарків, перш ніж зможуть покластися на будь-який інструмент.

Наші числа отримані з валідаційної вибірки 1 000 зразків калібрувального корпусу, використаного для навчання нашого детектора ModernBERT. Та сама методологія, що керує цим бенчмарком, працює з кожним документом, який ви надсилаєте через наш інструмент. Нічого не приховується для демонстрацій.

Тестовий корпус і методологія

Валідаційна вибірка містить 1 000 есе, взятих з калібрувального корпусу з 1 200 зразків: 600 есе, написаних людьми (з даних спільного завдання PAN25 та набору аргументативних есе PERSUADE), та 600 есе, згенерованих ШІ (вироблених 22 різними великими мовними моделями в умовах контрольованого підказування). Розподіл навчання/валідації 80/20 є фіксованим і відтворюваним.

Кожен зразок оцінюється ізольовано, без доступу до метаданих, які могли б розкрити справжню відповідь. Детектор повертає ймовірність у діапазоні [0, 100], що відображає ймовірність того, що зразок згенерований ШІ. Потім ми обчислюємо площу під кривою робочих характеристик приймача (AUC-ROC) для кожного генератора та на рівні типу есе.

Всі пороги, гіперпараметри навчання та необроблені виходи ймовірностей реєструються. Сам набір даних доступний для завантаження внизу цієї сторінки — формат CSV, один рядок на зразок, з ідентифікатором генератора, міткою типу есе, необробленим балом та остаточним бінарним вердиктом.

Основні результати

На всій вибірці з 1 000 зразків наш ансамблевий детектор досягає AUC-ROC [AUC: 0,9884]. При порозі прийняття рішень 50%, що використовується у виробництві: 0 хибнопозитивних результатів на людських есе у валідаційній вибірці та 60% повноти на есе ШІ. При F1-оптимальному порозі 26,56% повнота зростає до 90% ціною 2% хибнопозитивних — компроміс, більш придатний для робочих процесів з високою чутливістю скринінгу.

Вердикт на рівні документа в нашому публічному інструменті використовує консервативний поріг 50%, надаючи пріоритет нульовим хибнопозитивним результатам над максимальною повнотою. Вчителі, видавці та дослідники можуть змінити це через повзунок чутливості у віджеті, коли хочуть більш агресивного позначення.

Для порівняння: компонент Binoculars з нульовою підказкою окремо (налаштування 2× Llama-3.1-8B) набирає AUC [AUC: 0,8509] самостійно. Тонко налаштований компонент ModernBERT окремо набирає [AUC: 1,0000] на внутрішньорозподільних есе та [AUC: 0,9069] на позарозподільному тексті. Ансамбль знаходиться між ними за будь-якою одиночною віссю, але перевершує обидва в середньому, оскільки виправляє їхні взаємодоповнювальні слабкості.

Розбивка по генераторах

Ось таблиця AUC-ROC по моделях. Моделі впорядковані від найлегших до найважчих для виявлення у нашій валідаційній вибірці. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Моделі OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Інші: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Основна закономірність: нові, більші, інструктивно-налаштовані моделі, як правило, виробляють текст, який більше нагадує людський для будь-якого статистичного детектора, включаючи наш. Claude 4.5 Sonnet та GPT-5.x — це дві сім'ї, де наші розподіли балів найбільше перетинаються з людською базою. Це відповідає кожному незалежному дослідженню, опублікованому у 2025 році — гонка озброєнь є реальною, і розмір моделі є прямим вустрічним вітром для виявлення.

Де детектор дає збій

Не весь текст однаково піддається виявленню. Ми розбиваємо результати за типом есе — кожна категорія підказок PERSUADE — і розрив між найкращим і найгіршим є значним. [PER-TYPE TABLE]

Аргументативні, переконливі та пояснювальні есе: найсильніша сфера детектора. AUC зазвичай 0,97–1,00, оскільки навчальні корпуси переважають ці стилі. Саме сюди належить більшість випадків використання академічної доброчесності.

Художнє письмо та літературний аналіз: наша найслабша сфера. Для literary_analysis AUC падає до 0,69 — людський стиль у художній літературі зливається з результатами LLM, і ні наш наглядовий, ні наш компонент з нульовою підказкою не можуть надійно їх відрізнити. Ставтеся до високого балу ШІ в художньому тексті з обережністю.

Спробуйте детектор на власному тексті

Вставте будь-який документ і побачте той самий вердикт по кожному реченню та пороги прийняття рішень, які ми використовуємо для цих бенчмаркових чисел. Безкоштовно, реєстрація не потрібна.

Обмеження та режими відмов

Три класи тексту уникають нашого детектора частіше, ніж припускає наша валідаційна вибірка. Олюднений текст ШІ — результат, пропущений через інструмент ворожого перефразування або перенесення стилю — часто оцінюється як людський, навіть якщо основний текст був повністю згенерований. Короткий текст (менше 100 слів) важко класифікувати взагалі, оскільки статистичного сигналу недостатньо. Нерідна англомовна письмова мова може оцінюватися як згенерована ШІ, оскільки LLM та автори, що пишуть англійською як іноземною, мають певні спільні лексичні та синтаксичні уподобання.

Наш детектор є ймовірнісним, а не доказовим. Високий бал ШІ — це сигнал для подальшого дослідження, а не доказ порушення. Ми наполегливо рекомендуємо поєднувати бал з контекстом: нещодавня історія редагувань, чернеткові варіанти, зразки письма того самого автора та — де це дозволено — коротка подальша бесіда з автором.

Ми постійно перенавчаємо на останніх результатах генераторів, але завжди є затримка: модель, випущена минулого тижня, може бути недостатньо представлена у навчальних даних. Якщо ваш робочий процес залежить від виявлення останніх моделей, щоквартально перевіряйте нашу сторінку бенчмарку для отримання оновлених чисел.

Завантажити повний набір даних

Ми публікуємо необроблені результати валідації, щоб дослідники, журналісти та педагоги могли незалежно перевірити наші твердження. CSV містить: ідентифікатор зразка, ідентифікатор генератора (або 'human'), мітку типу есе, необроблений вихід ймовірності, бінарний вердикт при порозі 50%, бінарний вердикт при порозі 26,56%.

Завантажити: ai-detector-benchmark-2026-04.csv (оновлюється щоквартально). Академічне використання є необмеженим; комерційна перепублікація вимагає атрибуції: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

Для інтерактивної версії тієї самої методології на вашому власному тексті спробуйте наш інструмент Детектор ШІ та плагіату — вставте будь-який документ і побачте вердикт по кожному реченню, ті самі пороги прийняття рішень та той самий довірчий інтервал, які ми використовуємо для цих опублікованих чисел.

Часті запитання

Як часто оновлюється цей бенчмарк?

Щоквартально. Коли запускається великий генератор (GPT-6, Claude 5, Gemini 3), ми додаємо його до тестового корпусу протягом 4 тижнів і перепубліковуємо оновлену таблицю. Історичні версії архівуються з датованими іменами файлів — видання 2026-04 є поточним стабільним випуском.

Чому ви не публікуєте виходи ймовірностей по кожному зразку?

Ми публікуємо — CSV для завантаження містить необроблені ймовірності. Що ми не публікуємо — це оригінальний текст есе, оскільки корпус PAN25 і набір даних PERSUADE мають обмеження на розповсюдження. Якщо вам потрібен текст, отримайте ці набори даних безпосередньо з їхнього джерела (посилання в документації CSV).

Чи можна довіряти детектору, якщо AUC нижче 1,0?

Жоден детектор не досягає AUC 1,0 на кожному генераторі, тому питання не в тому, ‘чи він ідеальний’, а в тому, ‘чи він прозорий.’ Детектор, який публікує AUC 0,95 і розповідає, де він дає збій, є більш надійним, ніж той, який публікує ‘найвищу в галузі точність’ без жодного числа. Наш AUC [AUC: 0,9884] — це чесна середня продуктивність; розбивки по генераторах та типах есе — це те, де ви маєте приймати рішення про покупку.

Чи готовий ваш детектор ШІ до академічних публікацій?

Базова методологія готова — Binoculars (ICML 2024) і ModernBERT є обидва рецензованими архітектурами. Наш конкретний корпус тонкого налаштування та пороги є власницькими, але методологія бенчмарку повністю відтворювана.

Як безкоштовний онлайн-інструмент порівнюється з настільним продуктом?

Той самий двигун, ті самі показники точності, та сама логіка вердикту по кожному реченню. Настільний продукт додає необмежену довжину документа, офлайн-сканування, інтегровану перевірку на плагіат за 4 мільярдами веб-сторінок і пакетну обробку цілих папок. Для разових перевірок онлайн-інструмент є достатнім; для щоденних робочих процесів настільний варіант є правильним вибором.

Результати бенчмарку отримані з нашої внутрішньої валідаційної вибірки і можуть не узагальнюватися на позарозподільний текст. Опубліковані числа відображають середню продуктивність на 1 000 зразках; ваш документ може отримати інший бал. Використовуйте результати виявлення ШІ як один з багатьох вхідних даних, а не як єдиний доказ авторства.