Перейти вгору
додому Чому виявлення тексту ШІ є складним: гонка озброєнь між атакою та захистом | Детектор плагіату

Чому виявлення тексту ШІ є складним: всередині гонки озброєнь

Виявлення та генерація перебувають у стосунках кота і миші. Кожен новий випуск моделі закриває статистичний розрив, на який покладаються детектори — і кожне покращення виявлення отримує у відповідь новий інструмент олюднення. Ось що насправді відбувається під капотом.

2026-04-17 · Plagiarism Detector Team

Статистична основа виявлення

Кожен детектор тексту ШІ є, зрештою, статистичним дискримінатором — він дивиться на характеристики тексту (ймовірності токенів, розгубленість, пульсацію, синтаксичну регулярність) і намагається знайти сигнали, що відрізняють згенерований машиною від написаного людиною. Метод Binoculars (ICML 2024) використовує відношення крос-розгубленості між двома мовними моделями як свій сигнал. Наглядовий підхід ModernBERT навчається сигналу безпосередньо з мічених прикладів.

Обидва підходи мають фундаментальну вразливість: сигнали, на які вони покладаються, є побічними ефектами того, як моделі генерують текст, а не фундаментальними характеристиками написаного машиною. Коли генератори покращуються, ці побічні ефекти зменшуються. Модель, навчена писати більше як людина, — за визначенням — буде важчою для виявлення.

Це не є дослідницькою невдачею. Це структурний факт проблеми. Виявлення діє на рухому ціль: кожен великий випуск LLM звужує розрив, кожен інструмент олюднення явно навчається проти виходів детектора. Питання не в тому, ‘чи можемо ми досягти 100% виявлення назавжди’ — це неможливо — а в тому, ‘чи можемо ми залишатися попереду поточного покоління достатньо довго, щоб бути корисними на практиці.’

Що робить меч — генерація покращується

Три тенденції генерації ускладнюють виявлення. Розмір: більші моделі виробляють статистично більш різноманітний текст, оскільки мають багатші внутрішні розподіли. Модель з 70 мільярдами параметрів має ширший діапазон людиноподібного виходу, ніж модель з 7 мільярдами параметрів. Інструктивне налаштування: RLHF та конституційні методи навчають моделі уникати повторюваних, застережливих, нудних патернів, які робили GPT-3 легко помітним. Температура та семплювання: чат-інтерфейси перейшли до ядерного семплювання та випадковості, що руйнує деякі з низько-варіативних патернів, які класичні детектори використовували як якорі.

GPT-5, Claude 4.5 та Gemini 2.5 помітно важчі для виявлення, ніж їхні попередники. Наша внутрішня валідація підтверджує це: кожне покоління моделей знижує наш AUC для цієї сім'ї на 5–10 відсоткових пунктів порівняно з попереднім поколінням. Дивіться наш бенчмарк точності для чисел по кожній моделі.

Інструменти олюднення — Undetectable AI, StealthWriter, Humanbeing та зростаючий список — є явними супротивниками. Вони беруть вихід ШІ і перефразовують, переписують або переносять стиль, спеціально щоб обдурити детектори. Вони навчаються проти публічних детекторів (включаючи наш, хоча ми ніколи не ділимося вагами нашої моделі) і помітно покращуються з кожним оновленням.

Що робить щит — виявлення відповідає

Детектори мають три відповіді на гонку озброєнь генерації. Ансамблювання: поєднання кількох сигналів виявлення, щоб жодна одинична тактика ухилення була недостатньою. Наш ансамбль нульової підказки Binoculars з наглядовим ModernBERT використовує це: інструмент олюднення, який перемагає один компонент, часто зазнає поразки від іншого, і ансамблевий бал захоплює обидва.

Безперервне перенавчання: ми додаємо зразки від кожного великого нового випуску генератора протягом 4 тижнів після запуску. Якщо завтра вийде GPT-6, наш навчальний корпус включатиме його до середини наступного місяця. Це дорого — обчислення, анотація, повторна валідація — але це єдиний спосіб підтримувати виявлення актуальним. Детектори, що перенавчаються щорічно або рідше, фактично є музейними експонатами протягом року.

Ворожа підготовка: ми навмисно навчаємося на олюднених зразках ШІ та перефразованих виходах, навчаючи модель бачити крізь поверхневий перенос стилю. Це підвищує мінімум того, що інструмент олюднення повинен зробити, щоб уникнути нас, що, своєю чергою, уповільнює гонку озброєнь.

Всередині ландшафту ухилення

Як насправді працюють інструменти олюднення? Три широкі категорії. Перефразування: переписати текст слово за словом або речення за реченням за допомогою вторинного LLM. Ефективно проти наївних детекторів, що покладаються на точні послідовності токенів; помірно ефективно проти статистичних методів. Перенос стилю: перетворити текст, щоб імітувати конкретного автора або регістр. Більш ефективно — AUC нашого детектора падає приблизно на 8 пунктів на тексті зі зміненим стилем.

Гібридне редагування людиною та ШІ: автор пише чернетку, запускає її через LLM для шліфування, потім вручну редагує відполіровану версію. Це найважчий випадок — справді спільна робота, яка поєднує людські та машинні сигнали на рівні речень. Жоден детектор, включаючи наш, не може надійно розв'язати це без метаданих історії редагування, які детектор не може бачити.

Корисна ментальна модель: інструмент олюднення — це не зломщик детектора, це множник витрат для того, хто ухиляється. Він потребує часу, іноді грошей і завжди додає ризик введення помилок. Більшість спроб академічного обману не використовують інструменти олюднення, оскільки тертя переважує вигоду. Там, де домінують інструменти олюднення — це контентні ферми та SEO-спам, згенерований ШІ — випадки використання, де пропускна здатність важлива, а контроль якості слабкий.

Перевірте, як наш детектор оцінює зараз

Вставте будь-який документ і спостерігайте за вердиктом по кожному реченню в режимі реального часу. Ансамблева логіка, описана вище, виконується на вашому тексті менш ніж за 30 секунд.

Чому ансамблювання важливіше за будь-яку одиночну метрику

Детектор з одним сигналом має один режим відмови. Якщо ви покладаєтеся лише на розгубленість, перефразований вихід зі зміненими ймовірностями токенів перемагає вас. Якщо ви покладаєтеся лише на наглядовий класифікатор, позарозподільний текст (нова сім'я моделей, новий домен письма) перемагає вас. Ансамбль усереднює слабкості: перефразування, що перемагає розгубленість, імовірно, все одно спрацьовує в наглядовій голові, і навпаки.

Наш виробничий детектор явно ансамблює: 35% Binoculars (нульова підказка, незалежний від моделі, стійкий до позарозподільного) + 65% ModernBERT (наглядовий, доменно-специфічний, висока точність на внутрішньорозподільному тексті). Ваги були обрані емпірично — ансамблевий AUC був максимізований, коли ModernBERT домінував, але Binoculars зберігав право вето на граничні випадки.

Наслідок: інструменту олюднення тепер доводиться одночасно перемагати дві суттєво різні архітектури виявлення, щоб уникнути нашого вердикту. Публічні інструменти олюднення зазвичай навчаються проти одного цільового детектора, що означає, що вони часто досягають успіху проти того конкретного детектора, але зазнають поразки проти ансамблю. Це головна структурна перевага виявлення у поточній гонці озброєнь.

Реалістичні очікування на наступні 12 місяців

Чого слід очікувати у 2026–2027 роках? GPT-6 та Claude 5, ймовірно, вийдуть у середині року; обидва ще більше звузять розрив. Моделі з відкритими вагами — Llama 4, Qwen 4 — продовжать комодитизувати високоякісну генерацію та зробить інструменти олюднення дешевшими для масштабного запуску. AUC виявлення для фронтирних моделей, ймовірно, впаде в діапазон 0,80–0,90 протягом першого року після випуску, перш ніж перенавчання виправить це.

На стороні захисту: мультимодальні сигнали (динаміка набору тексту, історія редагування, верифікація авторства за відомим корпусом) ймовірно матимуть більше значення, ніж чисте текстове виявлення протягом 24 місяців. Наш детектор лише тексту залишиться першим фільтром, але дедалі більше ставатиме голосуючим учасником у більш насиченому стеку доказів.

Чесний підсумок: чисте текстове виявлення ніколи не досягне 100%. Воно досягне плато десь близько 90–95% AUC на внутрішньорозподільному тексті та 75–85% на фронтирних моделях. Якщо ваш робочий процес вимагає впевненості, вам потрібні докази, що виходять за межі балу. Якщо ваш робочий процес вимагає сильного сигналу для пріоритизації людського перегляду, текстове виявлення залишається корисним і вимірно кращим, ніж нічого не робити.

Часті запитання

Якщо виявлення ШІ ніколи не буде досконалим, чи варто його використовувати взагалі?
Так — питання не в тому, ‘чи воно ідеальне’, а в тому, ‘чи краще, ніж відсутність скринінгу взагалі.’ Детектор з AUC 90% на вашому навантаженні є масштабним покращенням співвідношення сигнал/шум. Люди, які найбільш голосно говорять про обмеження детектора, часто є тими, хто намагається їх обійти; це не аргумент на користь відмови від інструменту.
Чи може водяний знак замінити статистичне виявлення?
Водяний знак вбудовує прихований статистичний підпис у згенерований текст, який детектор може пізніше отримати. Він працює, коли генератори співпрацюють (OpenAI розгорнув його експериментально), але повністю відмовляє на моделях з відкритими вагами, які генерують без водяних знаків. Статистичне виявлення залишиться необхідним у найближчому майбутньому, оскільки воно працює навіть тоді, коли генератор відмовляється співпрацювати.
Що є найважчим для виявлення сьогодні?
Гібридне редагування людиною та ШІ — фрагмент тексту, складений ШІ та відполірований людиною на рівні речень. Жоден поточний детектор не вирішує це надійно без доступу до метаданих історії редагування. Якщо це ваш випадок використання, текстове виявлення є невірним інструментом — вам потрібна інструментація робочого процесу.
Як часто новий генератор фактично знижує ваш AUC?
Кожен великий випуск, приблизно кожні 3–6 місяців, знижує AUC для цієї сім'ї на 5–10 відсоткових пунктів до перенавчання. Перенавчання займає близько 4 тижнів після того, як у нас є достатня кількість зразків. Практичний результат: після кожного нового запуску завжди є вікно 2–8 тижнів, де наш AUC для цієї сім'ї є нижчим за середній. Ми розкриваємо ці прогалини на сторінці бенчмарку.
Чи допомагає ансамблювання проти інструментів олюднення?
Суттєво — це основний структурний захист, що ми маємо. Інструменти олюднення навчаються проти цільового детектора. Коли ця ціль є ансамблем двох архітектурно різних детекторів, інструменту олюднення доводиться одночасно перемагати обидва, що є значно важчим, ніж перемагати будь-який з них окремо. Ось чому ми використовуємо ансамбль у виробництві, навіть якщо один компонент було б дешевше запускати.

Ця стаття описує структурні властивості виявлення тексту ШІ. Конкретні числа відносяться до нашої внутрішньої валідації і можуть не узагальнюватися. Ми оновлюємо цю сторінку, коли нові дослідження та випуски генераторів це вимагають.