Виявлення та генерація перебувають у стосунках кота і миші. Кожен новий випуск моделі закриває статистичний розрив, на який покладаються детектори — і кожне покращення виявлення отримує у відповідь новий інструмент олюднення. Ось що насправді відбувається під капотом.
Кожен детектор тексту ШІ є, зрештою, статистичним дискримінатором — він дивиться на характеристики тексту (ймовірності токенів, розгубленість, пульсацію, синтаксичну регулярність) і намагається знайти сигнали, що відрізняють згенерований машиною від написаного людиною. Метод Binoculars (ICML 2024) використовує відношення крос-розгубленості між двома мовними моделями як свій сигнал. Наглядовий підхід ModernBERT навчається сигналу безпосередньо з мічених прикладів.
Обидва підходи мають фундаментальну вразливість: сигнали, на які вони покладаються, є побічними ефектами того, як моделі генерують текст, а не фундаментальними характеристиками написаного машиною. Коли генератори покращуються, ці побічні ефекти зменшуються. Модель, навчена писати більше як людина, — за визначенням — буде важчою для виявлення.
Це не є дослідницькою невдачею. Це структурний факт проблеми. Виявлення діє на рухому ціль: кожен великий випуск LLM звужує розрив, кожен інструмент олюднення явно навчається проти виходів детектора. Питання не в тому, ‘чи можемо ми досягти 100% виявлення назавжди’ — це неможливо — а в тому, ‘чи можемо ми залишатися попереду поточного покоління достатньо довго, щоб бути корисними на практиці.’
Три тенденції генерації ускладнюють виявлення. Розмір: більші моделі виробляють статистично більш різноманітний текст, оскільки мають багатші внутрішні розподіли. Модель з 70 мільярдами параметрів має ширший діапазон людиноподібного виходу, ніж модель з 7 мільярдами параметрів. Інструктивне налаштування: RLHF та конституційні методи навчають моделі уникати повторюваних, застережливих, нудних патернів, які робили GPT-3 легко помітним. Температура та семплювання: чат-інтерфейси перейшли до ядерного семплювання та випадковості, що руйнує деякі з низько-варіативних патернів, які класичні детектори використовували як якорі.
GPT-5, Claude 4.5 та Gemini 2.5 помітно важчі для виявлення, ніж їхні попередники. Наша внутрішня валідація підтверджує це: кожне покоління моделей знижує наш AUC для цієї сім'ї на 5–10 відсоткових пунктів порівняно з попереднім поколінням. Дивіться наш бенчмарк точності для чисел по кожній моделі.
Інструменти олюднення — Undetectable AI, StealthWriter, Humanbeing та зростаючий список — є явними супротивниками. Вони беруть вихід ШІ і перефразовують, переписують або переносять стиль, спеціально щоб обдурити детектори. Вони навчаються проти публічних детекторів (включаючи наш, хоча ми ніколи не ділимося вагами нашої моделі) і помітно покращуються з кожним оновленням.
Детектори мають три відповіді на гонку озброєнь генерації. Ансамблювання: поєднання кількох сигналів виявлення, щоб жодна одинична тактика ухилення була недостатньою. Наш ансамбль нульової підказки Binoculars з наглядовим ModernBERT використовує це: інструмент олюднення, який перемагає один компонент, часто зазнає поразки від іншого, і ансамблевий бал захоплює обидва.
Безперервне перенавчання: ми додаємо зразки від кожного великого нового випуску генератора протягом 4 тижнів після запуску. Якщо завтра вийде GPT-6, наш навчальний корпус включатиме його до середини наступного місяця. Це дорого — обчислення, анотація, повторна валідація — але це єдиний спосіб підтримувати виявлення актуальним. Детектори, що перенавчаються щорічно або рідше, фактично є музейними експонатами протягом року.
Ворожа підготовка: ми навмисно навчаємося на олюднених зразках ШІ та перефразованих виходах, навчаючи модель бачити крізь поверхневий перенос стилю. Це підвищує мінімум того, що інструмент олюднення повинен зробити, щоб уникнути нас, що, своєю чергою, уповільнює гонку озброєнь.
Як насправді працюють інструменти олюднення? Три широкі категорії. Перефразування: переписати текст слово за словом або речення за реченням за допомогою вторинного LLM. Ефективно проти наївних детекторів, що покладаються на точні послідовності токенів; помірно ефективно проти статистичних методів. Перенос стилю: перетворити текст, щоб імітувати конкретного автора або регістр. Більш ефективно — AUC нашого детектора падає приблизно на 8 пунктів на тексті зі зміненим стилем.
Гібридне редагування людиною та ШІ: автор пише чернетку, запускає її через LLM для шліфування, потім вручну редагує відполіровану версію. Це найважчий випадок — справді спільна робота, яка поєднує людські та машинні сигнали на рівні речень. Жоден детектор, включаючи наш, не може надійно розв'язати це без метаданих історії редагування, які детектор не може бачити.
Корисна ментальна модель: інструмент олюднення — це не зломщик детектора, це множник витрат для того, хто ухиляється. Він потребує часу, іноді грошей і завжди додає ризик введення помилок. Більшість спроб академічного обману не використовують інструменти олюднення, оскільки тертя переважує вигоду. Там, де домінують інструменти олюднення — це контентні ферми та SEO-спам, згенерований ШІ — випадки використання, де пропускна здатність важлива, а контроль якості слабкий.
Вставте будь-який документ і спостерігайте за вердиктом по кожному реченню в режимі реального часу. Ансамблева логіка, описана вище, виконується на вашому тексті менш ніж за 30 секунд.
Детектор з одним сигналом має один режим відмови. Якщо ви покладаєтеся лише на розгубленість, перефразований вихід зі зміненими ймовірностями токенів перемагає вас. Якщо ви покладаєтеся лише на наглядовий класифікатор, позарозподільний текст (нова сім'я моделей, новий домен письма) перемагає вас. Ансамбль усереднює слабкості: перефразування, що перемагає розгубленість, імовірно, все одно спрацьовує в наглядовій голові, і навпаки.
Наш виробничий детектор явно ансамблює: 35% Binoculars (нульова підказка, незалежний від моделі, стійкий до позарозподільного) + 65% ModernBERT (наглядовий, доменно-специфічний, висока точність на внутрішньорозподільному тексті). Ваги були обрані емпірично — ансамблевий AUC був максимізований, коли ModernBERT домінував, але Binoculars зберігав право вето на граничні випадки.
Наслідок: інструменту олюднення тепер доводиться одночасно перемагати дві суттєво різні архітектури виявлення, щоб уникнути нашого вердикту. Публічні інструменти олюднення зазвичай навчаються проти одного цільового детектора, що означає, що вони часто досягають успіху проти того конкретного детектора, але зазнають поразки проти ансамблю. Це головна структурна перевага виявлення у поточній гонці озброєнь.
Чого слід очікувати у 2026–2027 роках? GPT-6 та Claude 5, ймовірно, вийдуть у середині року; обидва ще більше звузять розрив. Моделі з відкритими вагами — Llama 4, Qwen 4 — продовжать комодитизувати високоякісну генерацію та зробить інструменти олюднення дешевшими для масштабного запуску. AUC виявлення для фронтирних моделей, ймовірно, впаде в діапазон 0,80–0,90 протягом першого року після випуску, перш ніж перенавчання виправить це.
На стороні захисту: мультимодальні сигнали (динаміка набору тексту, історія редагування, верифікація авторства за відомим корпусом) ймовірно матимуть більше значення, ніж чисте текстове виявлення протягом 24 місяців. Наш детектор лише тексту залишиться першим фільтром, але дедалі більше ставатиме голосуючим учасником у більш насиченому стеку доказів.
Чесний підсумок: чисте текстове виявлення ніколи не досягне 100%. Воно досягне плато десь близько 90–95% AUC на внутрішньорозподільному тексті та 75–85% на фронтирних моделях. Якщо ваш робочий процес вимагає впевненості, вам потрібні докази, що виходять за межі балу. Якщо ваш робочий процес вимагає сильного сигналу для пріоритизації людського перегляду, текстове виявлення залишається корисним і вимірно кращим, ніж нічого не робити.
Ця стаття описує структурні властивості виявлення тексту ШІ. Конкретні числа відносяться до нашої внутрішньої валідації і можуть не узагальнюватися. Ми оновлюємо цю сторінку, коли нові дослідження та випуски генераторів це вимагають.