Обнаружение и генерация заперты в гонке кошки и мышки. Каждый новый выпуск модели сужает статистический разрыв, на который опираются детекторы, — а каждое улучшение обнаружения получает ответ в виде нового инструмента «очеловечивания». Вот что на самом деле происходит под капотом.
Каждый детектор текста ИИ в конечном счёте является статистическим дискриминатором — он анализирует признаки текста (вероятности токенов, перплексию, «порывистость», синтаксическую регулярность) и пытается найти сигналы, различающие машинно сгенерированный и написанный человеком контент. Метод Binoculars (ICML 2024) использует соотношение перекрёстных перплексий двух языковых моделей в качестве сигнала. Обучаемый подход ModernBERT изучает сигнал непосредственно на маркированных примерах.
Оба подхода разделяют фундаментальную уязвимость: сигналы, на которые они опираются, — это побочные эффекты способа генерации текста моделями, а не фундаментальные признаки машинного происхождения. По мере совершенствования генераторов эти побочные эффекты уменьшаются. Модель, обученная писать более по-человечески, по определению станет сложнее обнаруживать.
Это не провал исследований. Это структурный факт о задаче. Обнаружение работает с движущейся целью: каждый крупный выпуск LLM сужает разрыв, каждый инструмент «очеловечивания» явно обучается против выходных данных детекторов. Вопрос не в том, «можем ли мы достичь 100% обнаружения навсегда» — это невозможно, — а в том, «можем ли мы оставаться впереди текущего поколения достаточно долго, чтобы быть практически полезными».
Три тенденции генерации усложняют обнаружение. Размер: более крупные модели порождают статистически более разнообразный текст, поскольку обладают более богатыми внутренними распределениями. Модель с 70 миллиардами параметров имеет более широкий диапазон человекоподобных выходных данных, чем модель с 7 миллиардами. Инструктивное дообучение: RLHF и конституциональные методы обучают модели избегать повторяющихся, уклончивых, пресных паттернов, которые делали GPT-3 лёгким для обнаружения. Температура и семплирование: чат-интерфейсы сместились в сторону ядерного семплирования и случайности, что разрушает некоторые низкодисперсионные паттерны, которые классические детекторы использовали в качестве якорей.
GPT-5, Claude 4.5 и Gemini 2.5 заметно сложнее обнаружить, чем их предшественники. Наша внутренняя проверка подтверждает это: каждое поколение модели снижает наш AUC по данному семейству на 5–10 процентных пунктов по сравнению с предыдущим поколением. Данные по каждой модели смотрите в нашем бенчмарке точности.
Инструменты «очеловечивания» — Undetectable AI, StealthWriter, Humanbeing и растущий список других — являются явными противниками. Они берут вывод ИИ и перефразируют, переписывают или выполняют стилевой перенос специально для того, чтобы обмануть детекторы. Они обучаются против публичных детекторов (включая наш, хотя мы никогда не делимся весами модели) и становятся заметно лучше с каждым обновлением.
Детекторы имеют три ответа на гонку вооружений генерации. Ансамблирование: объединение нескольких сигналов обнаружения таким образом, чтобы никакой одной тактики уклонения не было достаточно. Наш ансамбль нулевого выборочного Binoculars с обучаемым ModernBERT использует это: инструмент «очеловечивания», обходящий один компонент, нередко не справляется с другим, а оценка ансамбля учитывает оба.
Непрерывное дообучение: мы добавляем образцы из каждого крупного нового выпуска генератора в течение 4 недель после запуска. Если GPT-6 выйдет завтра, наш обучающий корпус включит его к середине следующего месяца. Это затратно — вычисления, разметка, повторная проверка, — но это единственный способ сохранить актуальность обнаружения. Детекторы, дообучающиеся ежегодно или реже, фактически устаревают в течение года.
Состязательное обучение: мы намеренно обучаемся на очеловеченных образцах ИИ и перефразированных выходных данных, обучая модель видеть сквозь поверхностный стилевой перенос. Это повышает минимальный порог того, что инструмент «очеловечивания» должен сделать, чтобы обойти нас, что, в свою очередь, замедляет гонку вооружений.
Как на самом деле работают инструменты «очеловечивания»? Три широкие категории. Перефразирование: переписать текст слово за словом или предложение за предложением с помощью вторичной LLM. Эффективно против наивных детекторов, опирающихся на точные последовательности токенов; умеренно эффективно против статистических методов. Стилевой перенос: преобразовать текст так, чтобы он подражал конкретному автору или регистру. Более эффективно — AUC нашего детектора падает примерно на 8 пунктов на текстах с применённым стилевым переносом.
Гибридное редактирование человеком и ИИ: автор пишет черновик, прогоняет его через LLM для полировки, затем вручную редактирует отполированную версию. Это самый сложный случай — законная совместная работа, смешивающая человеческие и машинные сигналы на уровне предложения. Ни один детектор, включая наш, не может надёжно разрешить эти случаи без метаданных истории редактирования, которые детектор не может видеть.
Полезная ментальная модель: инструмент «очеловечивания» — это не взломщик детектора, а множитель затрат для уклонившегося. Он требует времени, иногда денег и всегда добавляет риск внесения ошибок. Большинство попыток академического мошенничества не используют инструменты «очеловечивания», поскольку трение перевешивает выгоду. Там, где инструменты «очеловечивания» доминируют, — это профессиональные контент-фермы и SEO-спам, сгенерированный ИИ: случаи использования, где важна пропускная способность, а контроль качества слаб.
Вставьте любой документ и наблюдайте за вердиктом по каждому предложению в реальном времени. Описанная выше ансамблевая логика работает с вашим текстом менее чем за 30 секунд.
Детектор с единственным сигналом имеет единственный режим сбоя. Если вы опираетесь только на перплексию, перефразированный вывод с изменёнными вероятностями токенов обходит вас. Если вы опираетесь только на обучаемый классификатор, текст вне обучающего распределения (новое семейство моделей, новая область письма) обходит вас. Ансамбль усредняет слабые стороны: перефразирование, обходящее перплексию, вероятно, всё равно активирует обучаемую голову, и наоборот.
Наш продакшн-детектор явно является ансамблевым: 35% Binoculars (нулевая выборка, не зависит от модели, устойчив к данным вне распределения) + 65% ModernBERT (обучаемый, доменно-специфичный, высокая точность на текстах из обучающего распределения). Веса выбраны эмпирически — AUC ансамбля максимизировался, когда ModernBERT доминировал, но Binoculars сохранял право вето на граничных случаях.
Следствие: инструмент «очеловечивания» теперь должен одновременно обойти две принципиально различные архитектуры обнаружения, чтобы уклониться от нашего вердикта. Публичные инструменты «очеловечивания» обычно обучаются против одного целевого детектора, а это означает, что они нередко успешно обходят именно этот детектор, но не справляются с ансамблем. Это главное структурное преимущество обнаружения в текущей гонке вооружений.
Чего следует ожидать в 2026–2027 годах? GPT-6 и Claude 5 — вероятно, выпуски середины года; оба ещё больше сузят разрыв. Модели с открытыми весами — Llama 4, Qwen 4 — продолжат коммодитизацию высококачественной генерации и удешевят запуск инструментов «очеловечивания» в масштабе. AUC обнаружения на фронтирных моделях, вероятно, упадёт в диапазон 0,80–0,90 в течение первого года после выпуска, прежде чем дообучение исправит это.
На стороне защиты: мультимодальные сигналы (динамика набора текста, история редактирования, верификация авторства по известному корпусу) в течение 24 месяцев, вероятно, будут иметь большее значение, чем чисто текстовое обнаружение. Наш детектор только на основе текста останется первым фильтром, но всё больше будет становиться голосующим участником в более богатом доказательном стеке.
Честный итог: чисто текстовое обнаружение никогда не достигнет 100%. Оно выйдет на плато где-то в районе 90–95% AUC на текстах из обучающего распределения и 75–85% на фронтирных моделях. Если ваш рабочий процесс требует определённости, вам нужны доказательства помимо оценки. Если ваш рабочий процесс требует сильного сигнала для приоритизации проверки человеком, текстовое обнаружение остаётся полезным и заметно лучше, чем ничего.
В этой статье описаны структурные свойства обнаружения текста ИИ. Конкретные цифры относятся к нашей внутренней проверке и могут не распространяться на другие случаи. Мы обновляем эту страницу по мере появления новых исследований и выпуска новых генераторов.