Перейти наверх
Главная Почему обнаружение текста ИИ — сложная задача: гонка вооружений атаки и защиты | Детектор плагиата

Почему обнаружение текста ИИ — сложная задача: изнутри гонки вооружений

Обнаружение и генерация заперты в гонке кошки и мышки. Каждый новый выпуск модели сужает статистический разрыв, на который опираются детекторы, — а каждое улучшение обнаружения получает ответ в виде нового инструмента «очеловечивания». Вот что на самом деле происходит под капотом.

2026-04-17 · Plagiarism Detector Team

Статистическая основа обнаружения

Каждый детектор текста ИИ в конечном счёте является статистическим дискриминатором — он анализирует признаки текста (вероятности токенов, перплексию, «порывистость», синтаксическую регулярность) и пытается найти сигналы, различающие машинно сгенерированный и написанный человеком контент. Метод Binoculars (ICML 2024) использует соотношение перекрёстных перплексий двух языковых моделей в качестве сигнала. Обучаемый подход ModernBERT изучает сигнал непосредственно на маркированных примерах.

Оба подхода разделяют фундаментальную уязвимость: сигналы, на которые они опираются, — это побочные эффекты способа генерации текста моделями, а не фундаментальные признаки машинного происхождения. По мере совершенствования генераторов эти побочные эффекты уменьшаются. Модель, обученная писать более по-человечески, по определению станет сложнее обнаруживать.

Это не провал исследований. Это структурный факт о задаче. Обнаружение работает с движущейся целью: каждый крупный выпуск LLM сужает разрыв, каждый инструмент «очеловечивания» явно обучается против выходных данных детекторов. Вопрос не в том, «можем ли мы достичь 100% обнаружения навсегда» — это невозможно, — а в том, «можем ли мы оставаться впереди текущего поколения достаточно долго, чтобы быть практически полезными».

Что делает меч — генерация совершенствуется

Три тенденции генерации усложняют обнаружение. Размер: более крупные модели порождают статистически более разнообразный текст, поскольку обладают более богатыми внутренними распределениями. Модель с 70 миллиардами параметров имеет более широкий диапазон человекоподобных выходных данных, чем модель с 7 миллиардами. Инструктивное дообучение: RLHF и конституциональные методы обучают модели избегать повторяющихся, уклончивых, пресных паттернов, которые делали GPT-3 лёгким для обнаружения. Температура и семплирование: чат-интерфейсы сместились в сторону ядерного семплирования и случайности, что разрушает некоторые низкодисперсионные паттерны, которые классические детекторы использовали в качестве якорей.

GPT-5, Claude 4.5 и Gemini 2.5 заметно сложнее обнаружить, чем их предшественники. Наша внутренняя проверка подтверждает это: каждое поколение модели снижает наш AUC по данному семейству на 5–10 процентных пунктов по сравнению с предыдущим поколением. Данные по каждой модели смотрите в нашем бенчмарке точности.

Инструменты «очеловечивания» — Undetectable AI, StealthWriter, Humanbeing и растущий список других — являются явными противниками. Они берут вывод ИИ и перефразируют, переписывают или выполняют стилевой перенос специально для того, чтобы обмануть детекторы. Они обучаются против публичных детекторов (включая наш, хотя мы никогда не делимся весами модели) и становятся заметно лучше с каждым обновлением.

Что делает щит — обнаружение отвечает

Детекторы имеют три ответа на гонку вооружений генерации. Ансамблирование: объединение нескольких сигналов обнаружения таким образом, чтобы никакой одной тактики уклонения не было достаточно. Наш ансамбль нулевого выборочного Binoculars с обучаемым ModernBERT использует это: инструмент «очеловечивания», обходящий один компонент, нередко не справляется с другим, а оценка ансамбля учитывает оба.

Непрерывное дообучение: мы добавляем образцы из каждого крупного нового выпуска генератора в течение 4 недель после запуска. Если GPT-6 выйдет завтра, наш обучающий корпус включит его к середине следующего месяца. Это затратно — вычисления, разметка, повторная проверка, — но это единственный способ сохранить актуальность обнаружения. Детекторы, дообучающиеся ежегодно или реже, фактически устаревают в течение года.

Состязательное обучение: мы намеренно обучаемся на очеловеченных образцах ИИ и перефразированных выходных данных, обучая модель видеть сквозь поверхностный стилевой перенос. Это повышает минимальный порог того, что инструмент «очеловечивания» должен сделать, чтобы обойти нас, что, в свою очередь, замедляет гонку вооружений.

Внутри ландшафта уклонения

Как на самом деле работают инструменты «очеловечивания»? Три широкие категории. Перефразирование: переписать текст слово за словом или предложение за предложением с помощью вторичной LLM. Эффективно против наивных детекторов, опирающихся на точные последовательности токенов; умеренно эффективно против статистических методов. Стилевой перенос: преобразовать текст так, чтобы он подражал конкретному автору или регистру. Более эффективно — AUC нашего детектора падает примерно на 8 пунктов на текстах с применённым стилевым переносом.

Гибридное редактирование человеком и ИИ: автор пишет черновик, прогоняет его через LLM для полировки, затем вручную редактирует отполированную версию. Это самый сложный случай — законная совместная работа, смешивающая человеческие и машинные сигналы на уровне предложения. Ни один детектор, включая наш, не может надёжно разрешить эти случаи без метаданных истории редактирования, которые детектор не может видеть.

Полезная ментальная модель: инструмент «очеловечивания» — это не взломщик детектора, а множитель затрат для уклонившегося. Он требует времени, иногда денег и всегда добавляет риск внесения ошибок. Большинство попыток академического мошенничества не используют инструменты «очеловечивания», поскольку трение перевешивает выгоду. Там, где инструменты «очеловечивания» доминируют, — это профессиональные контент-фермы и SEO-спам, сгенерированный ИИ: случаи использования, где важна пропускная способность, а контроль качества слаб.

Посмотрите, как наш детектор оценит текст прямо сейчас

Вставьте любой документ и наблюдайте за вердиктом по каждому предложению в реальном времени. Описанная выше ансамблевая логика работает с вашим текстом менее чем за 30 секунд.

Почему ансамблирование важнее любой отдельной метрики

Детектор с единственным сигналом имеет единственный режим сбоя. Если вы опираетесь только на перплексию, перефразированный вывод с изменёнными вероятностями токенов обходит вас. Если вы опираетесь только на обучаемый классификатор, текст вне обучающего распределения (новое семейство моделей, новая область письма) обходит вас. Ансамбль усредняет слабые стороны: перефразирование, обходящее перплексию, вероятно, всё равно активирует обучаемую голову, и наоборот.

Наш продакшн-детектор явно является ансамблевым: 35% Binoculars (нулевая выборка, не зависит от модели, устойчив к данным вне распределения) + 65% ModernBERT (обучаемый, доменно-специфичный, высокая точность на текстах из обучающего распределения). Веса выбраны эмпирически — AUC ансамбля максимизировался, когда ModernBERT доминировал, но Binoculars сохранял право вето на граничных случаях.

Следствие: инструмент «очеловечивания» теперь должен одновременно обойти две принципиально различные архитектуры обнаружения, чтобы уклониться от нашего вердикта. Публичные инструменты «очеловечивания» обычно обучаются против одного целевого детектора, а это означает, что они нередко успешно обходят именно этот детектор, но не справляются с ансамблем. Это главное структурное преимущество обнаружения в текущей гонке вооружений.

Реалистичные ожидания на следующие 12 месяцев

Чего следует ожидать в 2026–2027 годах? GPT-6 и Claude 5 — вероятно, выпуски середины года; оба ещё больше сузят разрыв. Модели с открытыми весами — Llama 4, Qwen 4 — продолжат коммодитизацию высококачественной генерации и удешевят запуск инструментов «очеловечивания» в масштабе. AUC обнаружения на фронтирных моделях, вероятно, упадёт в диапазон 0,80–0,90 в течение первого года после выпуска, прежде чем дообучение исправит это.

На стороне защиты: мультимодальные сигналы (динамика набора текста, история редактирования, верификация авторства по известному корпусу) в течение 24 месяцев, вероятно, будут иметь большее значение, чем чисто текстовое обнаружение. Наш детектор только на основе текста останется первым фильтром, но всё больше будет становиться голосующим участником в более богатом доказательном стеке.

Честный итог: чисто текстовое обнаружение никогда не достигнет 100%. Оно выйдет на плато где-то в районе 90–95% AUC на текстах из обучающего распределения и 75–85% на фронтирных моделях. Если ваш рабочий процесс требует определённости, вам нужны доказательства помимо оценки. Если ваш рабочий процесс требует сильного сигнала для приоритизации проверки человеком, текстовое обнаружение остаётся полезным и заметно лучше, чем ничего.

Часто задаваемые вопросы

Если обнаружение ИИ никогда не будет совершенным, стоит ли его использовать вообще?
Да — вопрос не в том, «совершенно ли оно», а в том, «лучше ли оно, чем отсутствие скрининга вообще». Детектор с AUC 90% на вашей рабочей нагрузке — это огромное улучшение отношения сигнал-шум. Те, кто наиболее громко говорит об ограничениях детекторов, нередко пытаются их обойти; это не аргумент в пользу отказа от инструмента.
Может ли водяная разметка заменить статистическое обнаружение?
Водяная разметка встраивает скрытую статистическую подпись в сгенерированный текст, которую детектор может впоследствии извлечь. Это работает, когда генераторы сотрудничают (OpenAI развернул её экспериментально), но полностью не работает на моделях с открытыми весами, которые генерируют без водяных знаков. Статистическое обнаружение останется необходимым в обозримом будущем, поскольку работает даже тогда, когда генератор отказывается сотрудничать.
Что сегодня сложнее всего обнаружить?
Гибридное редактирование человеком и ИИ — фрагмент текста, написанный ИИ и отполированный человеком на уровне предложения. Ни один современный детектор не может надёжно разрешить эти случаи без доступа к метаданным истории редактирования. Если это ваш случай использования, текстовое обнаружение — не тот инструмент: вам нужна инструментализация рабочего процесса.
Как часто новый генератор действительно снижает ваш AUC?
Каждый крупный выпуск, примерно каждые 3–6 месяцев, снижает AUC по данному семейству на 5–10 процентных пунктов до тех пор, пока мы не дообучим модель. Дообучение занимает около 4 недель после того, как у нас будет достаточно образцов. Практический результат: всегда существует 2–8-недельное окно после нового выпуска, в течение которого наш AUC по данному семейству ниже среднего. Мы раскрываем эти разрывы на странице бенчмарков.
Помогает ли ансамблирование против инструментов «очеловечивания»?
Существенно — это основная структурная защита, которую мы имеем. Инструменты «очеловечивания» обучаются против целевого детектора. Когда этой целью является ансамбль двух архитектурно различных детекторов, инструмент «очеловечивания» должен одновременно обойти оба, что заметно сложнее, чем обойти каждый по отдельности. Вот почему мы используем ансамбль в продакшне, даже если один компонент было бы дешевле запускать.

В этой статье описаны структурные свойства обнаружения текста ИИ. Конкретные цифры относятся к нашей внутренней проверке и могут не распространяться на другие случаи. Мы обновляем эту страницу по мере появления новых исследований и выпуска новых генераторов.