Шесть лет назад генеративный текст был новинкой. Сегодня он пишет студенческие эссе, новостные статьи, маркетинговые тексты и посты в социальных сетях с качеством, неотличимым от человеческого. Это краткая история того, как мы сюда попали, — и почему обнаружение переросло из академического исследования в повседневную практику.
До GPT-3 генеративный текст был преимущественно исследовательским курьёзом. Цепи Маркова, рекуррентные нейронные сети и первые модели на основе трансформеров могли порождать связные предложения, но разваливались на уровне абзаца. Короткий образец мог обмануть невнимательного читателя; полный документ — никогда.
Исследования обнаружения ИИ существовали, но были нишевыми. Такие статьи, как Grover Зеллерса и соавторов (2019), создавали детекторы для фейковых новостей эпохи GPT-2, однако практический спрос был низким — объём машинно сгенерированного текста в обращении был минимальным. Обнаружение было решением в поисках проблемы.
Три вещи одновременно изменились в 2020–2021 годах: масштаб модели преодолел порог миллиарда параметров (GPT-3 при 175 млрд), обучающие данные преодолели порог триллиона токенов, и OpenAI открыл доступ к API с простым, читаемым человеком интерфейсом промптов. Генерация текста переместилась из исследовательских лабораторий к любому, у кого есть кредитная карта.
ChatGPT запустился в ноябре 2022 года на основе GPT-3.5 и набрал 100 миллионов пользователей в течение двух месяцев — самое быстрое принятие потребительского продукта в истории. В течение шести месяцев студенческие работы, маркетинговые тексты и скрипты обслуживания клиентов заметно сместились в сторону контента, сгенерированного LLM.
Педагоги заметили первыми. К весне 2023 года каждый крупный университет провёл экстренное совещание по политике ИИ, и многие ввели временные форматы оценивания без ИИ (аудиторные экзамены, устные защиты). Рынок инструментов обнаружения взорвался — Originality.ai, GPTZero, Copyleaks AI и ещё дюжина других появились в течение 12 месяцев после выпуска ChatGPT.
Паттерн повторился в издательстве. Сгенерированные ИИ статьи наводнили контент-фермы и были обнаружены алгоритмами ранжирования; Google выпустил обновление полезного контента специально для снижения приоритета низкокачественных выходных данных ИИ; новостные издатели ввели политики раскрытия авторства; академические журналы потребовали раскрытия использования ИИ в заявлениях авторов.
Первые инструменты обнаружения ИИ достигали умеренной точности на выходных данных GPT-3.5. Вендоры публиковали значения AUC в диапазоне 0,85–0,95 на стандартных бенчмарках. В течение шести месяцев инструменты «очеловечивания» появились явно нацеленными на эти детекторы — Undetectable AI (октябрь 2023), StealthWriter, Humanbeing — предлагая услуги перефразирования по цене за 1 000 слов.
Вендоры обнаружения ответили дообучением на очеловеченных образцах. Вендоры инструментов «очеловечивания» ответили обучением против новых детекторов. Цикл гонки вооружений ужался с месяцев до недель. К середине 2024 года ни один публично развёрнутый детектор не мог честно заявлять о стабильной точности без непрерывного дообучения на выходах инструментов «очеловечивания».
Между тем изощрённость генераторов ускорялась. GPT-4 (март 2023), Claude 3 (март 2024), Gemini 1.5 (февраль 2024), Llama 2/3 (июль 2023 / апрель 2024), выпуски Mistral — каждое поколение было заметно сложнее обнаружить, чем предыдущее. Обнаружение стало проблемой движущегося базового уровня.
По состоянию на апрель 2026 года ландшафт обнаружения достиг примерного устойчивого состояния. Производственные детекторы — включая наш — достигают AUC в диапазоне 0,95–0,99 на академических текстах из обучающего распределения, снижаясь до 0,85–0,92 на фронтирных моделях (GPT-5, Claude 4.5, Gemini 2.5) до тех пор, пока дообучение не наверстает упущенное. Текущие данные по каждому генератору смотрите в нашем бенчмарке точности.
Инструменты, пережившие встряску 2023–2024 годов, — те, что с самого начала рассматривали обнаружение как проблему непрерывного дообучения. Вендоры, выпустившие одноразовую модель и объявившие её готовой, тихо угасли. Рынок консолидировался вокруг небольшого числа провайдеров с постоянными исследовательскими инвестициями — нас, небольшого числа специализированных вендоров и функций обнаружения, встроенных в крупные платформы обнаружения плагиата.
Пользовательский ландшафт также стабилизировался. Педагоги опубликовали политики; издатели ввели требования раскрытия; поисковые системы снижают приоритет некачественного ИИ; социальные платформы маркируют контент, сгенерированный ИИ. Обнаружение теперь является рутинным, а не исключительным — встроенным в рабочие процессы, а не применяемым разово.
Попробуйте наш инструмент ИИ и детектор плагиата на любом тексте. Реальные цифры, реальный вердикт по каждому предложению, без регистрации.
Две тенденции доминируют в прогнозе на 2026–2027 годы. Мультимодальные доказательства: текстовое обнаружение будет дополнено анализом динамики набора текста, верификацией истории редактирования и проверками согласованности авторства по известному письменному корпусу. Чистая текстовая оценка становится голосующим участником в более богатом решении.
Водяная разметка при генерации: OpenAI развернул экспериментальную текстовую водяную разметку в некоторых интерфейсах GPT. Если водяная разметка станет стандартом у крупных провайдеров, обнаружение сместится от вероятностного вывода к криптографической верификации. Это фундаментальное архитектурное изменение и снизит ценность статистического обнаружения для моделей с водяной разметкой — при этом оставив модели с открытыми весами полностью в статистической области.
Ни одно из этих изменений не устраняет необходимости в текстовом статистическом обнаружении. Модели с открытыми весами будут продолжать генерировать текст без водяных знаков. Мультимодальные доказательства требуют данных, которые многие рабочие процессы не захватывают. Статистическое текстовое обнаружение останется первой линией обороны в обозримом будущем — наше обязательство — поддерживать эту линию честной и актуальной.
Эта статья представляет собой исторический обзор, призванный разместить текущую практику обнаружения ИИ в контексте. Конкретные даты и ссылки на продукты отражают состояние области по состоянию на апрель 2026 года. За авторитетными данными о сроках обращайтесь к вендорам соответствующих инструментов и генераторов.