Не весь текст ИИ поддаётся обнаружению в одинаковой мере. Вот результаты нашего бенчмарка по каждому генератору — какие семейства моделей наш детектор выявляет с почти идеальной точностью, с какими испытывает затруднения и что это говорит о выборе рабочего процесса обнаружения.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Упорядочено от наиболее лёгких до наиболее сложных для обнаружения на нашей валидационной выборке. Разброс значителен — AUC по некоторым семействам моделей превышает 0,99, тогда как по другим падает в диапазон 0,80. Сложность обнаружения коррелирует с размером модели, изощрённостью инструктивного дообучения и дисперсией выходных данных.
Для полной методологии разбивки по генераторам смотрите нашу страницу бенчмарка точности. В этой статье резюмируются практические следствия этих данных для пользователей, выбирающих детектор и модель для использования.
GPT-3.5 — наиболее лёгкая для обнаружения современная модель: AUC [AUC: ?] на нашей выборке. Артефакты устаревшей генерации (повторение, уклончивость, пресный регистр) по-прежнему чётко присутствуют. GPT-4 снижается до AUC [AUC: ?], GPT-4o — до [AUC: ?], отражая прогрессивно улучшенную калибровку. GPT-5.x — наиболее сложное семейство: AUC [AUC: ?] — поскольку команда по инструктивному дообучению явно нацелилась на устранение артефактов обнаружения.
Практическое следствие: академические рабочие процессы, озабоченные мошенничеством эпохи GPT-3.5, могут в значительной мере полагаться на обнаружение. Рабочие процессы, озабоченные GPT-5, должны сочетать обнаружение с контекстными доказательствами, как описано в нашем руководстве по рабочему процессу для учителей.
Настройки температуры имеют значение. Выходные данные при низкой температуре (t≤0,5) легче обнаружить, поскольку они концентрируют массу вероятности на более узком словаре. Большинство чат-интерфейсов по умолчанию используют t≈0,7, помещая текст в умеренно обнаруживаемую зону. Состязательные пользователи явно повышают температуру или используют разнообразное декодирование для расширения диапазона и уклонения от обнаружения — наш ансамбль частично корректирует это, но не полностью.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Семейство Claude последовательно порождает менее повторяющийся, более стилистически разнообразный текст, чем модели GPT одного поколения, что делает его сложнее обнаружить статистическими методами.
Конституциональное обучение ИИ Claude явно нацелено на «машинные признаки», которые усваивает наш обучаемый классификатор: паттерны уклончивости, чрезмерное использование специфических союзов, предсказуемая структура абзацев. Это прямое состязательное взаимодействие: генератор обучается против признаков, на которые опирается детектор.
Claude 4.5 Sonnet и GPT-5.x близки по сложности. Их распределения оценок наиболее перекрываются с человеческим базовым уровнем в наших валидационных данных. Если ваш рабочий процесс нацелен на любую из этих моделей, ожидайте снижения полноты при пороге по умолчанию и рассмотрите снижение до оптимального по F1-мере для скрининга с высокой чувствительностью.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini показал наиболее вариабельную производительность обнаружения между версиями — некоторые промежуточные выпуски временно регрессировали, прежде чем улучшения вступили в силу.
Мультимодальное обучение Gemini означает, что выходные данные только на основе текста иногда несут остаточные паттерны из доменов подписей к изображениям или объяснения кода. Наш детектор улавливает эти паттерны, что объясняет несколько более высокую обнаруживаемость Gemini на смешанных доменных промптах по сравнению с чистой прозой.
Для пользователей Google Workspace, чьи студенты или сотрудники используют Gemini через Docs, сигнал обнаружения аналогичен выходным данным необработанного API. Мы не наблюдали специфических для интеграции рабочего пространства паттернов уклонения, отличных от прямого использования API Gemini.
Вставьте вывод любой LLM и просмотрите вердикт по каждому предложению. Наш детектор рассматривает все 22 семейства моделей как единую ансамблевую проверку.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Модели с открытыми весами охватывают более широкий диапазон, чем закрытые: варианты дообучения, квантизованные развёртывания и контрольные точки, модифицированные сообществом, — все производят незначительно различающиеся выходные данные.
Обнаружение на моделях с открытыми весами стратегически важно, поскольку инструменты «очеловечивания» обычно строятся на моделях с открытыми весами — производные от Llama и Mistral запускаются локально при низкой стоимости, поэтому сервисы перефразирования и стилевого переноса выводят их по цене. Если ваша озабоченность — очеловеченный ИИ, вы в конечном счёте защищаетесь от генерации семейства Llama.
DeepSeek R1 и o3-mini (модель рассуждения OpenAI) заслуживают отдельного упоминания. Оба порождают текст с артефактами цепочки рассуждений — явной пошаговой логикой, видимой в выходных данных, — которую наш детектор научился распознавать. Модели рассуждения в настоящее время легче обнаружить, чем их базовые чат-аналоги по этой причине.
Если вы выбираете модель для написания текста и обнаружение не является вашей заботой, Claude 4.5 Sonnet и GPT-5 — наиболее сложные для обнаружения. Если вы строите рабочий процесс обнаружения, ориентируйтесь на модели, которые вы реально видите: большинство академического мошенничества по-прежнему работает на GPT-4/5 через бесплатные интерфейсы; большинство контент-ферминга — на очеловечивателях на основе Llama.
Единственный детектор, обученный на одном семействе моделей, будет работать хуже всего на остальных. Наш ансамблевый подход обучается на образцах всех 22 генераторов, поэтому AUC по каждой модели для сложных случаев (Claude 4.5, GPT-5) по-прежнему превышает 0,90, тогда как любой детектор, обученный на одной модели, упал бы ниже 0,80.
Основная тенденция: сложность обнаружения растёт быстрее, чем темп выпуска генераторов. Каждый новый флагман сложнее обнаружить, чем предыдущий; дообучение закрывает разрыв, но не полностью. Ожидайте, что базовый уровень 2026–2027 годов будет ниже AUC на фронтирных моделях и примерно постоянным на устаревших.
Показатели AUC по каждой модели получены из нашей внутренней проверки и могут не распространяться на другие случаи. Сложность обнаружения каждой модели меняется со временем по мере развития и генератора, и нашего обучающего корпуса. Текущие данные отражают бенчмарковый запуск 2026-04.