Главная › Насколько точно обнаружение ИИ? Бенчмарк по 22 языковым моделям | Детектор плагиата

Насколько точно обнаружение ИИ? Наш бенчмарк по 22 языковым моделям

Мы публикуем реальные показатели точности нашего детектора ИИ для 22 генеративных моделей, включая GPT-5, Claude 4, Gemini 2 и Llama 3. Таблицы по каждой модели, честное описание ограничений и набор данных для загрузки исследователями.

2026-04-17 · Plagiarism Detector Team

Почему мы публикуем наши показатели точности

Большинство инструментов обнаружения ИИ предлагают довериться единственной непрозрачной оценке. Мы считаем, что вы заслуживаете доказательств. На этой странице мы публикуем полные результаты нашей внутренней проверки — каждый протестированный генератор, значение AUC-ROC для него, типы текстов, с которыми возникло больше всего затруднений, и пороговые значения принятия решений, используемые в продакшне.

Такой уровень прозрачности нетипичен для сферы обнаружения ИИ. Большинство конкурентов — сервисы проверки плагиата, специализированные инструменты обнаружения ИИ, универсальные SaaS-решения — не публикуют никаких данных о точности либо приводят одну тщательно отобранную цифру. Эта практика неустойчива: преподаватели, издатели и исследователи нуждаются в воспроизводимых бенчмарках, прежде чем смогут доверять какому-либо инструменту.

Наши данные получены из 1 000 образцов валидационной выборки калибровочного корпуса, использованного для обучения нашего детектора на основе ModernBERT. Та же методология, которая лежит в основе этого бенчмарка, применяется к каждому документу, отправляемому через наш инструмент. Ничего не скрывается ради демонстраций.

Тестовый корпус и методология

Валидационная выборка содержит 1 000 эссе, отобранных из калибровочного корпуса объёмом 1 200 образцов: 600 написанных человеком (из данных совместной задачи PAN25 и датасета аргументативных эссе PERSUADE) и 600 сгенерированных ИИ (созданных 22 различными большими языковыми моделями в контролируемых условиях промптинга). Разбивка 80/20 на обучающую и валидационную выборки фиксирована и воспроизводима.

Каждый образец оценивается изолированно, без доступа к метаданным, которые могли бы раскрыть истинную метку. Детектор возвращает вероятность в диапазоне [0, 100], отражающую вероятность того, что образец сгенерирован ИИ. Затем мы вычисляем площадь под кривой ROC (AUC-ROC) для каждого генератора и на уровне типа эссе.

Все пороговые значения, гиперпараметры обучения и сырые вероятностные выходы журналируются. Сам датасет доступен для загрузки внизу этой страницы — формат CSV, одна строка на образец, с идентификатором генератора, меткой типа эссе, сырой оценкой и окончательным бинарным вердиктом.

Главные результаты

На всей выборке из 1 000 образцов наш ансамблевый детектор достигает AUC-ROC [AUC: 0,9884]. При пороге принятия решений 50%, используемом в продакшне: 0 ложных срабатываний на написанных людьми эссе в валидационной выборке и 60% полноты на эссе, сгенерированных ИИ. При оптимальном по F1-мере пороге 26,56% полнота возрастает до 90% ценой 2% ложных срабатываний — компромисс, лучше подходящий для рабочих процессов с высокой чувствительностью скрининга.

Вердикт на уровне документа в нашем публичном инструменте использует консервативный порог 50%, отдавая приоритет нулю ложных срабатываний над максимальной полнотой. Учителя, издатели и исследователи могут изменить это с помощью ползунка чувствительности в виджете, если им нужна более агрессивная маркировка.

Для сравнения: компонент нулевой выборки Binoculars отдельно (конфигурация 2× Llama-3.1-8B) набирает AUC [AUC: 0,8509] самостоятельно. Дообученный компонент ModernBERT отдельно набирает [AUC: 1,0000] на текстах из обучающего распределения и [AUC: 0,9069] на текстах вне его. Ансамбль находится между ними по любой отдельной оси, но превосходит оба в среднем, поскольку компенсирует их взаимодополняющие слабые стороны.

Разбивка по генераторам

Ниже приведена таблица AUC-ROC по каждой модели. Модели упорядочены от наиболее лёгких до наиболее сложных для обнаружения на нашей валидационной выборке. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Модели OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Другие: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Главная закономерность: новые, более крупные, инструктивно дообученные модели, как правило, порождают текст, который выглядит более человеческим для любого статистического детектора, включая наш. Claude 4.5 Sonnet и GPT-5.x — два семейства, где наши распределения оценок наиболее перекрываются с человеческим базовым уровнем. Это согласуется со всеми независимыми исследованиями, опубликованными в 2025 году: гонка вооружений реальна, и размер модели — прямой встречный ветер для обнаружения.

Где детектор испытывает затруднения

Не весь текст поддаётся обнаружению в одинаковой мере. Мы разбиваем результаты по типам эссе — каждой категории промптов PERSUADE — и разрыв между лучшими и худшими показателями значителен. [PER-TYPE TABLE]

Аргументативные, убедительные и разъяснительные эссе: наиболее сильная область детектора. AUC обычно составляет 0,97–1,00, поскольку обучающие корпусы перевешивают эти стили. Именно сюда относится большинство случаев обеспечения академической честности.

Художественное письмо и литературный анализ: наша наиболее слабая область. Для literary_analysis значение AUC падает до 0,69 — человеческий стиль в художественной прозе сближается с текстами LLM, и ни наш обучаемый, ни компонент нулевой выборки не могут надёжно их различить. Относитесь к высокой оценке ИИ в художественных текстах с осторожностью.

Проверьте детектор на своём тексте

Вставьте любой документ и просмотрите те же вердикты по предложениям и пороги принятия решений, которые мы используем для этих бенчмарковых данных. Бесплатно, без регистрации.

Ограничения и режимы сбоев

Три класса текстов ускользают от нашего детектора чаще, чем предполагает наша валидационная выборка. Очеловеченный текст ИИ — вывод, пропущенный через инструмент состязательного перефразирования или стилевого переноса — нередко оценивается как написанный человеком, даже если исходный текст был полностью сгенерирован. Короткие тексты (менее 100 слов) трудно классифицировать в принципе из-за недостаточного статистического сигнала. Тексты на английском, написанные неносителями языка, могут получать оценку ИИ, поскольку LLM и авторы-носители из ESL-среды разделяют определённые лексические и синтаксические предпочтения.

Наш детектор вероятностный, а не доказательный. Высокая оценка ИИ — это сигнал к дальнейшему расследованию, а не доказательство нарушения. Мы настоятельно рекомендуем сопровождать оценку контекстом: недавней историей редактирования, черновиками, образцами письма того же автора и — там, где это разрешено, — кратким последующим разговором с автором.

Мы непрерывно дообучаем модель на последних выходах генераторов, однако всегда существует задержка: модель, выпущенная на прошлой неделе, может быть недостаточно представлена в обучающих данных. Если ваш рабочий процесс требует выявления новейших моделей, ежеквартально проверяйте нашу страницу бенчмарков на предмет обновлённых показателей.

Загрузить полный датасет

Мы публикуем сырые результаты проверки, чтобы исследователи, журналисты и педагоги могли независимо верифицировать наши утверждения. CSV содержит: идентификатор образца, идентификатор генератора (или «human»), метку типа эссе, сырой вероятностный вывод, бинарный вердикт при пороге 50%, бинарный вердикт при пороге 26,56%.

Загрузить: ai-detector-benchmark-2026-04.csv (обновляется ежеквартально). Академическое использование не ограничено; коммерческое переопубликование требует указания авторства: «Детектор плагиата — Бенчмарк обнаружения ИИ 2026-04».

Чтобы в интерактивном режиме применить ту же методологию к своему тексту, воспользуйтесь нашим инструментом ИИ и детектор плагиата — вставьте любой документ и просмотрите вердикт по каждому предложению, те же пороги принятия решений и тот же доверительный интервал, который мы используем для этих опубликованных данных.

Часто задаваемые вопросы

Как часто обновляется этот бенчмарк?

Ежеквартально. При выпуске крупного генератора (GPT-6, Claude 5, Gemini 3) мы добавляем его в тестовый корпус в течение 4 недель и переопубликовываем обновлённую таблицу. Исторические версии архивируются с датированными именами файлов — издание 2026-04 является текущим стабильным выпуском.

Вы не публикуете вероятностные выходы для каждого образца?

Мы публикуем — загружаемый CSV содержит сырые вероятности. Что мы не публикуем — это исходный текст эссе, поскольку корпус PAN25 и датасет PERSUADE имеют ограничения на повторное распространение. Если вам нужен текст, скачайте эти датасеты непосредственно из источника (ссылки в документации CSV).

Можно ли доверять детектору, если AUC ниже 1,0?

Ни один детектор не достигает AUC 1,0 для каждого генератора, поэтому вопрос не в том, «совершенен ли он», а в том, «прозрачен ли он». Детектор, публикующий AUC 0,95 и сообщающий, где он испытывает затруднения, заслуживает большего доверия, чем тот, что публикует «отраслевую точность» без конкретной цифры. Наш AUC [AUC: 0,9884] — это честный средний показатель; разбивка по генераторам и типам эссе — именно то, на основе чего следует принимать решение о покупке.

Подходит ли ваш детектор ИИ для академических публикаций?

Лежащая в основе методология — да: Binoculars (ICML 2024) и ModernBERT — оба прошедшие рецензирование архитектуры. Наш конкретный корпус дообучения и пороговые значения являются собственностью компании, однако методология бенчмарка полностью воспроизводима.

Чем отличается бесплатный онлайн-инструмент от десктопного продукта?

Тот же движок, те же показатели точности, та же логика вердиктов по предложениям. Десктопный продукт добавляет неограниченную длину документа, офлайн-сканирование, интегрированное сопоставление плагиата с 4 миллиардами веб-страниц и пакетную обработку целых папок. Для разовых проверок онлайн-инструмент достаточен; для ежедневных рабочих процессов десктоп — правильный выбор.

Результаты бенчмарка получены из нашей внутренней валидационной выборки и могут не распространяться на тексты вне обучающего распределения. Опубликованные показатели отражают среднюю производительность на 1 000 образцах; ваш документ может получить иную оценку. Используйте результаты обнаружения ИИ как один из факторов, а не как единственное доказательство авторства.