У дома › Колко точно е AI-откриването? Тест на 22 LLM модела | Детектор на плагиатство

Колко точно е AI-откриването? Нашият тест срещу 22 LLM модела

Публикуваме реалната точност на нашия AI-детектор срещу 22 генеративни модела, включително GPT-5, Claude 4, Gemini 2 и Llama 3. Таблици по модели, честни ограничения и набор от данни за изтегляне за изследователи.

2026-04-17 · Plagiarism Detector Team

Защо публикуваме нашите числа за точност

Повечето AI-инструменти за разпознаване изискват да се доверите на един непрозрачен резултат. Ние смятаме, че заслужавате доказателства. На тази страница споделяме пълните резултати от вътрешното ни валидиране — всеки генератор, който сме тествали, AUC-ROC резултатите за него, видовете есета, с които имахме най-много затруднения, и праговете за вземане на решения, които използваме в продукция.

Това ниво на прозрачност е необичайно в пространството за AI-разпознаване. Повечето конкуренти — доставчици на инструменти за проверка на плагиатство, специализирани услуги за AI-разпознаване, общи SaaS инструменти — публикуват или никакви данни за точност, или единично „черешово" число. Тази практика не е устойчива: педагозите, издателите и изследователите се нуждаят от възпроизводими тестове, преди да могат да разчитат на какъвто и да е инструмент.

Нашите числа произхождат от валидационен дял от 1000 образци от калибровъчния корпус, използван за обучение на нашия детектор ModernBERT. Същата методология, която захранва този тест, се изпълнява за всеки документ, подаден чрез нашия инструмент. Нищо не е скрито за демонстрации.

Тестовият корпус и методологията

Валидационната съвкупност съдържа 1000 есета, извлечени от калибровъчен корпус от 1200 образци: 600 есета, написани от хора (от данните на съвместната задача PAN25 и набора от данни с аргументативни есета PERSUADE), и 600 есета, генерирани от AI (произведени от 22 различни широки езикови модела при контролирани условия). Разделението на обучение и валидация 80/20 е фиксирано и повторяемо.

Всеки образец се оценява изолирано, без достъп до метаданни, които биха могли да разкрият истинния отговор. Детекторът връща вероятност в диапазона [0, 100], представляваща вероятността образецът да е генериран от AI. След това изчисляваме площта под кривата ROC (AUC-ROC) по генератор и по ниво на вида есе.

Всички прагове, хиперпараметри за обучение и необработени вероятностни изходи се регистрират. Самият набор от данни е достъпен за изтегляне в края на тази страница — формат CSV, един ред на образец, с идентичност на генератора, етикет за вид есе, необработен резултат и окончателното двоично решение.

Основни резултати

В пълната съвкупност от 1000 образца нашият ансамблен детектор постига AUC-ROC [AUC: 0.9884]. При прага за вземане на решения от 50%, използван в продукция: 0 фалшиво положителни резултата при есетата, написани от хора, в набора за валидация, и 60% обхват при есетата, генерирани от AI. При F1-оптималния праг от 26,56% обхватът нараства до 90% за сметка на 2% фалшиво положителни — компромис, по-подходящ за работни потоци с висока чувствителност.

Решението на ниво документ в нашия публичен инструмент използва консервативния праг от 50%, като приоритизира нула фалшиво положителни резултати пред максимален обхват. Учители, издатели и изследователи могат да отменят това чрез плъзгача за чувствителност в уиджета, когато искат по-агресивно маркиране.

За сравнение, компонентът Binoculars с нулев изстрел (конфигурация 2× Llama-3.1-8B) самостоятелно постига AUC [AUC: 0.8509]. Компонентът ModernBERT с финно настройване самостоятелно постига [AUC: 1.0000] при текстове от разпределението и [AUC: 0.9069] при текстове извън разпределението. Ансамблът се нарежда между тях по всяка единична ос, но превъзхожда и двата средно, защото коригира техните взаимно допълващи се слабости.

Разбивка по генератор

Ето таблицата с AUC-ROC по модели. Моделите са наредени от най-лесни до най-трудни за разпознаване в нашата валидационна съвкупност. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Модели OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Други: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Основната закономерност: по-нови, по-големи модели с инструкционно настройване са склонни да произвеждат текст, изглеждащ по-човешки за всеки статистически детектор, включително нашия. Claude 4.5 Sonnet и GPT-5.x са двете семейства, при които нашите разпределения на резултатите се припокриват най-много с базовата линия за хора. Това съответства на всяко независимо проучване, публикувано през 2025 г. — надпреварата съществува и размерът на модела е пряка пречка за разпознаването.

Където детекторът се затруднява

Не всеки текст е еднакво разпознаваем. Разбиваме резултатите по вид есе — всяка категория на подканата PERSUADE — и разликата между най-добрите и най-лошите е голяма. [PER-TYPE TABLE]

Аргументативни, убедителни и изложителни есета: най-силната област на детектора. AUC обикновено 0,97–1,00, защото корпусите за обучение надвишават теглото на тези стилове. Тук попадат повечето случаи на академична почтеност.

Творческо писане и литературен анализ: нашата най-слаба област. При literary_analysis AUC пада до 0,69 — човешкият стил в художествената литература се слива с изходите на LLM и нито нашият надзиран, нито нашият нулев компонент могат надеждно да ги различи. Третирайте висок AI резултат при художествена литература с скептицизъм.

Изпробвайте детектора върху собствения си текст

Поставете произволен документ и вижте същото решение по изречение и праговете за вземане на решения, използвани за тези тестови числа. Безплатно, без регистрация.

Ограничения и режими на грешка

Три класа текстове избягват нашия детектор по-често, отколкото подсказва нашата валидационна съвкупност. Хуманизиран AI текст — изход, преминал през инструмент за противниково перефразиране или прехвърляне на стил — често получава резултат „написано от човек", дори когато основният текст е бил напълно генериран. Кратък текст (под 100 думи) е трудно изобщо да се класифицира, защото няма достатъчно статистически сигнал. Писане на английски от чужденци може да получи AI резултат, тъй като LLM моделите и изучаващите английски като втори език споделят определени лексикални и синтактични предпочитания.

Нашият детектор е вероятностен, а не доказателствен. Висок AI резултат е сигнал за по-нататъшно разследване, а не доказателство за нарушение. Силно препоръчваме да съчетавате резултата с контекст: скорошна история на редактиране, чернови версии, писмени образци от същия автор и — където е разрешено — кратък последващ разговор с автора.

Непрекъснато преобучаваме с последните изходи на генераторите, но винаги има закъснение: модел, пуснат миналата седмица, може да не е добре представен в данните за обучение. Ако работният ви поток зависи от улавяне на най-новите модели, проверявайте нашата страница с тестове на всяко тримесечие за актуализираните числа.

Изтеглете пълния набор от данни

Публикуваме необработените резултати от валидирането, за да могат изследователи, журналисти и педагози независимо да проверят нашите твърдения. CSV съдържа: идентификатор на образец, идентичност на генератора (или „human"), етикет за вид есе, необработен вероятностен изход, двоично решение при праг 50%, двоично решение при праг 26,56%.

Изтегляне: ai-detector-benchmark-2026-04.csv (актуализира се на всяко тримесечие). Академичната употреба е неограничена; търговското препубликуване изисква атрибуция: “Детектор на плагиатство — AI Detection Benchmark 2026-04”.

За интерактивна версия на същата методология върху собствения ви текст, опитайте нашия инструмент AI & Plagiarism Checker — поставете произволен документ и вижте решението по изречение, същите прагове за вземане на решения и същия доверителен интервал, използвани за тези публикувани числа.

Често задавани въпроси

Колко често се актуализира тестът?

Всяко тримесечие. Когато бъде пуснат голям генератор (GPT-6, Claude 5, Gemini 3), го добавяме към тестовия корпус в рамките на 4 седмици и препубликуваме актуализираната таблица. Историческите версии се архивират с датирани имена на файлове — изданието от 2026-04 е текущото стабилно издание.

Защо не публикувате вероятностни изходи по образец?

Правим го — изтегляемият CSV съдържа необработени вероятности. Това, което не публикуваме, е оригиналният текст на есетата, тъй като корпусът PAN25 и наборът от данни PERSUADE носят ограничения за преразпространение. Ако искате текста, изтеглете тези набори от данни директно от техния източник (връзките са в документацията за CSV).

Мога ли да се доверя на детектор, ако AUC е под 1,0?

Нито един детектор не постига AUC 1,0 при всеки генератор, затова въпросът не е ‘перфектен ли е’, а ‘прозрачен ли е’. Детектор, който публикува AUC 0,95 и ви казва къде се затруднява, е по-надежден от такъв, който публикува ‘водеща в индустрията точност’ без никакво число. Нашият AUC [AUC: 0.9884] е честна средна производителност; разбивките по генератор и по вид есе са там, където трябва да вземете решение за покупка.

Готов ли е вашият AI детектор за академично публикуване?

Основната методология е — Binoculars (ICML 2024) и ModernBERT са и двете архитектури с рецензиране от колеги. Нашият конкретен корпус за финно настройване и праговете са собственост, но методологията на теста е напълно възпроизводима.

Как се сравнява безплатният онлайн инструмент с настолния продукт?

Същата машина, същите числа за точност, същата логика за решение по изречение. Настолният продукт добавя неограничена дължина на документа, офлайн сканиране, интегрирано сравнение с плагиатство спрямо 4 милиарда уеб страници и пакетна обработка на цели папки. За еднократни проверки онлайн инструментът е достатъчен; за ежедневни работни потоци настолният е правилният инструмент.

Резултатите от теста произхождат от нашата вътрешна валидационна съвкупност и може да не се обобщят за текстове извън разпределението. Публикуваните числа представляват средна производителност върху 1000 образца; вашият документ може да получи различен резултат. Използвайте резултатите от AI-разпознаването като един от многото входни данни, а не като единствено доказателство за авторство.