Објављујемо стварну тачност нашег AI детектора на 22 генеративна модела, укључујући GPT-5, Claude 4, Gemini 2 и Llama 3. Табеле по моделу, поштена ограничења и скуп података за преузимање за истраживаче.
Већина алата за детекцију AI тражи да верујете јединственом непрозирном резултату. Сматрамо да заслужујете доказе. На овој страници делимо комплетне резултате наше интерне провере валидације — сваки генератор који смо тестирали, AUC-ROC резултат за сваки, типове есеја са којима смо имали највише проблема, и прагове одлучивања које користимо у производњи.
Овај ниво транспарентности је необичан у простору AI детекције. Већина конкурената — продавци алата за проверу плагијаризма, специјализоване услуге AI детекције, генерички SaaS алати — објављује или никакве податке о тачности или јединствени пажљиво одабрани број. Тај образац је неодржив: просветни радници, издавачи и истраживачи требају поновљиве бенчмаркове пре него могу да се ослоне на било који алат.
Наше бројке потичу из скупа за валидацију од 1.000 узорака из калибрационог корпуса коришћеног за обучавање нашег ModernBERT детектора. Исти метод који управља овим бенчмарком ради на сваком документу који пошаљете кроз наш алат. Ништа није задржано за демонстрације.
Скуп за валидацију садржи 1.000 есеја извучених из калибрационог корпуса од 1.200 узорака: 600 есеја које су написали људи (из PAN25 података дељеног задатка и скупа података PERSUADE аргументативних есеја) и 600 AI-генерисаних есеја (произведених са 22 различита велика језичка модела под контролисаним упитима). Подела 80/20 за обучавање и валидацију је фиксна и поновљива.
Сваки узорак се оцењује изоловано, без приступа метаподацима који би могли открити стварну вредност. Детектор враћа вероватноћу у [0, 100] која представља вероватноћу да је узорак AI-генерисан. Затим рачунамо површину испод криве ROC (AUC-ROC) по генератору и на нивоу типа есеја.
Сви прагови, хиперпараметри обучавања и необрађени излазни подаци вероватноће су забележени. Скуп података је доступан за преузимање на дну ове странице — CSV формат, један ред по узорку, са идентитетом генератора, ознаком типа есеја, необрађеним резултатом и коначним бинарним пресудом.
Широм комплетног скупа од 1.000 узорака, наш ансамбл детектор постиже AUC-ROC [AUC: 0.9884]. На прагу одлучивања од 50% који користимо у производњи: 0 лажно позитивних на есејима писаним од стране људи у скупу за валидацију, и 60% поузданост откривања на AI есејима. На F1-оптималном прагу од 26,56%, поузданост откривања расте на 90% по цену 2% лажно позитивних — компромис боље прилагођен радним токовима са вишом осетљивошћу.
Пресуда на нивоу документа на нашем јавном алату користи конзервативни праг од 50%, дајући предност нула лажно позитивних над максималном поузданошћу откривања. Наставници, издавачи и истраживачи могу ово да отклоне преко клизача осетљивости у виџету када желе агресивније маркирање.
За поређење, сама Binoculars компонента нула-пуцања (2× Llama-3.1-8B конфигурација) самостално постиже AUC [AUC: 0.8509]. Сама финоподешена ModernBERT компонента постиже [AUC: 1.0000] на есејима у дистрибуцији и [AUC: 0.9069] на тексту ван дистрибуције. Ансамбл је између њих на свакој pojedinoj оси, али надмашује оба у просеку јер исправља њихове комплементарне слабости.
Ово је табела AUC-ROC по моделу. Модели су поређани од лакших до тежих за откривање у нашем скупу за валидацију. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI модели: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Остали: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Главни образац: новији, већи, моделi са инструктивним подешавањем имају тенденцију да производе текст који изгледа људскије за сваки статистички детектор, укључујући и наш. Claude 4.5 Sonnet и GPT-5.x су две породице где се наше дистрибуције резултата највише поклапају са људском полазном тачком. Ово одговара свакој независној студији објављеној 2025. — трка у наоружању је стварна, а величина модела је директан ветар у лице детекцији.
Није сав текст подједнако препознатљив. Разлажемо резултате по типу есеја — свакој категорији упита из PERSUADE — и јаз између најбољег и најлошијег је широк. [PER-TYPE TABLE]
Аргументативни, убедљиви и излагачки есеји: најснажнија域а детектора. AUC је типично 0,97–1,00 јер корпуси за обучавање претежно садрже ове стилове. Ово је место где пада већина случајева академске интегритетности.
Креативно писање и књижевна анализа: наша најслабија область. За literary_analysis AUC пада на 0,69 — људски стил у фикцији конвергира са излазима LLM-а и ни наша надзорна ни нула-пуцање компонента не могу их поуздано разликовати. Третирајте висок AI резултат на фикцији са скептицизмом.
Налепите било који документ и погледајте исти пресуд по реченици и прагове одлучивања које користимо за ове бенчмарк бројке. Бесплатно, без регистрације.
Три класе текста избегавају наш детектор чешће него što наш скуп за валидацију сугерише. Хуманизовани AI текст — излаз прошао кроз непријатељски алат за перефразирање или пренос стила — често добија резултат као да је написан од стране човека чак и када је основни текст потпуно генерисан. Кратак текст (испод 100 речи) је уопштено тешко класификовати јер нема довољно статистичког сигнала. Писање на нематерњем енглеском може добити резултат као AI-генерисано јер LLM-ови и ESL писци деле одређене лексичке и синтаксичке преференције.
Наш детектор је вероватносни, а не доказни. Висок AI резултат је сигнал за даљу истрагу, а не доказ прекршаја. Снажно препоручујемо да резултат пратите контекстом: недавна историја уређивања, верзије нацрта, узорци писања истог аутора и — тамо где је дозвољено — кратак накнадни разговор са аутором.
Непрекидно поново обучавамо на најновијим излазима генератора, али увек постоји заостатак: модел објављен прошле недеље можда није добро заступљен у подацима за обучавање. Ако ваш радни ток зависи од откривања најновијих модела, проверавајте нашу страницу бенчмарка квартално за ажуриране бројке.
Објављујемо необрађене резултате валидације тако да истраживачи, новинари и просветни радници могу независно да провере наше тврдње. CSV садржи: ID узорка, идентитет генератора (или 'human'), ознаку типа есеја, необрађени излаз вероватноће, бинарни пресуд на прагу 50%, бинарни пресуд на прагу 26,56%.
Преузмите: ai-detector-benchmark-2026-04.csv (ажурирано квартално). Академска употреба је неограничена; комерцијално поновно објављивање захтева атрибуцију: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
За интерактивну верзију исте методологије на сопственом тексту, испробајте наш алат AI & Plagiarism Checker — налепите било који документ и погледајте пресуд по реченици, исте прагове одлучивања и исти интервал поузданости које користимо за ове објављене бројке.
Резултати бенчмарка проистичу из нашег интерног скупа за валидацију и можда се не генерализују на текст ван дистрибуције. Објављене бројке представљају просечну перформансу на 1.000 узорака; ваш документ може добити различити резултат. Користите резултате AI детекције као један од улаза међу многима, а не као јединствени доказ ауторства.