Кућа › Колико је тачна детекција AI? Бенчмарк на 22 LLM-а | Детектор плагијаризма

Колико је тачна детекција AI? Наш бенчмарк на 22 LLM-а

Објављујемо стварну тачност нашег AI детектора на 22 генеративна модела, укључујући GPT-5, Claude 4, Gemini 2 и Llama 3. Табеле по моделу, поштена ограничења и скуп података за преузимање за истраживаче.

2026-04-17 · Plagiarism Detector Team

Зашто објављујемо наше бројке тачности

Већина алата за детекцију AI тражи да верујете јединственом непрозирном резултату. Сматрамо да заслужујете доказе. На овој страници делимо комплетне резултате наше интерне провере валидације — сваки генератор који смо тестирали, AUC-ROC резултат за сваки, типове есеја са којима смо имали највише проблема, и прагове одлучивања које користимо у производњи.

Овај ниво транспарентности је необичан у простору AI детекције. Већина конкурената — продавци алата за проверу плагијаризма, специјализоване услуге AI детекције, генерички SaaS алати — објављује или никакве податке о тачности или јединствени пажљиво одабрани број. Тај образац је неодржив: просветни радници, издавачи и истраживачи требају поновљиве бенчмаркове пре него могу да се ослоне на било који алат.

Наше бројке потичу из скупа за валидацију од 1.000 узорака из калибрационог корпуса коришћеног за обучавање нашег ModernBERT детектора. Исти метод који управља овим бенчмарком ради на сваком документу који пошаљете кроз наш алат. Ништа није задржано за демонстрације.

Тест корпус и методологија

Скуп за валидацију садржи 1.000 есеја извучених из калибрационог корпуса од 1.200 узорака: 600 есеја које су написали људи (из PAN25 података дељеног задатка и скупа података PERSUADE аргументативних есеја) и 600 AI-генерисаних есеја (произведених са 22 различита велика језичка модела под контролисаним упитима). Подела 80/20 за обучавање и валидацију је фиксна и поновљива.

Сваки узорак се оцењује изоловано, без приступа метаподацима који би могли открити стварну вредност. Детектор враћа вероватноћу у [0, 100] која представља вероватноћу да је узорак AI-генерисан. Затим рачунамо површину испод криве ROC (AUC-ROC) по генератору и на нивоу типа есеја.

Сви прагови, хиперпараметри обучавања и необрађени излазни подаци вероватноће су забележени. Скуп података је доступан за преузимање на дну ове странице — CSV формат, један ред по узорку, са идентитетом генератора, ознаком типа есеја, необрађеним резултатом и коначним бинарним пресудом.

Главни резултати

Широм комплетног скупа од 1.000 узорака, наш ансамбл детектор постиже AUC-ROC [AUC: 0.9884]. На прагу одлучивања од 50% који користимо у производњи: 0 лажно позитивних на есејима писаним од стране људи у скупу за валидацију, и 60% поузданост откривања на AI есејима. На F1-оптималном прагу од 26,56%, поузданост откривања расте на 90% по цену 2% лажно позитивних — компромис боље прилагођен радним токовима са вишом осетљивошћу.

Пресуда на нивоу документа на нашем јавном алату користи конзервативни праг од 50%, дајући предност нула лажно позитивних над максималном поузданошћу откривања. Наставници, издавачи и истраживачи могу ово да отклоне преко клизача осетљивости у виџету када желе агресивније маркирање.

За поређење, сама Binoculars компонента нула-пуцања (2× Llama-3.1-8B конфигурација) самостално постиже AUC [AUC: 0.8509]. Сама финоподешена ModernBERT компонента постиже [AUC: 1.0000] на есејима у дистрибуцији и [AUC: 0.9069] на тексту ван дистрибуције. Ансамбл је између њих на свакој pojedinoj оси, али надмашује оба у просеку јер исправља њихове комплементарне слабости.

Разлагање по генератору

Ово је табела AUC-ROC по моделу. Модели су поређани од лакших до тежих за откривање у нашем скупу за валидацију. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI модели: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Остали: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Главни образац: новији, већи, моделi са инструктивним подешавањем имају тенденцију да производе текст који изгледа људскије за сваки статистички детектор, укључујући и наш. Claude 4.5 Sonnet и GPT-5.x су две породице где се наше дистрибуције резултата највише поклапају са људском полазном тачком. Ово одговара свакој независној студији објављеној 2025. — трка у наоружању је стварна, а величина модела је директан ветар у лице детекцији.

Где детектор има тешкоће

Није сав текст подједнако препознатљив. Разлажемо резултате по типу есеја — свакој категорији упита из PERSUADE — и јаз између најбољег и најлошијег је широк. [PER-TYPE TABLE]

Аргументативни, убедљиви и излагачки есеји: најснажнија域а детектора. AUC је типично 0,97–1,00 јер корпуси за обучавање претежно садрже ове стилове. Ово је место где пада већина случајева академске интегритетности.

Креативно писање и књижевна анализа: наша најслабија область. За literary_analysis AUC пада на 0,69 — људски стил у фикцији конвергира са излазима LLM-а и ни наша надзорна ни нула-пуцање компонента не могу их поуздано разликовати. Третирајте висок AI резултат на фикцији са скептицизмом.

Испробајте детектор на сопственом тексту

Налепите било који документ и погледајте исти пресуд по реченици и прагове одлучивања које користимо за ове бенчмарк бројке. Бесплатно, без регистрације.

Ограничења и начини грешке

Три класе текста избегавају наш детектор чешће него što наш скуп за валидацију сугерише. Хуманизовани AI текст — излаз прошао кроз непријатељски алат за перефразирање или пренос стила — често добија резултат као да је написан од стране човека чак и када је основни текст потпуно генерисан. Кратак текст (испод 100 речи) је уопштено тешко класификовати јер нема довољно статистичког сигнала. Писање на нематерњем енглеском може добити резултат као AI-генерисано јер LLM-ови и ESL писци деле одређене лексичке и синтаксичке преференције.

Наш детектор је вероватносни, а не доказни. Висок AI резултат је сигнал за даљу истрагу, а не доказ прекршаја. Снажно препоручујемо да резултат пратите контекстом: недавна историја уређивања, верзије нацрта, узорци писања истог аутора и — тамо где је дозвољено — кратак накнадни разговор са аутором.

Непрекидно поново обучавамо на најновијим излазима генератора, али увек постоји заостатак: модел објављен прошле недеље можда није добро заступљен у подацима за обучавање. Ако ваш радни ток зависи од откривања најновијих модела, проверавајте нашу страницу бенчмарка квартално за ажуриране бројке.

Преузмите комплетан скуп података

Објављујемо необрађене резултате валидације тако да истраживачи, новинари и просветни радници могу независно да провере наше тврдње. CSV садржи: ID узорка, идентитет генератора (или 'human'), ознаку типа есеја, необрађени излаз вероватноће, бинарни пресуд на прагу 50%, бинарни пресуд на прагу 26,56%.

Преузмите: ai-detector-benchmark-2026-04.csv (ажурирано квартално). Академска употреба је неограничена; комерцијално поновно објављивање захтева атрибуцију: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

За интерактивну верзију исте методологије на сопственом тексту, испробајте наш алат AI & Plagiarism Checker — налепите било који документ и погледајте пресуд по реченици, исте прагове одлучивања и исти интервал поузданости које користимо за ове објављене бројке.

Често постављана питања

Колико често се овај бенчмарк ажурира?

Сваког квартала. Када се покрене значајан генератор (GPT-6, Claude 5, Gemini 3), додамо га у тест корпус у року од 4 недеље и поново објавимо ажурирану табелу. Историјске верзије су архивиране са датираним именима датотека — издање 2026-04 је тренутно стабилно издање.

Зашто не објављујете вероватносне излазе по узорку?

Ми то радимо — преузимљиви CSV садржи необрађене вероватноће. Оно što не објављујемо је оригинални текст есеја, јер PAN25 корпус и PERSUADE скуп података носе ограничења поновне дистрибуције. Ако желите текст, повуците те скупове података директно из њиховог извора (везе у CSV документацији).

Могу ли да верујем детектору ако је AUC испод 1,0?

Ниједан детектор не постиже AUC 1,0 на сваком генератору, тако да питање није ‘да ли је савршен’ већ ‘да ли је транспарентан.’ Детектор који објављује AUC 0,95 и говори вам где има тешкоћа вреднији је поверења од онога koji objavljuje ‘водећу тачност у индустрији’ без броја. Наш AUC [AUC: 0.9884] је поштена просечна перформанса; разлагање по генератору и по типу есеја је место где треба да донесете своју одлуку о куповини.

Да ли је ваш AI детектор спреман за академске публикације?

Основна методологија јесте — Binoculars (ICML 2024) и ModernBERT су обе архитектуре рецензиране од стране рецензената. Наш специфични корпус за финоподешавање и прагови су власничке информације, али методологија бенчмарка је потпуно поновљива.

Како бесплатни онлајн алат упоређује са desktop производом?

Исти механизам, исте бројке тачности, иста логика пресуда по реченици. Desktop производ додаје неограничену дужину документа, скенирање ван мреже, интегрисано упоређивање плагијата са 4 милијарде веб страница и групну обраду целих директоријума. За повремене провере онлајн алат је довољан; за свакодневне радне токове desktop је прави алат.

Резултати бенчмарка проистичу из нашег интерног скупа за валидацију и можда се не генерализују на текст ван дистрибуције. Објављене бројке представљају просечну перформансу на 1.000 узорака; ваш документ може добити различити резултат. Користите резултате AI детекције као један од улаза међу многима, а не као јединствени доказ ауторства.