Domov › Aká presná je detekcia AI? Benchmark pre 22 LLM | Detektor plagiátov

Aká presná je detekcia AI? Náš benchmark pre 22 LLM

Zverejňujeme skutočnú presnosť nášho detektora AI voči 22 generatívnym modelom vrátane GPT-5, Claude 4, Gemini 2 a Llama 3. Tabuľky pre každý model, poctivé obmedzenia a stiahnuteľná sada dát pre výskumníkov.

2026-04-17 · Plagiarism Detector Team

Prečo zverejňujeme naše čísla presnosti

Väčšina nástrojov na detekciu AI vás žiada, aby ste dôverovali jednému nepriehľadnému skóre. My si myslíme, že si zaslúžite dôkazy. Na tejto stránke zdieľame úplné výsledky nášho interného validačného behu — každý generátor, ktorý sme testovali, skóre AUC-ROC pre každý z nich, typy esejí, ktoré nám robili najviac problémov, a rozhodovacie prahy, ktoré používame v produkcii.

Táto úroveň transparentnosti je v oblasti detekcie AI nezvyčajná. Väčšina konkurentov — predajcovia nástrojov na kontrolu plagiátov, špecializované detekčné služby AI, generické SaaS nástroje — nezverejňuje žiadne údaje o presnosti alebo uvádza jediné špeciálne vybrané číslo. Tento vzorec je neudržateľný: pedagógovia, vydavatelia a výskumníci potrebujú reprodukovateľné benchmarky skôr, ako môžu na akýkoľvek nástroj spoľahnúť.

Naše čísla pochádzajú z validačného rozdelenia 1 000 vzoriek kalibračného korpusu použitého na trénovanie nášho detektora ModernBERT. Rovnaká metodológia, ktorá poháňa tento benchmark, beží na každom dokumente, ktorý odošlete prostredníctvom nášho nástroja. Nič sa nedržiava späť pre ukážky.

Testovací korpus a metodológia

Validačná sada obsahuje 1 000 esejí zo 1 200-vzorkovej kalibračnej množiny: 600 ľudsky napísaných esejí (zo spoločnej úlohy PAN25 a súboru argumentačných esejí PERSUADE) a 600 esejí generovaných AI (vytvorených 22 odlišnými veľkými jazykovými modelmi v riadenom prostredí výziev). Rozdelenie 80/20 na trénovaciu a validačnú časť je pevné a opakovateľné.

Každá vzorka je hodnotená samostatne, bez prístupu k metadátam, ktoré by mohli prezradiť skutočnú triedu. Detektor vracia pravdepodobnosť v rozsahu [0, 100] predstavujúcu pravdepodobnosť, že vzorka je generovaná AI. Potom vypočítame plochu pod krivkou prijímača-operátora (AUC-ROC) pre každý generátor a na úrovni typu eseje.

Všetky prahy, trénovacie hyperparametre a výstupy surovej pravdepodobnosti sú zaznamenané. Samotný súbor dát je dostupný na stiahnutie na konci tejto stránky — formát CSV, jeden riadok na vzorku, s identitou generátora, označením typu eseje, surovým skóre a konečným binárnym verdiktom.

Hlavné výsledky

Naprieč celou sadou 1 000 vzoriek dosahuje náš súbor detektorov AUC-ROC [AUC: 0.9884]. Pri rozhodovacom prahu 50 %, ktorý používame v produkcii: 0 falošne pozitívnych výsledkov na ľudských esejách vo validačnej sade a 60 % citlivosť na esejách AI. Pri prahoch optimálnych pre F1 na úrovni 26,56 % stúpa citlivosť na 90 % za cenu 2 % falošne pozitívnych výsledkov — kompromis vhodnejší pre pracovné toky s vysokou citlivosťou.

Verdikt na úrovni dokumentu v našom verejnom nástroji používa konzervatívny prah 50 %, uprednostňujúci nulové falošne pozitívne výsledky pred maximálnou citlivosťou. Učitelia, vydavatelia a výskumníci môžu toto nastavenie zmeniť pomocou posúvača citlivosti vo widgete, keď chcú agresívnejšie označovanie.

Na porovnanie, zložka Binoculars s nulovým záberom (nastavenie 2× Llama-3.1-8B) sama o sebe dosahuje AUC [AUC: 0.8509] samostatne. Zložka doladenom ModernBERT sama o sebe dosahuje [AUC: 1.0000] na esejách z distribúcie a [AUC: 0.9069] na texte mimo distribúcie. Súbor detektorov je medzi nimi na ľubovoľnej jednej osi, ale outperformuje oba v priemere, pretože opravuje ich komplementárne slabiny.

Rozpad podľa generátorov

Tu je tabuľka AUC-ROC pre každý model. Modely sú zoradené od najľahšie po najťažšie detekovateľné na našej validačnej sade. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI modely: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Ostatní: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Hlavný vzorec: novšie, väčšie, inštrukčne doladené modely majú tendenciu produkovať text, ktorý akémukoľvek štatistickému detektoru vrátane nášho vyzerá ľudskejšie. Claude 4.5 Sonnet a GPT-5.x sú dve rodiny, kde sa naše rozdelenie skóre najväčšmi prekrýva s ľudskou základnou líniou. Toto zodpovedá každej nezávislej štúdii zverejnenej v roku 2025 — preteky v zbrojení sú skutočné a veľkosť modelu je priamou záťažou pre detekciu.

Kde má detektor problémy

Nie všetky texty sú rovnako detekovateľné. Výsledky rozdeľujeme podľa typu eseje — každá kategória výziev PERSUADE — a rozdiel medzi najlepším a najhorším je výrazný. [PER-TYPE TABLE]

Argumentačné, presviedčacie a výkladové eseje: najsilnejšia doména detektora. AUC typicky 0,97–1,00, pretože trénovacie korpusy tieto štýly nadreprezentujú. Sem patrí väčšina prípadov akademickej integrity.

Tvorivé písanie a literárna analýza: naša najslabšia doména. Pre literárnu analýzu klesá AUC na 0,69 — ľudský štýl v beletrii sa zbližuje s výstupmi LLM a ani naša dozorovaná, ani zero-shot zložka ich nedokáže spoľahlivo rozlíšiť. K vysokému skóre AI na beletrii pristupujte so skepsou.

Vyskúšajte detektor na svojom vlastnom texte

Vložte ľubovoľný dokument a pozrite si rovnaký verdikt pre každú vetu a rozhodovacie prahy, ktoré používame pre tieto benchmarkové čísla. Zadarmo, bez registrácie.

Obmedzenia a chybové režimy

Tri triedy textu unikajú nášmu detektoru častejšie, ako naznačuje naša validačná sada. Humanizovaný text AI — výstup prevedený cez nástroj na adversariálne preformulovanie alebo prenos štýlu — sa často hodnotí ako ľudský, aj keď bol podkladový text plne vygenerovaný. Krátky text (pod 100 slov) je celkovo ťažko klasifikovateľný, pretože chýba dostatočný štatistický signál. Texty písané v angličtine ako cudzom jazyku môžu byť hodnotené ako AI-generované, pretože LLM a ESL pisatelia zdieľajú určité lexikálne a syntaktické preferencie.

Náš detektor je pravdepodobnostný, nie dôkazový. Vysoké skóre AI je signálom na ďalšie preskúmanie, nie dôkazom pochybenia. Dôrazne odporúčame doplniť skóre kontextom: nedávna história úprav, verzie konceptov, vzorky písania od toho istého autora a — kde je to povolené — krátka následná konverzácia s autorom.

Nepretržite pretrénujeme na výstupoch najnovších generátorov, ale vždy existuje omeškanie: model vydaný minulý týždeň nemusí byť dobre zastúpený v trénovacích dátach. Ak váš pracovný tok závisí od zachytenia najnovších modelov, kontrolujte našu stránku s benchmarkami štvrťročne pre aktualizované čísla.

Stiahnite si celú sadu dát

Zverejňujeme surové validačné výsledky, aby ich výskumníci, novinári a pedagógovia mohli nezávisle overiť. CSV obsahuje: ID vzorky, identitu generátora (alebo 'human'), označenie typu eseje, výstup surovej pravdepodobnosti, binárny verdikt pri prahu 50 %, binárny verdikt pri prahu 26,56 %.

Stiahnuť: ai-detector-benchmark-2026-04.csv (aktualizované štvrťročne). Akademické použitie je neobmedzené; komerčné opätovné zverejnenie vyžaduje uvedenie zdroja: “Detektor plagiátov — AI Detection Benchmark 2026-04”.

Pre interaktívnu verziu rovnakej metodológie na vašom vlastnom texte vyskúšajte náš nástroj Kontrola AI & plagiátov — vložte ľubovoľný dokument a pozrite si verdikt pre každú vetu, rovnaké rozhodovacie prahy a rovnaký interval spoľahlivosti, ktoré používame pre tieto zverejnené čísla.

Často kladené otázky

Ako často sa tento benchmark aktualizuje?

Každý štvrťrok. Keď sa spustí hlavný generátor (GPT-6, Claude 5, Gemini 3), pridáme ho do testovacieho korpusu do 4 týždňov a znova zverejníme aktualizovanú tabuľku. Historické verzie sú archivované s datovanými názvami súborov — vydanie 2026-04 je aktuálne stabilné vydanie.

Prečo nezverejňujete výstupy pravdepodobnosti pre každú vzorku?

Robíme — stiahnuteľný CSV obsahuje surové pravdepodobnosti. Čo nezverejňujeme, je pôvodný text eseje, pretože korpus PAN25 a súbor dát PERSUADE nesú obmedzenia na redistribúciu. Ak chcete text, stiahnite si tieto súbory dát priamo z ich zdroja (odkazy v dokumentácii CSV).

Môžem dôverovať detektoru, ak je AUC pod 1,0?

Žiadny detektor nedosahuje AUC 1,0 na každom generátore, takže otázka nie je ‘je dokonalý’, ale ‘je transparentný.’ Detektor, ktorý zverejňuje AUC 0,95 a povie vám, kde má problémy, je dôveryhodnejší ako ten, ktorý zverejňuje ‘priemyselnú presnosť’ bez čísla. Naše AUC [AUC: 0.9884] je poctivý priemerný výkon; rozpad podľa generátorov a typov esejí je tam, kde by ste mali urobiť svoje rozhodnutie o kúpe.

Je váš detektor AI pripravený na akademickú publikáciu?

Základná metodológia áno — Binoculars (ICML 2024) a ModernBERT sú obe peer-reviewed architektúry. Náš konkrétny corpus dolaďovania a prahy sú proprietárne, ale metodológia benchmarku je plne reprodukovateľná.

Ako sa porovnáva bezplatný online nástroj s desktopovým produktom?

Rovnaký motor, rovnaké čísla presnosti, rovnaká logika verdiktu pre každú vetu. Desktopový produkt pridáva neobmedzenú dĺžku dokumentu, skenovanie offline, integrované porovnávanie plagiátov voči 4 miliardám webových stránok a dávkové spracovanie celých priečinkov. Pre jednorazové kontroly postačuje online nástroj; pre každodenné pracovné toky je desktopová verzia tým správnym nástrojom.

Výsledky benchmarku sú odvodené z našej internej validačnej sady a nemusia sa zovšeobecniť na text mimo distribúcie. Zverejnené čísla predstavujú priemerný výkon na 1 000 vzorkách; váš dokument sa môže hodnotiť inak. Výsledky detekcie AI používajte ako jeden vstup z mnohých, nie ako jediný dôkaz autorstva.