Zveřejňujeme skutečnou přesnost našeho detektoru AI v praxi u 22 generativních modelů, včetně GPT-5, Claude 4, Gemini 2 a Llama 3. Tabulky pro jednotlivé modely, poctivá omezení a ke stažení datová sada pro výzkumníky.
Většina nástrojů pro detekci AI vás žádá, abyste důvěřovali jedinému neprůhlednému skóre. Domníváme se, že si zasloužíte důkazy. Na této stránce sdílíme úplné výsledky našeho interního validačního běhu — každý generátor, který jsme testovali, AUC-ROC skóre pro každý z nich, typy esejí, které nám dělaly největší problémy, a rozhodovací prahy, které používáme v produkci.
Tato míra transparentnosti je v oblasti detekce AI neobvyklá. Většina konkurentů — prodejci nástrojů pro kontrolu plagiátů, specializované služby detekce AI, generické SaaS nástroje — nezveřejňuje žádná data o přesnosti nebo uvádí jediné selektivně vybrané číslo. Tento vzorec je neudržitelný: pedagogové, vydavatelé a výzkumníci potřebují reprodukovatelné benchmarky, než mohou na jakýkoli nástroj spoléhat.
Naše čísla pocházejí ze split validační sady 1 000 vzorků z kalibračního korpusu použitého k trénování našeho detektoru ModernBERT. Stejná metodologie, která pohání tento benchmark, běží na každém dokumentu, který odešlete prostřednictvím našeho nástroje. Nic není zadržováno pro ukázky.
Validační sada obsahuje 1 000 esejí čerpaných z kalibračního korpusu 1 200 vzorků: 600 lidsky napsaných esejí (z dat sdíleného úkolu PAN25 a datové sady argumentačních esejí PERSUADE) a 600 AI generovaných esejí (vytvořených 22 různými velkými jazykovými modely za kontrolovaných podmínek promptování). Rozdělení 80/20 na tréninkovou a validační sadu je pevné a opakovatelné.
Každý vzorek je hodnocen izolovaně, bez přístupu k metadatům, která by mohla prozradit skutečný stav. Detektor vrací pravděpodobnost v [0, 100] představující pravděpodobnost, že vzorek je AI generovaný. Následně vypočítáváme plochu pod křivkou ROC (AUC-ROC) pro každý generátor i na úrovni typu eseje.
Všechny prahy, trénovací hyperparametry a výstupy surových pravděpodobností jsou zaznamenávány. Samotná datová sada je ke stažení na konci této stránky — formát CSV, jeden řádek na vzorek, s identitou generátoru, označením typu eseje, surovým skóre a konečným binárním verdiktem.
Napříč celou sadou 1 000 vzorků dosahuje náš ensemble detektor AUC-ROC [AUC: 0.9884]. Při rozhodovacím prahu 50 %, který používáme v produkci: 0 falešně pozitivních výsledků u lidských esejí ve validační sadě a 60% recall u esejí AI. Při F1-optimálním prahu 26,56 % stoupá recall na 90 % za cenu 2 % falešně pozitivních výsledků — kompromis lépe vhodný pro pracovní postupy s vysokou citlivostí screeningu.
Verdikt na úrovni dokumentu v našem veřejném nástroji používá konzervativní 50% práh, upřednostňující nulové falešně pozitivní výsledky před maximálním recallem. Učitelé, vydavatelé a výzkumníci mohou toto nastavení přepsat prostřednictvím posuvníku citlivosti ve widgetu, pokud chtějí agresivnější označování.
Pro srovnání: samotná zero-shot složka Binoculars (nastavení 2× Llama-3.1-8B) dosahuje skóre AUC [AUC: 0.8509] samostatně. Samotná doladěná složka ModernBERT dosahuje [AUC: 1.0000] na esejích v rámci distribuce a [AUC: 0.9069] na textu mimo distribuci. Ensemble leží mezi nimi na jakékoli ose, ale překonává oba v průměru, protože opravuje jejich vzájemně se doplňující slabiny.
Zde je tabulka AUC-ROC pro jednotlivé modely. Modely jsou seřazeny od nejsnadněji po nejobtížněji detekovatelné na naší validační sadě. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
Modely OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Ostatní: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Hlavní vzorec: novější, větší modely doladěné pro instrukce mají tendenci produkovat text, který statistickému detektoru — včetně toho našeho — připadá více lidský. Claude 4.5 Sonnet a GPT-5.x jsou dvě rodiny, kde se naše distribuce skóre nejvíce překrývají s lidským základem. To odpovídá každé nezávislé studii zveřejněné v roce 2025 — závod ve zbrojení je skutečný a velikost modelu přímo ztěžuje detekci.
Ne všechny texty jsou stejně detekovatelné. Výsledky rozdělujeme podle typu eseje — každá kategorie výzev PERSUADE — a rozdíl mezi nejlepším a nejhorším je velký. [PER-TYPE TABLE]
Argumentační, přesvědčovací a expozitorní eseje: nejsilnější doména detektoru. AUC typicky 0,97–1,00, protože trénovací korpusy přeceňují tyto styly. Sem spadá většina případů použití akademické integrity.
Kreativní psaní a literární analýza: naše nejslabší doména. U literární analýzy klesá AUC na 0,69 — lidský styl ve fikci konverguje s výstupy LLM a ani naše dohlížená, ani zero-shot složka je nedokáže spolehlivě odlišit. Buďte skeptičtí k vysokému skóre AI u beletrie.
Vložte libovolný dokument a prohlédněte si verdikt pro každou větu a rozhodovací prahy, které používáme pro tato benchmark čísla. Zdarma, bez registrace.
Tři třídy textu unikají našemu detektoru častěji, než naznačuje naše validační sada. Humanizovaný AI text — výstup zpracovaný adversariálním nástrojem pro parafrázování nebo přenos stylu — se často vyhodnocuje jako lidský, i když podkladový text byl plně vygenerován. Krátký text (pod 100 slov) je obtížné klasifikovat vůbec, protože není dostatečný statistický signál. Text psaný rodilými mluvčími jiného jazyka může být vyhodnocen jako AI generovaný, protože LLM a pisatelé ESL sdílejí určité lexikální a syntaktické preference.
Náš detektor je pravděpodobnostní, nikoli důkazní. Vysoké skóre AI je signálem k dalšímu prošetření, nikoli důkazem pochybení. Důrazně doporučujeme doplnit skóre o kontext: nedávná historie úprav, návrhy verzí, ukázky psaní od stejného autora a — kde je to povoleno — krátký navazující rozhovor s autorem.
Průběžně přetrénováváme model na nejnovějších výstupech generátoru, ale vždy existuje prodleva: model vydaný minulý týden nemusí být dobře zastoupen v trénovacích datech. Pokud váš pracovní postup závisí na zachycení nejnovějších modelů, kontrolujte čtvrtletně naši stránku benchmarku pro aktualizovaná čísla.
Zveřejňujeme surové výsledky validace, aby výzkumníci, novináři a pedagogové mohli nezávisle ověřit naše tvrzení. CSV obsahuje: ID vzorku, identitu generátoru (nebo „human"), označení typu eseje, výstup surové pravděpodobnosti, binární verdikt při 50% prahu, binární verdikt při 26,56% prahu.
Stáhnout: ai-detector-benchmark-2026-04.csv (aktualizováno čtvrtletně). Akademické použití je neomezené; komerční opublikování vyžaduje uvedení zdroje: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
Pro interaktivní verzi stejné metodologie na vašem vlastním textu vyzkoušejte náš nástroj AI & Detektor plagiátů — vložte libovolný dokument a zobrazte verdikt pro každou větu, stejné rozhodovací prahy a stejný interval spolehlivosti, který používáme pro tato publikovaná čísla.
Výsledky benchmarku jsou odvozeny z naší interní validační sady a nemusí se generalizovat na texty mimo distribuci. Publikovaná čísla představují průměrný výkon napříč 1 000 vzorky; váš dokument může být vyhodnocen jinak. Používejte výsledky detekce AI jako jeden z mnoha vstupů, nikoli jako jediný důkaz autorství.