Domov › Jak přesná je detekce AI? Benchmark napříč 22 LLM | Detektor plagiátů

Jak přesná je detekce AI? Náš benchmark napříč 22 LLM

Zveřejňujeme skutečnou přesnost našeho detektoru AI v praxi u 22 generativních modelů, včetně GPT-5, Claude 4, Gemini 2 a Llama 3. Tabulky pro jednotlivé modely, poctivá omezení a ke stažení datová sada pro výzkumníky.

2026-04-17 · Plagiarism Detector Team

Proč zveřejňujeme čísla o přesnosti

Většina nástrojů pro detekci AI vás žádá, abyste důvěřovali jedinému neprůhlednému skóre. Domníváme se, že si zasloužíte důkazy. Na této stránce sdílíme úplné výsledky našeho interního validačního běhu — každý generátor, který jsme testovali, AUC-ROC skóre pro každý z nich, typy esejí, které nám dělaly největší problémy, a rozhodovací prahy, které používáme v produkci.

Tato míra transparentnosti je v oblasti detekce AI neobvyklá. Většina konkurentů — prodejci nástrojů pro kontrolu plagiátů, specializované služby detekce AI, generické SaaS nástroje — nezveřejňuje žádná data o přesnosti nebo uvádí jediné selektivně vybrané číslo. Tento vzorec je neudržitelný: pedagogové, vydavatelé a výzkumníci potřebují reprodukovatelné benchmarky, než mohou na jakýkoli nástroj spoléhat.

Naše čísla pocházejí ze split validační sady 1 000 vzorků z kalibračního korpusu použitého k trénování našeho detektoru ModernBERT. Stejná metodologie, která pohání tento benchmark, běží na každém dokumentu, který odešlete prostřednictvím našeho nástroje. Nic není zadržováno pro ukázky.

Testovací korpus a metodologie

Validační sada obsahuje 1 000 esejí čerpaných z kalibračního korpusu 1 200 vzorků: 600 lidsky napsaných esejí (z dat sdíleného úkolu PAN25 a datové sady argumentačních esejí PERSUADE) a 600 AI generovaných esejí (vytvořených 22 různými velkými jazykovými modely za kontrolovaných podmínek promptování). Rozdělení 80/20 na tréninkovou a validační sadu je pevné a opakovatelné.

Každý vzorek je hodnocen izolovaně, bez přístupu k metadatům, která by mohla prozradit skutečný stav. Detektor vrací pravděpodobnost v [0, 100] představující pravděpodobnost, že vzorek je AI generovaný. Následně vypočítáváme plochu pod křivkou ROC (AUC-ROC) pro každý generátor i na úrovni typu eseje.

Všechny prahy, trénovací hyperparametry a výstupy surových pravděpodobností jsou zaznamenávány. Samotná datová sada je ke stažení na konci této stránky — formát CSV, jeden řádek na vzorek, s identitou generátoru, označením typu eseje, surovým skóre a konečným binárním verdiktem.

Celkové výsledky

Napříč celou sadou 1 000 vzorků dosahuje náš ensemble detektor AUC-ROC [AUC: 0.9884]. Při rozhodovacím prahu 50 %, který používáme v produkci: 0 falešně pozitivních výsledků u lidských esejí ve validační sadě a 60% recall u esejí AI. Při F1-optimálním prahu 26,56 % stoupá recall na 90 % za cenu 2 % falešně pozitivních výsledků — kompromis lépe vhodný pro pracovní postupy s vysokou citlivostí screeningu.

Verdikt na úrovni dokumentu v našem veřejném nástroji používá konzervativní 50% práh, upřednostňující nulové falešně pozitivní výsledky před maximálním recallem. Učitelé, vydavatelé a výzkumníci mohou toto nastavení přepsat prostřednictvím posuvníku citlivosti ve widgetu, pokud chtějí agresivnější označování.

Pro srovnání: samotná zero-shot složka Binoculars (nastavení 2× Llama-3.1-8B) dosahuje skóre AUC [AUC: 0.8509] samostatně. Samotná doladěná složka ModernBERT dosahuje [AUC: 1.0000] na esejích v rámci distribuce a [AUC: 0.9069] na textu mimo distribuci. Ensemble leží mezi nimi na jakékoli ose, ale překonává oba v průměru, protože opravuje jejich vzájemně se doplňující slabiny.

Analýza podle generátoru

Zde je tabulka AUC-ROC pro jednotlivé modely. Modely jsou seřazeny od nejsnadněji po nejobtížněji detekovatelné na naší validační sadě. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Modely OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Ostatní: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Hlavní vzorec: novější, větší modely doladěné pro instrukce mají tendenci produkovat text, který statistickému detektoru — včetně toho našeho — připadá více lidský. Claude 4.5 Sonnet a GPT-5.x jsou dvě rodiny, kde se naše distribuce skóre nejvíce překrývají s lidským základem. To odpovídá každé nezávislé studii zveřejněné v roce 2025 — závod ve zbrojení je skutečný a velikost modelu přímo ztěžuje detekci.

Kde má detektor problémy

Ne všechny texty jsou stejně detekovatelné. Výsledky rozdělujeme podle typu eseje — každá kategorie výzev PERSUADE — a rozdíl mezi nejlepším a nejhorším je velký. [PER-TYPE TABLE]

Argumentační, přesvědčovací a expozitorní eseje: nejsilnější doména detektoru. AUC typicky 0,97–1,00, protože trénovací korpusy přeceňují tyto styly. Sem spadá většina případů použití akademické integrity.

Kreativní psaní a literární analýza: naše nejslabší doména. U literární analýzy klesá AUC na 0,69 — lidský styl ve fikci konverguje s výstupy LLM a ani naše dohlížená, ani zero-shot složka je nedokáže spolehlivě odlišit. Buďte skeptičtí k vysokému skóre AI u beletrie.

Vyzkoušejte detektor na vlastním textu

Vložte libovolný dokument a prohlédněte si verdikt pro každou větu a rozhodovací prahy, které používáme pro tato benchmark čísla. Zdarma, bez registrace.

Omezení a způsoby selhání

Tři třídy textu unikají našemu detektoru častěji, než naznačuje naše validační sada. Humanizovaný AI text — výstup zpracovaný adversariálním nástrojem pro parafrázování nebo přenos stylu — se často vyhodnocuje jako lidský, i když podkladový text byl plně vygenerován. Krátký text (pod 100 slov) je obtížné klasifikovat vůbec, protože není dostatečný statistický signál. Text psaný rodilými mluvčími jiného jazyka může být vyhodnocen jako AI generovaný, protože LLM a pisatelé ESL sdílejí určité lexikální a syntaktické preference.

Náš detektor je pravděpodobnostní, nikoli důkazní. Vysoké skóre AI je signálem k dalšímu prošetření, nikoli důkazem pochybení. Důrazně doporučujeme doplnit skóre o kontext: nedávná historie úprav, návrhy verzí, ukázky psaní od stejného autora a — kde je to povoleno — krátký navazující rozhovor s autorem.

Průběžně přetrénováváme model na nejnovějších výstupech generátoru, ale vždy existuje prodleva: model vydaný minulý týden nemusí být dobře zastoupen v trénovacích datech. Pokud váš pracovní postup závisí na zachycení nejnovějších modelů, kontrolujte čtvrtletně naši stránku benchmarku pro aktualizovaná čísla.

Stáhnout celou datovou sadu

Zveřejňujeme surové výsledky validace, aby výzkumníci, novináři a pedagogové mohli nezávisle ověřit naše tvrzení. CSV obsahuje: ID vzorku, identitu generátoru (nebo „human"), označení typu eseje, výstup surové pravděpodobnosti, binární verdikt při 50% prahu, binární verdikt při 26,56% prahu.

Stáhnout: ai-detector-benchmark-2026-04.csv (aktualizováno čtvrtletně). Akademické použití je neomezené; komerční opublikování vyžaduje uvedení zdroje: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

Pro interaktivní verzi stejné metodologie na vašem vlastním textu vyzkoušejte náš nástroj AI & Detektor plagiátů — vložte libovolný dokument a zobrazte verdikt pro každou větu, stejné rozhodovací prahy a stejný interval spolehlivosti, který používáme pro tato publikovaná čísla.

Často kladené otázky

Jak často je tento benchmark aktualizován?

Každé čtvrtletí. Když se spustí hlavní generátor (GPT-6, Claude 5, Gemini 3), přidáme ho do testovacího korpusu do 4 týdnů a znovu publikujeme aktualizovanou tabulku. Historické verze jsou archivovány s datovanými názvy souborů — vydání 2026-04 je aktuální stabilní verze.

Proč nezveřejňujete výstupy pravděpodobnosti pro jednotlivé vzorky?

Zveřejňujeme — stahovatelný CSV obsahuje surové pravděpodobnosti. Co nezveřejňujeme, je původní text eseje, protože korpus PAN25 a datová sada PERSUADE mají omezení redistribuce. Pokud chcete text, stáhněte tyto datové sady přímo z jejich zdroje (odkazy v dokumentaci CSV).

Mohu věřit detektoru, pokud je AUC pod 1,0?

Žádný detektor nedosahuje AUC 1,0 na každém generátoru, takže otázka nezní ‘je dokonalý’, ale ‘je transparentní.’ Detektor, který zveřejňuje AUC 0,95 a říká vám, kde má problémy, je důvěryhodnější než ten, který publikuje ‘přesnost vedoucí v odvětví’ bez čísla. Naše AUC [AUC: 0.9884] je poctivý průměrný výkon; analýza podle generátoru a podle typu eseje jsou místem, kde byste měli učinit své rozhodnutí o nákupu.

Je váš AI detektor připraven pro akademické publikace?

Základní metodologie ano — Binoculars (ICML 2024) a ModernBERT jsou obě recenzované architektury. Náš konkrétní corpus pro doladění a prahy jsou proprietární, ale metodologie benchmarku je plně reprodukovatelná.

Jak se bezplatný online nástroj porovnává s desktopovým produktem?

Stejný engine, stejná čísla přesnosti, stejná logika verdiktu pro každou větu. Desktopový produkt přidává neomezenou délku dokumentu, offline skenování, integrované vyhledávání shod v plagiarismech oproti 4 miliardám webových stránek a dávkové zpracování celých složek. Pro jednorázové kontroly postačuje online nástroj; pro každodenní pracovní postupy je desktopová verze správnou volbou.

Výsledky benchmarku jsou odvozeny z naší interní validační sady a nemusí se generalizovat na texty mimo distribuci. Publikovaná čísla představují průměrný výkon napříč 1 000 vzorky; váš dokument může být vyhodnocen jinak. Používejte výsledky detekce AI jako jeden z mnoha vstupů, nikoli jako jediný důkaz autorství.