Ne všechny AI texty jsou stejně detekovatelné. Zde jsou výsledky našeho benchmarku pro jednotlivé generátory — které rodiny modelů náš detektor zachytí s téměř dokonalou přesností, se kterými má problémy a co nám to říká o výběru detekčního pracovního postupu.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Seřazeno od nejsnadněji po nejobtížněji detekovatelné na naší validační sadě. Rozdíl je velký — AUC u některých rodin modelů překračuje 0,99, zatímco u jiných klesá do 0,80. Obtížnost detekce koreluje s velikostí modelu, sofistikovaností doladění na instrukce a rozptylem výstupu.
Úplnou metodologii analýzy pro jednotlivé generátory naleznete na naší stránce benchmarku přesnosti. Tento článek shrnuje praktické důsledky těchto dat pro uživatele vybírající, kterému detektoru důvěřovat a který model použít.
GPT-3.5 je nejsnadněji detekovatelný moderní model — AUC [AUC: ?] na naší sadě. Artefakty starší generace (opakování, hedging, mdlý rejstřík) zůstávají jasně přítomné. GPT-4 klesá na AUC [AUC: ?], GPT-4o na [AUC: ?], odrážející postupně lepší kalibraci. GPT-5.x je nejjobtížnější v rodině — AUC [AUC: ?] — protože tým doladění na instrukce explicitně cílil na odstranění artefaktů detekce.
Praktický důsledek: akademické pracovní postupy zabývající se podváděním v éře GPT-3.5 se mohou silně spoléhat na samotnou detekci. Pracovní postupy zaměřené na GPT-5 musí párovat detekci s kontextovými důkazy, jak je popsáno v našem průvodci pracovním postupem pro učitele.
Nastavení teploty záleží. Výstupy při nízké teplotě (t≤0.5) jsou snadněji detekovatelné, protože koncentrují hmotnost pravděpodobnosti na užší slovník. Většina chatovacích rozhraní je výchozí na t≈0.7, což umísťuje text do středně detekovatelné zóny. Adversariální uživatelé explicitně zvyšují teplotu nebo používají různorodé dekódování k rozšíření rozsahu a vyvarování se detekci — náš ensemble to částečně opravuje, ale ne zcela.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Rodina Claude konzistentně produkuje méně repetitivní, stylisticky rozmanitější text než modely GPT stejné generace, což ztěžuje detekci statistickými metodami.
Konstitutivní AI trénink Clauda specificky cílí na “strojové znaky”, které se naučí náš dohlížený klasifikátor — vzorce hedgingu, nadměrné používání specifických konektivů, předvídatelná struktura odstavců. Jedná se o přímý adversariální vztah: generátor je trénován na vlastnosti, na které se spoléhá detektor.
Claude 4.5 Sonnet a GPT-5.x jsou si v obtížnosti blízké. Jejich distribuce skóre se ve validačních datech nejvíce překrývají s lidským základem. Pokud váš pracovní postup cílí na některý z těchto modelů, očekávejte snížený recall při výchozím prahu a zvažte snížení na F1-optimální pro vysoce citlivý screening.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini vykazuje nejproměnlivější detekční výkon napříč verzemi — některá mezilehlá vydání dočasně regredovala, než se dostala zlepšení.
Multimodální trénink Gemini znamená, že text-only výstupy někdy nesou vestigiální vzorce z domén obrazových popisků nebo vysvětlení kódu. Náš detektor toto zachytí, což vysvětluje Gemini mírně vyšší detekovatelnost u smíšeně doménových výzev než u čisté prózy.
Pro uživatele Google Workspace, jejichž studenti nebo zaměstnanci používají Gemini prostřednictvím Dokumentů, je detekční signál podobný surovému API výstupu. Nepozorovali jsme specifické vzorce úniku integrace workspace odlišné od přímého použití Gemini API.
Vložte výstup z libovolného LLM a prohlédněte si verdikt pro každou větu. Náš detektor zachází se všemi 22 rodinami modelů jako s jednou ensemble kontrolou.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Open-weights modely pokrývají širší rozsah než uzavřené — varianty doladění, kvantizované nasazení a komunitně modifikované checkpointy všechny produkují mírně odlišné výstupy.
Detekce u open-weights je strategicky důležitá, protože humanizační nástroje jsou obvykle postaveny na open-weights modelech — deriváty Llama a Mistral běží lokálně za nízké náklady, a proto služby parafrázování a přenosu stylu na nich staví cenu. Pokud vás zajímá humanizovaná AI, v konečném důsledku se bráníte vůči generování rodiny Llama.
DeepSeek R1 a o3-mini (uvažovací model OpenAI) si zaslouží samostatnou zmínku. Oba produkují text s artefakty řetězce uvažování — explicitní krok za krokem logika viditelná ve výstupu — kterou se náš detektor naučil rozpoznávat. Uvažovací modely jsou v současné době snadněji detekovatelné než jejich základní chatovací protějšky z tohoto důvodu.
Pokud vybíráte model pro psaní a detekce není vaším problémem, Claude 4.5 Sonnet a GPT-5 jsou nejobtížněji detekovatelné. Pokud budujete detekční pracovní postup, prioritizujte modely, které skutečně vidíte: většina akademického zneužívání stále běží na GPT-4/5 prostřednictvím bezplatných rozhraní; většina content farmingu běží na humanizérech odvozených od Llama.
Jediný detektor trénovaný na jediné rodině modelů bude fungovat nejhůře na ostatních. Náš ensemble přístup trénuje na vzorcích ze všech 22 generátorů, a to je důvod, proč AUC pro jednotlivé modely u obtížných případů (Claude 4.5, GPT-5) je stále nad 0,90, zatímco jakýkoli detektor trénovaný na jediném modelu by klesl pod 0,80.
Základní trend: obtížnost detekce roste rychleji než kadence vydávání generátorů. Každá nová vlajková loď je obtížněji detekovatelná než předchozí, přetrénování mezeru uzavírá, ale ne úplně. Očekávejte, že základní AUC v letech 2026–2027 bude nižší u frontierních modelů a přibližně konstantní u starších modelů.
AUC čísla pro jednotlivé modely jsou odvozena z naší interní validace a nemusí se generalizovat. Obtížnost každého modelu se časem mění, jak se vyvíjí generátor i náš trénovací korpus. Aktuální data odrážejí benchmark běh 2026-04.