Domov › Který AI je nejobtížněji detekovatelný? GPT vs Claude vs Gemini | Detektor plagiátů

Který AI je nejobtížněji detekovatelný? GPT vs Claude vs Gemini vs Llama

Ne všechny AI texty jsou stejně detekovatelné. Zde jsou výsledky našeho benchmarku pro jednotlivé generátory — které rodiny modelů náš detektor zachytí s téměř dokonalou přesností, se kterými má problémy a co nám to říká o výběru detekčního pracovního postupu.

2026-04-17 · Plagiarism Detector Team

Krátká odpověď — žebříček

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Seřazeno od nejsnadněji po nejobtížněji detekovatelné na naší validační sadě. Rozdíl je velký — AUC u některých rodin modelů překračuje 0,99, zatímco u jiných klesá do 0,80. Obtížnost detekce koreluje s velikostí modelu, sofistikovaností doladění na instrukce a rozptylem výstupu.

Úplnou metodologii analýzy pro jednotlivé generátory naleznete na naší stránce benchmarku přesnosti. Tento článek shrnuje praktické důsledky těchto dat pro uživatele vybírající, kterému detektoru důvěřovat a který model použít.

Rodina OpenAI — GPT

GPT-3.5 je nejsnadněji detekovatelný moderní model — AUC [AUC: ?] na naší sadě. Artefakty starší generace (opakování, hedging, mdlý rejstřík) zůstávají jasně přítomné. GPT-4 klesá na AUC [AUC: ?], GPT-4o na [AUC: ?], odrážející postupně lepší kalibraci. GPT-5.x je nejjobtížnější v rodině — AUC [AUC: ?] — protože tým doladění na instrukce explicitně cílil na odstranění artefaktů detekce.

Praktický důsledek: akademické pracovní postupy zabývající se podváděním v éře GPT-3.5 se mohou silně spoléhat na samotnou detekci. Pracovní postupy zaměřené na GPT-5 musí párovat detekci s kontextovými důkazy, jak je popsáno v našem průvodci pracovním postupem pro učitele.

Nastavení teploty záleží. Výstupy při nízké teplotě (t≤0.5) jsou snadněji detekovatelné, protože koncentrují hmotnost pravděpodobnosti na užší slovník. Většina chatovacích rozhraní je výchozí na t≈0.7, což umísťuje text do středně detekovatelné zóny. Adversariální uživatelé explicitně zvyšují teplotu nebo používají různorodé dekódování k rozšíření rozsahu a vyvarování se detekci — náš ensemble to částečně opravuje, ale ne zcela.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Rodina Claude konzistentně produkuje méně repetitivní, stylisticky rozmanitější text než modely GPT stejné generace, což ztěžuje detekci statistickými metodami.

Konstitutivní AI trénink Clauda specificky cílí na “strojové znaky”, které se naučí náš dohlížený klasifikátor — vzorce hedgingu, nadměrné používání specifických konektivů, předvídatelná struktura odstavců. Jedná se o přímý adversariální vztah: generátor je trénován na vlastnosti, na které se spoléhá detektor.

Claude 4.5 Sonnet a GPT-5.x jsou si v obtížnosti blízké. Jejich distribuce skóre se ve validačních datech nejvíce překrývají s lidským základem. Pokud váš pracovní postup cílí na některý z těchto modelů, očekávejte snížený recall při výchozím prahu a zvažte snížení na F1-optimální pro vysoce citlivý screening.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini vykazuje nejproměnlivější detekční výkon napříč verzemi — některá mezilehlá vydání dočasně regredovala, než se dostala zlepšení.

Multimodální trénink Gemini znamená, že text-only výstupy někdy nesou vestigiální vzorce z domén obrazových popisků nebo vysvětlení kódu. Náš detektor toto zachytí, což vysvětluje Gemini mírně vyšší detekovatelnost u smíšeně doménových výzev než u čisté prózy.

Pro uživatele Google Workspace, jejichž studenti nebo zaměstnanci používají Gemini prostřednictvím Dokumentů, je detekční signál podobný surovému API výstupu. Nepozorovali jsme specifické vzorce úniku integrace workspace odlišné od přímého použití Gemini API.

Zkontrolujte vzorek z libovolného modelu

Vložte výstup z libovolného LLM a prohlédněte si verdikt pro každou větu. Náš detektor zachází se všemi 22 rodinami modelů jako s jednou ensemble kontrolou.

Meta a open-weights modely

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Open-weights modely pokrývají širší rozsah než uzavřené — varianty doladění, kvantizované nasazení a komunitně modifikované checkpointy všechny produkují mírně odlišné výstupy.

Detekce u open-weights je strategicky důležitá, protože humanizační nástroje jsou obvykle postaveny na open-weights modelech — deriváty Llama a Mistral běží lokálně za nízké náklady, a proto služby parafrázování a přenosu stylu na nich staví cenu. Pokud vás zajímá humanizovaná AI, v konečném důsledku se bráníte vůči generování rodiny Llama.

DeepSeek R1 a o3-mini (uvažovací model OpenAI) si zaslouží samostatnou zmínku. Oba produkují text s artefakty řetězce uvažování — explicitní krok za krokem logika viditelná ve výstupu — kterou se náš detektor naučil rozpoznávat. Uvažovací modely jsou v současné době snadněji detekovatelné než jejich základní chatovací protějšky z tohoto důvodu.

Co tyto rozdíly znamenají pro vás

Pokud vybíráte model pro psaní a detekce není vaším problémem, Claude 4.5 Sonnet a GPT-5 jsou nejobtížněji detekovatelné. Pokud budujete detekční pracovní postup, prioritizujte modely, které skutečně vidíte: většina akademického zneužívání stále běží na GPT-4/5 prostřednictvím bezplatných rozhraní; většina content farmingu běží na humanizérech odvozených od Llama.

Jediný detektor trénovaný na jediné rodině modelů bude fungovat nejhůře na ostatních. Náš ensemble přístup trénuje na vzorcích ze všech 22 generátorů, a to je důvod, proč AUC pro jednotlivé modely u obtížných případů (Claude 4.5, GPT-5) je stále nad 0,90, zatímco jakýkoli detektor trénovaný na jediném modelu by klesl pod 0,80.

Základní trend: obtížnost detekce roste rychleji než kadence vydávání generátorů. Každá nová vlajková loď je obtížněji detekovatelná než předchozí, přetrénování mezeru uzavírá, ale ne úplně. Očekávejte, že základní AUC v letech 2026–2027 bude nižší u frontierních modelů a přibližně konstantní u starších modelů.

Často kladené otázky

Pokud jsou některé modely obtížněji detekovatelné, mám přestat používat detektory úplně?

Ne — dokonce u nejobtížnějších rodin modelů je naše AUC nad 0,85, což je silný signál. Otázka je, jak signál používáte. U obtížně detekovatelných modelů párujte skóre s potvrzujícími důkazy (historie úprav, práce ze třídy, rozhovor se studentem). U snadněji detekovatelných modelů samotné skóre často postačuje.

Který model bych měl použít, pokud chci vyhnout se detekci?

Na tuto otázku přímo neodpovídáme — provozujeme detekční nástroj, nikoli průvodce únikem. Co řekneme: detekovatelný vs. nedetekovatelný není správná osa pro výběr modelu. Kvalita, cena a vhodnost pro daný účel jsou mnohem důležitější než obtížnost detekce. Pokud píšete legitimně s AI asistencí, zveřejnění a transparentní pracovní postup jsou důležitější než skrytí nástroje.

Mají varianty open-weights modelů různé profily detekce?

Ano, a smysluplně tak. Komunitou doladěná varianta Llama 3.3 trénovaná pro specifický styl psaní může produkovat text, který skóruje jinak než standardní Llama 3.3. Náš benchmark pokrývá standardní checkpoint; vlastní doladění mohou být snadněji (pokud zužují výstupní distribuce) nebo obtížněji (pokud explicitně adversariálně trénují vůči detekci) detekovatelné.

Jak teplota a vzorkování ovlivňují detekovatelnost?

Vyšší teplota a různorodější vzorkování obecně snižují detekovatelnost, protože rozšiřují výstupní distribuci. Nejsnadnější k detekci je greedy dekódování při nízké teplotě. Většina produkčních chatovacích rozhraní běží na t≈0,7–1,0 s jaderným vzorkováním, což je umísťuje do středně detekovatelného režimu — náš ensemble funguje podobně v celém výchozím rozsahu.

Kdy dorazí GPT-6 nebo Claude 5 a co mám očekávat?

Polovina roku 2026 je konsensusní prognóza pro oboje. Očekávejte, že AUC detekce nových rodin klesne do rozsahu 0,80–0,85 po dobu prvních 4–8 týdnů po spuštění, zatímco sbíráme vzorky a přetrénováváme. Historické verze naznačují plné zotavení do 8–12 týdnů, pokud je model široce dostupný; déle pro vzácné nebo modely s omezeným přístupem.

AUC čísla pro jednotlivé modely jsou odvozena z naší interní validace a nemusí se generalizovat. Obtížnost každého modelu se časem mění, jak se vyvíjí generátor i náš trénovací korpus. Aktuální data odrážejí benchmark běh 2026-04.