Domov › Proč je detekce AI textu obtížná: Závod ve zbrojení mezi útokem a obranou | Detektor plagiátů

Proč je detekce AI textu obtížná: Uvnitř závodu ve zbrojení

Detekce a generování jsou uzamčeny v hře na kočku a myš. Každé nové vydání modelu zmenšuje statistickou mezeru, na které detektory závisí — a každé zlepšení detekce je zodpovězeno novým nástrojem humanizéru. Zde je, co se skutečně děje pod pokličkou.

2026-04-17 · Plagiarism Detector Team

Statistická základna detekce

Každý detektor AI textu je v podstatě statistický diskriminátor — zkoumá vlastnosti textu (pravděpodobnosti tokenů, perplexitu, burstiness, syntaktickou pravidelnost) a snaží se najít signály, které odliší strojově generovaný obsah od lidsky psaného. Metoda Binoculars (ICML 2024) používá jako svůj signál poměr křížové perplexity mezi dvěma jazykovými modely. Dohlížený přístup ModernBERT se naučí signál přímo ze označených příkladů.

Oba přístupy sdílejí základní zranitelnost: signály, na které se spoléhají, jsou vedlejšími účinky způsobu generování textu modely, nikoli základními vlastnostmi strojově psaného textu. Jak se generátory zlepšují, tyto vedlejší účinky se zmenšují. Model trénovaný na psaní více jako člověk bude — ze své podstaty — obtížněji detekovatelný.

To není výzkumné selhání. Je to strukturální fakt o problému. Detekce operuje na pohyblivém cíli: každé velké vydání LLM zužuje mezeru, každý humanizační nástroj se explicitně trénuje na výstupech detektoru. Otázka nezní ‘můžeme dosáhnout 100% detekce navždy’ — to nelze — ale ‘dokážeme zůstat před aktuální generací dostatečně dlouho, aby byla detekce v praxi užitečná.’

Co dělá meč — Generování se zlepšuje

Tři trendy generování ztěžují detekci. Velikost: větší modely produkují statisticky různorodější text, protože mají bohatší vnitřní distribuce. Model se 70 miliardami parametrů má širší škálu výstupu podobného lidem než model se 7 miliardami parametrů. Doladění na instrukce: RLHF a konstitutivní metody učí modely vyhýbat se repetitivním, hedgingovým, mdlým vzorcům, které usnadňovaly detekci GPT-3. Teplota a vzorkování: chatovací rozhraní se přesunula k núkleus vzorkování a náhodnosti, které narušují některé vzorce nízké variance, jež klasické detektory používaly jako kotvy.

GPT-5, Claude 4.5 a Gemini 2.5 jsou všechny znatelně obtížněji detekovatelné než jejich předchůdci. Naše interní validace to potvrzuje: každá generace modelu snižuje naše AUC pro danou rodinu o 5–10 procentních bodů ve srovnání s předchozí generací. Konkrétní čísla pro jednotlivé modely naleznete v našem benchmarku přesnosti.

Humanizační nástroje — Undetectable AI, StealthWriter, Humanbeing a rostoucí seznam dalších — jsou explicitními protivníky. Přebírají výstup AI a parafrázují, přepisují nebo přenášejí styl specificky k překonání detektorů. Jsou trénovány na veřejných detektorech (včetně toho našeho, i když nikdy nesdílíme váhy našeho modelu) a s každou aktualizací se měřitelně zlepšují.

Co dělá štít — Detekce reaguje

Detektory mají tři odpovědi na závod ve zbrojení generování. Ensembling: kombinování více detekčních signálů tak, aby jediná taktika úniku nebyla dostatečná. Náš ensemble zero-shot Binoculars s dohlíženým ModernBERT to využívá: humanizér, který překoná jednu složku, často selhává u druhé a skóre ensemblu zachycuje obě.

Průběžné přetrénování: přidáváme vzorky z každého vydání nového hlavního generátoru do 4 týdnů od spuštění. Pokud bude zítra vydán GPT-6, náš trénovací korpus ho bude obsahovat do poloviny příštího měsíce. To je nákladné — výpočetní výkon, anotace, znovu-validace — ale je to jediný způsob, jak udržet detekci aktuální. Detektory, které se přetrénují ročně nebo méně, jsou ve svém oboru efektivně muzejními exponáty do roka.

Adversariální trénink: záměrně trénujeme na humanizovaných vzorcích AI a parafrázovaných výstupech, čímž učíme model vidět skrze povrchový přenos stylu. Tím se zvyšuje spodní hranice toho, co musí humanizér udělat, aby nás obešel, čímž se závod ve zbrojení zpomaluje.

Uvnitř krajiny úniku

Jak humanizační nástroje vlastně fungují? Tři široké kategorie. Parafrázování: přepisování textu slovo po slově nebo větu po větě pomocí sekundárního LLM. Efektivní proti naivním detektorům, které se spoléhají na přesné sekvence tokenů; středně efektivní proti statistickým metodám. Přenos stylu: transformace textu k napodobení konkrétního autora nebo rejstříku. Efektivnější — AUC našeho detektoru klesá o ~8 bodů na AI textu s přenosem stylu.

Hybridní lidsko-AI editace: autor napíše návrh, projede ho LLM k leštění a pak ručně edituje vyleštěnou verzi. Toto je nejobtížnější případ — legitimně spolupracovní práce, která mísí lidské a strojové signály na úrovni věty. Žádný detektor, včetně toho našeho, nedokáže tyto případy spolehlivě vyřešit bez metadat historie úprav, která detektor nemůže vidět.

Užitečný mentální model: humanizér není ničitel detektoru, je to násobič nákladů pro toho, kdo se snaží uniknout. Zabere čas, někdy peníze a vždy přidává riziko zavedení chyb. Většina akademických pokusů o podvádění nepoužívá humanizéry, protože tření převažuje nad přínosem. Kde dominují humanizéry, je profesionální content farmaření a AI generovaný SEO spam — případy použití, kde záleží na propustnosti a kontrola kvality je slabá.

Sledujte, jak náš detektor boduje právě teď

Vložte libovolný dokument a sledujte verdikt pro každou větu v reálném čase. Logika ensemblu popsaná výše běží na vašem textu za méně než 30 sekund.

Proč je ensembling důležitější než jakákoli jednotlivá metrika

Detektor s jediným signálem má jediný způsob selhání. Pokud se spoléháte pouze na perplexitu, parafrázovaný výstup se změněnými pravděpodobnostmi tokenů vás porazí. Pokud se spoléháte pouze na dohlíženého klasifikátora, text mimo distribuci (nová rodina modelů, nová psací doména) vás porazí. Ensemble průměruje slabiny: parafráze, která porazí perplexitu, pravděpodobně stále zasáhne dohlíženou hlavu, a naopak.

Náš produkční detektor je explicitně ensemblovaný: 35 % Binoculars (zero-shot, model-agnostický, robustní vůči textu mimo distribuci) + 65 % ModernBERT (dohlížený, doménově specifický, vysoká přesnost na textu v distribuci). Váhy byly zvoleny empiricky — AUC ensemblu bylo maximalizováno, když dominoval ModernBERT, ale Binoculars si zachoval právo veta na okrajové případy.

Důsledek: humanizační nástroj nyní musí překonat dvě zásadně odlišné detekční architektury současně, aby se vyhnul našemu verdiktu. Veřejné humanizéry jsou typicky trénovány na jediný cílový detektor, což znamená, že často uspějí proti tomuto konkrétnímu detektoru, ale selžou proti ensemblu. To je primární strukturální výhoda detekce v současném závodě ve zbrojení.

Realistická očekávání pro příštích 12 měsíců

Co bychom měli očekávat v letech 2026–2027? GPT-6 a Claude 5 jsou pravděpodobná vydání v polovině roku; obě dále zúží mezeru. Open-weights modely — Llama 4, Qwen 4 — budou nadále komoditizovat vysoce kvalitní generování a zlevňovat humanizéry pro škálování. AUC detekce na frontierních modelech pravděpodobně klesne do pásma 0,80–0,90 v prvním roce po vydání, než přetrénování to napraví.

Na straně obrany: multimodální signály (dynamika psaní, historie úprav, ověření autorství oproti známému korpusu) budou pravděpodobně důležitější než čistě textová detekce do 24 měsíců. Náš textový detektor zůstane prvním filtrem, ale bude stále více hlasujícím členem v bohatším důkazním zásobníku.

Poctivý závěr: čistě textová detekce nikdy nedosáhne 100 %. Ustálí se někde kolem 90–95 % AUC na textu v distribuci a 75–85 % na frontierních modelech. Pokud váš pracovní postup vyžaduje jistotu, potřebujete důkazy nad rámec skóre. Pokud váš pracovní postup vyžaduje silný signál pro prioritizaci lidské kontroly, textová detekce zůstává užitečná a měřitelně lepší než nedělat nic.

Často kladené otázky

Pokud detekce AI nikdy nebude dokonalá, má vůbec smysl ji používat?

Ano — otázka nezní ‘je dokonalá’, ale ‘je lepší než vůbec nescreening.’ Detektor s AUC 90 % na vaší pracovní zátěži je masivní zlepšení poměru signálu k šumu. Lidé, kteří nejvíce hlasitě mluvili o omezeních detektorů, jsou často ti, kteří se je pokoušejí porazit; to není argument pro opuštění nástroje.

Může vodoznačení nahradit statistickou detekci?

Vodoznačení vkládá skrytý statistický podpis do generovaného textu, který může detektor later načíst. Funguje, když generátory spolupracují (OpenAI ho experimentálně nasadil), ale zcela selhává u open-weights modelů, které generují bez vodoznaků. Statistická detekce zůstane nezbytná v dohledné budoucnosti, protože funguje i tehdy, kdy generátor odmítá spolupracovat.

Co je dnes jediná nejobtížněji detekovatelná věc?

Hybridní lidsko-AI editace — fragment textu vypracovaný AI a vypolštovaný člověkem na úrovni věty. Žádný současný detektor tyto případy spolehlivě nevyřeší bez přístupu k metadatům historie úprav. Pokud to je váš případ použití, textová detekce je nesprávný nástroj — potřebujete instrumentaci pracovního postupu.

Jak často nový generátor skutečně snižuje vaše AUC?

Každé velké vydání, přibližně každé 3–6 měsíců, snižuje AUC pro danou rodinu o 5–10 procentních bodů, dokud nepřetrénujeme. Přetrénování trvá asi 4 týdny poté, co máme dostatečný počet vzorků. Praktický výsledek: vždy existuje okno 2–8 týdnů po novém vydání, kde je naše AUC pro danou rodinu nižší než průměr. Tyto mezery zveřejňujeme na stránce benchmarku.

Pomáhá ensembling proti humanizérům?

Podstatně — je to primární strukturální obrana, kterou máme. Humanizéry se trénují na cílový detektor. Když je tímto cílem ensemble dvou architektonicky odlišných detektorů, musí humanizér překonat oba současně, což je smysluplně obtížnější než překonat každý samostatně. Proto používáme ensemble v produkci, i když by bylo levnější provozovat jednu složku.

Tento článek popisuje strukturální vlastnosti detekce AI textu. Konkrétní čísla se vztahují na naši interní validaci a nemusí se generalizovat. Stránku aktualizujeme při vydání nového výzkumu a nových generátorů.