Detekcia a generovanie sú uzamknuté v závode medzi mačkou a myšou. Každé nové vydanie modelu zužuje štatistickú medzeru, na ktorú sa detektory spoliehajú — a každé zlepšenie detekcie je zodpovedané novým nástrojom humanizácie. Tu je to, čo sa skutočne deje v zákulisí.
Každý detektor textu AI je v konečnom dôsledku štatistický diskriminátor — pozrie sa na vlastnosti textu (pravdepodobnosti tokenov, perplexita, roztrieštenosť, syntaktická pravidelnosť) a snaží sa nájsť signály, ktoré odlíšia obsah generovaný strojom od obsahu napísaného ľuďmi. Metóda Binoculars (ICML 2024) používa ako signál pomer krížovej perplexity medzi dvoma jazykovými modelmi. Dozorovaný prístup ModernBERT sa učí signál priamo z označených príkladov.
Oba prístupy zdieľajú zásadnú zraniteľnosť: signály, na ktoré sa spoliehajú, sú vedľajšími efektmi spôsobu, akým modely generujú text, nie zásadnými vlastnosťami strojom písaného textu. S tým, ako sa generátory zdokonaľujú, tieto vedľajšie efekty slabnú. Model trénovaný na to, aby písal viac ako ľudia, bude — zo definície — ťažšie detekovateľný.
Toto nie je zlyhanie výskumu. Je to štrukturálna skutočnosť o probléme. Detekcia operuje na pohybujúcom sa cieli: každé veľké vydanie LLM zužuje medzeru, každý nástroj na humanizáciu explicitne trénuje proti výstupom detektorov. Otázka nie je ‘môžeme dosiahnuť 100 % detekciu navždy’ — to nemôže byť urobené — ale ‘môžeme zostať pred súčasnou generáciou dostatočne dlho, aby sme boli v praxi užitoční.’
Tri trendy generovania sťažujú detekciu. Veľkosť: väčšie modely produkujú štatisticky rozmanitejší text, pretože majú bohatšie vnútorné distribúcie. Model so 70 miliardami parametrov má širší rozsah ľudsky podobného výstupu ako model so 7 miliardami parametrov. Inštrukčné doladenie: RLHF a konštitucionálne metódy učia modely vyhýbať sa repetitívnym, obozretným, nenápadným vzorom, vďaka ktorým bol GPT-3 ľahko rozpoznateľný. Teplota a vzorkovanie: chatové rozhrania sa posunuli k núcleovému vzorkovaniu a náhodnosti, čo narúša niektoré vzory s nízkym rozptylom, ktoré klasické detektory používali ako kotvy.
GPT-5, Claude 4.5 a Gemini 2.5 sú všetky výrazne ťažšie detekovateľné ako ich predchodcovia. Naša interná validácia to potvrdzuje: každá generácia modelu znižuje naše AUC pre danú rodinu o 5–10 percentuálnych bodov v porovnaní s predchádzajúcou generáciou. Pozrite si náš benchmark presnosti pre čísla za každý model.
Nástroje na humanizáciu — Undetectable AI, StealthWriter, Humanbeing a rastúci zoznam — sú explicitnými protivníkmi. Berú výstup AI a preformulujú, prepíšu alebo prenášajú štýl konkrétne s cieľom poraziť detektory. Sú trénované proti verejným detektorom (vrátane nášho, aj keď nikdy nezdieľame váhy nášho modelu) a s každou aktualizáciou sa merateľne zlepšujú.
Detektory majú tri odpovede na preteky v zbrojení generovania. Ansambling: kombinácia viacerých detekčných signálov tak, aby žiadna jednotlivá taktika vyhnutia nebola dostatočná. Náš súbor detektorov zero-shot Binoculars so dozorovaným ModernBERT to využíva: humanizátor, ktorý porazí jednu zložku, často zlyhá voči druhej a skóre súboru zachytí obe.
Nepretržité pretrénovanie: vzorky z každého veľkého nového vydania generátora pridávame do 4 týždňov od spustenia. Ak GPT-6 vyjde zajtra, náš trénovací korpus ho bude obsahovať do polovice budúceho mesiaca. Je to nákladné — výpočty, anotácia, revalidácia — ale je to jediný spôsob, ako udržať detekciu aktuálnou. Detektory, ktoré sa pretrénujú raz ročne alebo menej, sú v podstate muzejnými exponátmi do roka.
Adversariálne trénovanie: zámerne trénujeme na humanizovaných vzorkách AI a preformulovaných výstupoch, čím učíme model prehliadať povrchovú zmenu štýlu. Tým sa zvyšuje minimálna požiadavka na to, čo musí humanizátor urobiť, aby nám unikol, čo zase spomaľuje preteky v zbrojení.
Ako vlastne fungujú nástroje na humanizáciu? Tri široké kategórie. Preformulovanie: prepísanie textu slovo po slove alebo vetu po vete pomocou sekundárneho LLM. Účinné voči naivným detektorom, ktoré sa spoliehajú na presné sekvencie tokenov; mierne účinné voči štatistickým metódam. Prenos štýlu: transformácia textu napodobňujúca konkrétneho autora alebo register. Účinnejší — AUC nášho detektora klesá asi o 8 bodov na texte AI prenesenom v štýle.
Hybridná ľudsko-AI editácia: autor napíše koncept, pretočí ho cez LLM na leštenie, potom manuálne upraví vybrúsenú verziu. Toto je najťažší prípad — legitímna spolupráca kombinujúca ľudské a strojové signály na úrovni vety. Žiadny detektor, vrátane nášho, nedokáže spoľahlivo riešiť tieto prípady bez metadát histórie úprav, ktoré detektor nemôže vidieť.
Užitočný mentálny model: humanizátor nie je rozbitie detektora, je to multiplikátor nákladov pre toho, kto sa vyhýba. Trvá to čas, niekedy peniaze a vždy pridáva riziko zavedenia chýb. Väčšina pokusov o akademické podvádzanie nepoužíva humanizátory, pretože trenie prevažuje nad výhodou. Kde humanizátory dominujú, je profesionálne obsahové farmaree a AI-generovaný SEO spam — prípady použitia, kde záleží na priepustnosti a kontrola kvality je slabá.
Vložte ľubovoľný dokument a sledujte verdikt pre každú vetu v reálnom čase. Logika ansámblu opísaná vyššie prebehne na vašom texte za menej ako 30 sekúnd.
Detektor s jedným signálom má jeden chybový režim. Ak sa spoliehate iba na perplexitu, preformulovaný výstup so zmenenými pravdepodobnosťami tokenov vás porazí. Ak sa spoliehate iba na dozorovaný klasifikátor, text mimo distribúcie (nová rodina modelov, nová doména písania) vás porazí. Súbor priemeryje slabiny: preformulovanie, ktoré porazí perplexitu, pravdepodobne stále spustí dozorovanú hlavu, a naopak.
Náš produkčný detektor je explicitne ansámblovaný: 35 % Binoculars (zero-shot, model-agnostický, robustný voči textu mimo distribúcie) + 65 % ModernBERT (dozorovaný, doménovo špecifický, vysoká presnosť na texte v distribúcii). Váhy boli vybrané empiricky — AUC súboru bola maximalizovaná, keď ModernBERT dominoval, ale Binoculars si zachoval právo veta na hraničné prípady.
Dôsledok: nástroj na humanizáciu teraz musí súčasne poraziť dve podstatne odlišné detekčné architektúry, aby unikol nášmu verdiktu. Verejné humanizátory sú typicky trénované voči jednému cieľovému detektoru, čo znamená, že často uspejú voči tomuto konkrétnemu detektoru, ale zlyhajú voči ansámblu. Toto je primárna štrukturálna výhoda detekcie v súčasných pretekoch v zbrojení.
Čo môžeme čakať v rokoch 2026–2027? GPT-6 a Claude 5 sú pravdepodobne vydania v polovici roka; oba ďalej zúžia medzeru. Modely s otvorenou váhou — Llama 4, Qwen 4 — budú naďalej komodifikovať vysokokvalitné generovanie a zlevniť humanizátory. AUC detekcie frontierových modelov pravdepodobne klesne do pásma 0,80–0,90 prvý rok po vydaní, kým pretrénovanie to neopraví.
Na strane obrany: multimodálne signály (dynamika písania, história úprav, overenie autorstva voči známemu korpusu) budú pravdepodobne dôležitejšie ako čistá textová detekcia do 24 mesiacov. Náš textový detektor zostane prvým filtrom, ale bude čoraz viac hlasujúcim členom v bohatšom súbore dôkazov.
Poctivý záver: čistá textová detekcia nikdy nedosiahne 100 %. Ustálí sa niekde okolo 90–95 % AUC na texte v distribúcii a 75–85 % na frontierových modeloch. Ak váš pracovný tok vyžaduje istotu, potrebujete dôkazy nad rámec skóre. Ak váš pracovný tok vyžaduje silný signál na uprednostnenie ľudskej kontroly, textová detekcia zostáva užitočná a merateľne lepšia ako nič nerobiť.
Tento článok opisuje štrukturálne vlastnosti detekcie textu AI. Konkrétne čísla sa vzťahujú na našu internú validáciu a nemusia sa zovšeobecniť. Túto stránku aktualizujeme so zohľadnením nového výskumu a vydaní generátorov.