Domov › Prečo je detekcia textu AI ťažká: Preteky v zbrojení útok-obrana | Detektor plagiátov

Prečo je detekcia textu AI ťažká: Za pretekmi v zbrojení

Detekcia a generovanie sú uzamknuté v závode medzi mačkou a myšou. Každé nové vydanie modelu zužuje štatistickú medzeru, na ktorú sa detektory spoliehajú — a každé zlepšenie detekcie je zodpovedané novým nástrojom humanizácie. Tu je to, čo sa skutočne deje v zákulisí.

2026-04-17 · Plagiarism Detector Team

Štatistický základ detekcie

Každý detektor textu AI je v konečnom dôsledku štatistický diskriminátor — pozrie sa na vlastnosti textu (pravdepodobnosti tokenov, perplexita, roztrieštenosť, syntaktická pravidelnosť) a snaží sa nájsť signály, ktoré odlíšia obsah generovaný strojom od obsahu napísaného ľuďmi. Metóda Binoculars (ICML 2024) používa ako signál pomer krížovej perplexity medzi dvoma jazykovými modelmi. Dozorovaný prístup ModernBERT sa učí signál priamo z označených príkladov.

Oba prístupy zdieľajú zásadnú zraniteľnosť: signály, na ktoré sa spoliehajú, sú vedľajšími efektmi spôsobu, akým modely generujú text, nie zásadnými vlastnosťami strojom písaného textu. S tým, ako sa generátory zdokonaľujú, tieto vedľajšie efekty slabnú. Model trénovaný na to, aby písal viac ako ľudia, bude — zo definície — ťažšie detekovateľný.

Toto nie je zlyhanie výskumu. Je to štrukturálna skutočnosť o probléme. Detekcia operuje na pohybujúcom sa cieli: každé veľké vydanie LLM zužuje medzeru, každý nástroj na humanizáciu explicitne trénuje proti výstupom detektorov. Otázka nie je ‘môžeme dosiahnuť 100 % detekciu navždy’ — to nemôže byť urobené — ale ‘môžeme zostať pred súčasnou generáciou dostatočne dlho, aby sme boli v praxi užitoční.’

Čo robí meč — generovanie sa zlepšuje

Tri trendy generovania sťažujú detekciu. Veľkosť: väčšie modely produkujú štatisticky rozmanitejší text, pretože majú bohatšie vnútorné distribúcie. Model so 70 miliardami parametrov má širší rozsah ľudsky podobného výstupu ako model so 7 miliardami parametrov. Inštrukčné doladenie: RLHF a konštitucionálne metódy učia modely vyhýbať sa repetitívnym, obozretným, nenápadným vzorom, vďaka ktorým bol GPT-3 ľahko rozpoznateľný. Teplota a vzorkovanie: chatové rozhrania sa posunuli k núcleovému vzorkovaniu a náhodnosti, čo narúša niektoré vzory s nízkym rozptylom, ktoré klasické detektory používali ako kotvy.

GPT-5, Claude 4.5 a Gemini 2.5 sú všetky výrazne ťažšie detekovateľné ako ich predchodcovia. Naša interná validácia to potvrdzuje: každá generácia modelu znižuje naše AUC pre danú rodinu o 5–10 percentuálnych bodov v porovnaní s predchádzajúcou generáciou. Pozrite si náš benchmark presnosti pre čísla za každý model.

Nástroje na humanizáciu — Undetectable AI, StealthWriter, Humanbeing a rastúci zoznam — sú explicitnými protivníkmi. Berú výstup AI a preformulujú, prepíšu alebo prenášajú štýl konkrétne s cieľom poraziť detektory. Sú trénované proti verejným detektorom (vrátane nášho, aj keď nikdy nezdieľame váhy nášho modelu) a s každou aktualizáciou sa merateľne zlepšujú.

Čo robí štít — detekcia reaguje

Detektory majú tri odpovede na preteky v zbrojení generovania. Ansambling: kombinácia viacerých detekčných signálov tak, aby žiadna jednotlivá taktika vyhnutia nebola dostatočná. Náš súbor detektorov zero-shot Binoculars so dozorovaným ModernBERT to využíva: humanizátor, ktorý porazí jednu zložku, často zlyhá voči druhej a skóre súboru zachytí obe.

Nepretržité pretrénovanie: vzorky z každého veľkého nového vydania generátora pridávame do 4 týždňov od spustenia. Ak GPT-6 vyjde zajtra, náš trénovací korpus ho bude obsahovať do polovice budúceho mesiaca. Je to nákladné — výpočty, anotácia, revalidácia — ale je to jediný spôsob, ako udržať detekciu aktuálnou. Detektory, ktoré sa pretrénujú raz ročne alebo menej, sú v podstate muzejnými exponátmi do roka.

Adversariálne trénovanie: zámerne trénujeme na humanizovaných vzorkách AI a preformulovaných výstupoch, čím učíme model prehliadať povrchovú zmenu štýlu. Tým sa zvyšuje minimálna požiadavka na to, čo musí humanizátor urobiť, aby nám unikol, čo zase spomaľuje preteky v zbrojení.

Vnútri krajiny vyhýbania sa

Ako vlastne fungujú nástroje na humanizáciu? Tri široké kategórie. Preformulovanie: prepísanie textu slovo po slove alebo vetu po vete pomocou sekundárneho LLM. Účinné voči naivným detektorom, ktoré sa spoliehajú na presné sekvencie tokenov; mierne účinné voči štatistickým metódam. Prenos štýlu: transformácia textu napodobňujúca konkrétneho autora alebo register. Účinnejší — AUC nášho detektora klesá asi o 8 bodov na texte AI prenesenom v štýle.

Hybridná ľudsko-AI editácia: autor napíše koncept, pretočí ho cez LLM na leštenie, potom manuálne upraví vybrúsenú verziu. Toto je najťažší prípad — legitímna spolupráca kombinujúca ľudské a strojové signály na úrovni vety. Žiadny detektor, vrátane nášho, nedokáže spoľahlivo riešiť tieto prípady bez metadát histórie úprav, ktoré detektor nemôže vidieť.

Užitočný mentálny model: humanizátor nie je rozbitie detektora, je to multiplikátor nákladov pre toho, kto sa vyhýba. Trvá to čas, niekedy peniaze a vždy pridáva riziko zavedenia chýb. Väčšina pokusov o akademické podvádzanie nepoužíva humanizátory, pretože trenie prevažuje nad výhodou. Kde humanizátory dominujú, je profesionálne obsahové farmaree a AI-generovaný SEO spam — prípady použitia, kde záleží na priepustnosti a kontrola kvality je slabá.

Pozrite si, ako náš detektor skóruje práve teraz

Vložte ľubovoľný dokument a sledujte verdikt pre každú vetu v reálnom čase. Logika ansámblu opísaná vyššie prebehne na vašom texte za menej ako 30 sekúnd.

Prečo je ansambling dôležitejší ako akákoľvek jednotlivá metrika

Detektor s jedným signálom má jeden chybový režim. Ak sa spoliehate iba na perplexitu, preformulovaný výstup so zmenenými pravdepodobnosťami tokenov vás porazí. Ak sa spoliehate iba na dozorovaný klasifikátor, text mimo distribúcie (nová rodina modelov, nová doména písania) vás porazí. Súbor priemeryje slabiny: preformulovanie, ktoré porazí perplexitu, pravdepodobne stále spustí dozorovanú hlavu, a naopak.

Náš produkčný detektor je explicitne ansámblovaný: 35 % Binoculars (zero-shot, model-agnostický, robustný voči textu mimo distribúcie) + 65 % ModernBERT (dozorovaný, doménovo špecifický, vysoká presnosť na texte v distribúcii). Váhy boli vybrané empiricky — AUC súboru bola maximalizovaná, keď ModernBERT dominoval, ale Binoculars si zachoval právo veta na hraničné prípady.

Dôsledok: nástroj na humanizáciu teraz musí súčasne poraziť dve podstatne odlišné detekčné architektúry, aby unikol nášmu verdiktu. Verejné humanizátory sú typicky trénované voči jednému cieľovému detektoru, čo znamená, že často uspejú voči tomuto konkrétnemu detektoru, ale zlyhajú voči ansámblu. Toto je primárna štrukturálna výhoda detekcie v súčasných pretekoch v zbrojení.

Realistické očakávania na nasledujúcich 12 mesiacov

Čo môžeme čakať v rokoch 2026–2027? GPT-6 a Claude 5 sú pravdepodobne vydania v polovici roka; oba ďalej zúžia medzeru. Modely s otvorenou váhou — Llama 4, Qwen 4 — budú naďalej komodifikovať vysokokvalitné generovanie a zlevniť humanizátory. AUC detekcie frontierových modelov pravdepodobne klesne do pásma 0,80–0,90 prvý rok po vydaní, kým pretrénovanie to neopraví.

Na strane obrany: multimodálne signály (dynamika písania, história úprav, overenie autorstva voči známemu korpusu) budú pravdepodobne dôležitejšie ako čistá textová detekcia do 24 mesiacov. Náš textový detektor zostane prvým filtrom, ale bude čoraz viac hlasujúcim členom v bohatšom súbore dôkazov.

Poctivý záver: čistá textová detekcia nikdy nedosiahne 100 %. Ustálí sa niekde okolo 90–95 % AUC na texte v distribúcii a 75–85 % na frontierových modeloch. Ak váš pracovný tok vyžaduje istotu, potrebujete dôkazy nad rámec skóre. Ak váš pracovný tok vyžaduje silný signál na uprednostnenie ľudskej kontroly, textová detekcia zostáva užitočná a merateľne lepšia ako nič nerobiť.

Často kladené otázky

Ak detekcia AI nikdy nebude dokonalá, oplatí sa vôbec používať?

Áno — otázka nie je ‘je dokonalá’, ale ‘je lepšia ako vôbec nesieťovať’. Detektor s AUC 90 % na vašom pracovnom zaťažení je obrovské zlepšenie pomeru signálu k šumu. Ľudia, ktorí sú najhlasnejšie o obmedzeniach detektora, sú často tí, ktorí sa ho snažia poraziť; to nie je argument pre opustenie nástroja.

Môže vodoznak nahradiť štatistickú detekciu?

Vodoznak vkladá skrytý štatistický podpis do generovaného textu, ktorý detektor môže neskôr získať. Funguje, keď generátory spolupracujú (OpenAI ho experimentálne nasadil), ale úplne zlyháva na modeloch s otvorenou váhou, ktoré generujú bez vodoznakov. Štatistická detekcia zostane v dohľadnej budúcnosti nevyhnutná, pretože funguje aj vtedy, keď generátor odmieta spolupracovať.

Čo je dnes jediná najťažšie detekovateľná vec?

Hybridná ľudsko-AI editácia — fragment textu navrhnutý AI a vybrúsený ľuďmi na úrovni vety. Žiadny súčasný detektor tieto prípady spoľahlivo nerieši bez prístupu k metadátam histórie úprav. Ak je to váš prípad použitia, textová detekcia je nesprávny nástroj — potrebujete inštrumentáciu pracovného toku.

Ako často nové vydanie generátora skutočne zníži vaše AUC?

Každé veľké vydanie, zhruba každých 3–6 mesiacov, znižuje AUC pre danú rodinu o 5–10 percentuálnych bodov, kým sa nepretrénovanie. Pretrénovanie trvá asi 4 týždne po tom, ako máme dostatok vzoriek. Praktický výsledok: vždy existuje okno 2–8 týždňov po novom spustení, kde je naše AUC pre danú rodinu nižšie ako priemer. Tieto medzery zverejňujeme na stránke s benchmarkami.

Pomáha ansambling proti humanizátorom?

Podstatne — je to primárna štrukturálna obrana, ktorú máme. Humanizátory trénujú voči cieľovému detektoru. Keď je týmto cieľom súbor dvoch architektonicky odlišných detektorov, humanizátor musí súčasne poraziť oba, čo je zmysluplne ťažšie ako poraziť ktorýkoľvek z nich sám. Preto používame v produkcii ansámbel, aj keď by bola jedna zložka lacnejšia na prevádzku.

Tento článok opisuje štrukturálne vlastnosti detekcie textu AI. Konkrétne čísla sa vzťahujú na našu internú validáciu a nemusia sa zovšeobecniť. Túto stránku aktualizujeme so zohľadnením nového výskumu a vydaní generátorov.