Wykrywanie i generowanie są uwięzione w wyścigu kotka i myszki. Każde nowe wydanie modelu zamyka statystyczną lukę, na której polegają detektory — a każde ulepszenie wykrywania jest odpowiadane przez nowe narzędzie do uczłowieczania. Oto co tak naprawdę dzieje się pod spodem.
Każdy detektor tekstu AI jest ostatecznie statystycznym dyskryminatorem — analizuje cechy tekstu (prawdopodobieństwa tokenów, perpleksję, burstiness, regularność składniową) i próbuje znaleźć sygnały odróżniające treści generowane maszynowo od pisanych przez człowieka. Metoda Binoculars (ICML 2024) używa stosunku wzajemnej perpleksji między dwoma modelami językowymi jako sygnału. Nadzorowane podejście ModernBERT uczy się sygnału bezpośrednio z oznakowanych przykładów.
Oba podejścia mają wspólną fundamentalną podatność: sygnały, na których polegają, są efektami ubocznymi sposobu generowania tekstu przez modele, a nie podstawowymi cechami tekstu pisanego maszynowo. W miarę jak generatory się poprawiają, te efekty uboczne maleją. Model wytrenowany do pisania bardziej jak człowiek będzie — z definicji — trudniejszy do wykrycia.
To nie jest porażka badawcza. To strukturalny fakt dotyczący problemu. Wykrywanie działa na ruchomym celu: każde główne wydanie LLM zawęża lukę, każde narzędzie do uczłowieczania trenuje bezpośrednio przeciwko wyniком detektorów. Pytanie nie brzmi ‘czy możemy osiągnąć 100% wykrywalności na zawsze’ — nie da się tego zrobić — ale ‘czy możemy wyprzedzać obecną generację wystarczająco długo, aby być przydatnymi w praktyce.’
Trzy trendy generacyjne utrudniają wykrywanie. Rozmiar: większe modele produkują statystycznie bardziej zróżnicowany tekst, ponieważ mają bogatsze wewnętrzne rozkłady. Model o 70 miliardach parametrów ma szerszy zakres wyników podobnych do ludzkich niż model o 7 miliardach parametrów. Dostrajanie pod kątem instrukcji: RLHF i metody konstytucyjne uczą modele unikania powtarzających się, zabezpieczających się, banalnych wzorców, które sprawiały, że GPT-3 był łatwy do wykrycia. Temperatura i próbkowanie: interfejsy czatowe przeszły w kierunku próbkowania jądrowego i losowości, co niszczy niektóre wzorce niskiej wariancji, których klasyczne detektory używały jako kotwic.
GPT-5, Claude 4.5 i Gemini 2.5 są wszystkie wyraźnie trudniejsze do wykrycia niż ich poprzednicy. Nasze wewnętrzne wyniki walidacji to potwierdzają: każda generacja modeli obniża nasze AUC dla tej rodziny o 5–10 punktów procentowych w porównaniu do poprzedniej generacji. Zobacz nasz benchmark dokładności, aby uzyskać liczby per-model.
Narzędzia do uczłowieczania — Undetectable AI, StealthWriter, Humanbeing i rosnąca lista innych — to wyraźni przeciwnicy. Biorą wynik AI i parafrazują, przepisują lub transferują jego styl specjalnie po to, aby pokonać detektory. Są trenowane przeciwko publicznym detektorom (w tym naszemu, choć nigdy nie udostępniamy wag naszego modelu) i z każdą aktualizacją stają się mierzalnie lepsze.
Detektory mają trzy odpowiedzi na wyścig zbrojeń generowania. Ensemblowanie: łączenie wielu sygnałów wykrywania, tak że żadna pojedyncza taktyka unikania nie jest wystarczająca. Nasz ensemble zerowego Binoculars z nadzorowanym ModernBERT wykorzystuje to: narzędzie do uczłowieczania, które pokonuje jeden komponent, często zawodzi wobec drugiego, a wynik ensemble przechwytuje oba.
Ciągłe doszkalanie: dodajemy próbki z każdego głównego nowego wydania generatora w ciągu 4 tygodni od premiery. Jeśli GPT-6 wyjdzie jutro, nasz korpus treningowy będzie go zawierał w połowie następnego miesiąca. Jest to kosztowne — obliczenia, adnotacje, ponowna walidacja — ale jest to jedyny sposób na utrzymanie aktualności wykrywania. Detektory, które doszkalają się raz w roku lub rzadziej, są w praktyce muzealicznymi eksponatami w ciągu roku.
Trening adversarialny: celowo trenujemy na uczłowieczonych próbkach AI i parafrazowanych wynikach, ucząc model widzieć ponad powierzchniowym transferem stylu. Podnosi to minimalny poziom tego, co narzędzie do uczłowieczania musi zrobić, aby nas ominąć, co z kolei spowalnia wyścig zbrojeń.
Jak faktycznie działają narzędzia do uczłowieczania? Trzy szerokie kategorie. Parafrazowanie: przepisanie tekstu słowo po słowie lub zdanie po zdaniu przy użyciu wtórnego LLM. Skuteczne przeciwko naiwnym detektorom polegającym na dokładnych sekwencjach tokenów; umiarkowanie skuteczne przeciwko metodom statystycznym. Transfer stylu: transformacja tekstu w celu naśladowania określonego autora lub rejestru. Bardziej skuteczne — AUC naszego detektora spada o ~8 punktów na tekście AI po transferze stylu.
Hybrydowa edycja człowiek-AI: autor pisze szkic, przepuszcza go przez LLM w celu dopracowania, a następnie ręcznie edytuje dopracowaną wersję. To najtrudniejszy przypadek — legalnie wspólna praca łącząca sygnały ludzkie i maszynowe na poziomie zdania. Żaden detektor, w tym nasz, nie może wiarygodnie rozwiązać tych przypadków bez metadanych historii edycji, których detektor nie widzi.
Przydatny model mentalny: narzędzie do uczłowieczania nie jest łamaczem detektora, lecz mnożnikiem kosztu dla osoby unikającej. Wymaga czasu, czasami pieniędzy i zawsze dodaje ryzyko wprowadzenia błędów. Większość akademickich prób oszustwa nie używa narzędzi do uczłowieczania, ponieważ tarcie przeważa nad korzyścią. Tam, gdzie narzędzia do uczłowieczania dominują, to w profesjonalnym content farmingu i spamie SEO generowanym przez AI — przypadki użycia, gdzie przepustowość ma znaczenie i kontrola jakości jest słaba.
Wklej dowolny dokument i obserwuj werdykt per zdanie w czasie rzeczywistym. Logika ensemble opisana powyżej działa na Twoim tekście w mniej niż 30 sekund.
Detektor z pojedynczym sygnałem ma jeden tryb awarii. Jeśli polegasz tylko na perpleksji, sparafrazowany wynik ze zmienionymi prawdopodobieństwami tokenów cię pokona. Jeśli polegasz tylko na nadzorowanym klasyfikatorze, tekst out-of-distribution (nowa rodzina modeli, nowa dziedzina pisania) cię pokona. Ensemble uśrednia słabości: parafraza, która pokonuje perpleksję, prawdopodobnie nadal uruchamia nadzorowaną głowicę, i odwrotnie.
Nasz produkcyjny detektor jest jawnie ensemblowany: 35% Binoculars (zero-shot, niezależny od modelu, odporny na tekst out-of-distribution) + 65% ModernBERT (nadzorowany, specyficzny dla domeny, wysoka precyzja na tekście in-distribution). Wagi zostały dobrane empirycznie — AUC ensemble był maksymalizowany, gdy ModernBERT dominował, ale Binoculars zachowywał prawo weta na przypadkach granicznych.
Konsekwencja: narzędzie do uczłowieczania musi teraz jednocześnie pokonać dwie zasadniczo różne architektury wykrywania, aby ominąć nasz werdykt. Publiczne narzędzia do uczłowieczania są zazwyczaj trenowane przeciwko jednemu docelowemu detektorowi, co oznacza, że często odnoszą sukces przeciwko temu konkretnemu detektorowi, ale zawodzą wobec ensemble. To jest główna strukturalna przewaga wykrywania w obecnym wyścigu zbrojeń.
Czego możemy się spodziewać do 2026–2027? GPT-6 i Claude 5 to prawdopodobnie wydania w połowie roku; oba dalej zawęzą lukę. Modele open-weights — Llama 4, Qwen 4 — będą nadal upowszechniać wysokiej jakości generowanie i sprawiać, że narzędzia do uczłowieczania będą tańsze w użyciu na dużą skalę. AUC wykrywania dla modeli frontier prawdopodobnie spadnie do przedziału 0,80–0,90 przez pierwszy rok po wydaniu, zanim doszkolenie to skoryguje.
Po stronie obrony: sygnały multimodalne (dynamika pisania, historia edycji, weryfikacja autorstwa na tle znanych korpusów) prawdopodobnie nabiorą większego znaczenia niż czyste wykrywanie oparte na tekście w ciągu 24 miesięcy. Nasz detektor tylko tekstowy pozostanie pierwszym filtrem, ale będzie coraz bardziej głosem w bogatszym stosie dowodów.
Szczere podsumowanie: czyste wykrywanie oparte na tekście nigdy nie osiągnie 100%. Zatrzyma się gdzieś około 90–95% AUC na tekście in-distribution i 75–85% na modelach frontier. Jeśli Twój przepływ pracy wymaga pewności, potrzebujesz dowodów poza wynikiem. Jeśli Twój przepływ pracy wymaga silnego sygnału do priorytetyzacji przeglądu przez człowieka, wykrywanie oparte na tekście pozostaje przydatne i mierzalnie lepsze niż nierobienie niczego.
Ten artykuł opisuje strukturalne właściwości wykrywania tekstu AI. Konkretne liczby odnoszą się do naszej wewnętrznej walidacji i mogą nie uogólniać się. Aktualizujemy tę stronę w miarę jak nowe badania i wydania generatorów tego wymagają.