Dom › Dlaczego wykrywanie tekstu AI jest trudne: wyścig zbrojeń atak-obrona | Wykrywacz plagiatów

Dlaczego wykrywanie tekstu AI jest trudne: wewnątrz wyścigu zbrojeń

Wykrywanie i generowanie są uwięzione w wyścigu kotka i myszki. Każde nowe wydanie modelu zamyka statystyczną lukę, na której polegają detektory — a każde ulepszenie wykrywania jest odpowiadane przez nowe narzędzie do uczłowieczania. Oto co tak naprawdę dzieje się pod spodem.

2026-04-17 · Plagiarism Detector Team

Statystyczna podstawa wykrywania

Każdy detektor tekstu AI jest ostatecznie statystycznym dyskryminatorem — analizuje cechy tekstu (prawdopodobieństwa tokenów, perpleksję, burstiness, regularność składniową) i próbuje znaleźć sygnały odróżniające treści generowane maszynowo od pisanych przez człowieka. Metoda Binoculars (ICML 2024) używa stosunku wzajemnej perpleksji między dwoma modelami językowymi jako sygnału. Nadzorowane podejście ModernBERT uczy się sygnału bezpośrednio z oznakowanych przykładów.

Oba podejścia mają wspólną fundamentalną podatność: sygnały, na których polegają, są efektami ubocznymi sposobu generowania tekstu przez modele, a nie podstawowymi cechami tekstu pisanego maszynowo. W miarę jak generatory się poprawiają, te efekty uboczne maleją. Model wytrenowany do pisania bardziej jak człowiek będzie — z definicji — trudniejszy do wykrycia.

To nie jest porażka badawcza. To strukturalny fakt dotyczący problemu. Wykrywanie działa na ruchomym celu: każde główne wydanie LLM zawęża lukę, każde narzędzie do uczłowieczania trenuje bezpośrednio przeciwko wyniком detektorów. Pytanie nie brzmi ‘czy możemy osiągnąć 100% wykrywalności na zawsze’ — nie da się tego zrobić — ale ‘czy możemy wyprzedzać obecną generację wystarczająco długo, aby być przydatnymi w praktyce.’

Co robi miecz — poprawa generowania

Trzy trendy generacyjne utrudniają wykrywanie. Rozmiar: większe modele produkują statystycznie bardziej zróżnicowany tekst, ponieważ mają bogatsze wewnętrzne rozkłady. Model o 70 miliardach parametrów ma szerszy zakres wyników podobnych do ludzkich niż model o 7 miliardach parametrów. Dostrajanie pod kątem instrukcji: RLHF i metody konstytucyjne uczą modele unikania powtarzających się, zabezpieczających się, banalnych wzorców, które sprawiały, że GPT-3 był łatwy do wykrycia. Temperatura i próbkowanie: interfejsy czatowe przeszły w kierunku próbkowania jądrowego i losowości, co niszczy niektóre wzorce niskiej wariancji, których klasyczne detektory używały jako kotwic.

GPT-5, Claude 4.5 i Gemini 2.5 są wszystkie wyraźnie trudniejsze do wykrycia niż ich poprzednicy. Nasze wewnętrzne wyniki walidacji to potwierdzają: każda generacja modeli obniża nasze AUC dla tej rodziny o 5–10 punktów procentowych w porównaniu do poprzedniej generacji. Zobacz nasz benchmark dokładności, aby uzyskać liczby per-model.

Narzędzia do uczłowieczania — Undetectable AI, StealthWriter, Humanbeing i rosnąca lista innych — to wyraźni przeciwnicy. Biorą wynik AI i parafrazują, przepisują lub transferują jego styl specjalnie po to, aby pokonać detektory. Są trenowane przeciwko publicznym detektorom (w tym naszemu, choć nigdy nie udostępniamy wag naszego modelu) i z każdą aktualizacją stają się mierzalnie lepsze.

Co robi tarcza — reakcja wykrywania

Detektory mają trzy odpowiedzi na wyścig zbrojeń generowania. Ensemblowanie: łączenie wielu sygnałów wykrywania, tak że żadna pojedyncza taktyka unikania nie jest wystarczająca. Nasz ensemble zerowego Binoculars z nadzorowanym ModernBERT wykorzystuje to: narzędzie do uczłowieczania, które pokonuje jeden komponent, często zawodzi wobec drugiego, a wynik ensemble przechwytuje oba.

Ciągłe doszkalanie: dodajemy próbki z każdego głównego nowego wydania generatora w ciągu 4 tygodni od premiery. Jeśli GPT-6 wyjdzie jutro, nasz korpus treningowy będzie go zawierał w połowie następnego miesiąca. Jest to kosztowne — obliczenia, adnotacje, ponowna walidacja — ale jest to jedyny sposób na utrzymanie aktualności wykrywania. Detektory, które doszkalają się raz w roku lub rzadziej, są w praktyce muzealicznymi eksponatami w ciągu roku.

Trening adversarialny: celowo trenujemy na uczłowieczonych próbkach AI i parafrazowanych wynikach, ucząc model widzieć ponad powierzchniowym transferem stylu. Podnosi to minimalny poziom tego, co narzędzie do uczłowieczania musi zrobić, aby nas ominąć, co z kolei spowalnia wyścig zbrojeń.

Wewnątrz krajobrazu unikania

Jak faktycznie działają narzędzia do uczłowieczania? Trzy szerokie kategorie. Parafrazowanie: przepisanie tekstu słowo po słowie lub zdanie po zdaniu przy użyciu wtórnego LLM. Skuteczne przeciwko naiwnym detektorom polegającym na dokładnych sekwencjach tokenów; umiarkowanie skuteczne przeciwko metodom statystycznym. Transfer stylu: transformacja tekstu w celu naśladowania określonego autora lub rejestru. Bardziej skuteczne — AUC naszego detektora spada o ~8 punktów na tekście AI po transferze stylu.

Hybrydowa edycja człowiek-AI: autor pisze szkic, przepuszcza go przez LLM w celu dopracowania, a następnie ręcznie edytuje dopracowaną wersję. To najtrudniejszy przypadek — legalnie wspólna praca łącząca sygnały ludzkie i maszynowe na poziomie zdania. Żaden detektor, w tym nasz, nie może wiarygodnie rozwiązać tych przypadków bez metadanych historii edycji, których detektor nie widzi.

Przydatny model mentalny: narzędzie do uczłowieczania nie jest łamaczem detektora, lecz mnożnikiem kosztu dla osoby unikającej. Wymaga czasu, czasami pieniędzy i zawsze dodaje ryzyko wprowadzenia błędów. Większość akademickich prób oszustwa nie używa narzędzi do uczłowieczania, ponieważ tarcie przeważa nad korzyścią. Tam, gdzie narzędzia do uczłowieczania dominują, to w profesjonalnym content farmingu i spamie SEO generowanym przez AI — przypadki użycia, gdzie przepustowość ma znaczenie i kontrola jakości jest słaba.

Sprawdź, jak nasz detektor punktuje w tej chwili

Wklej dowolny dokument i obserwuj werdykt per zdanie w czasie rzeczywistym. Logika ensemble opisana powyżej działa na Twoim tekście w mniej niż 30 sekund.

Dlaczego ensemblowanie ma większe znaczenie niż jakakolwiek pojedyncza metryka

Detektor z pojedynczym sygnałem ma jeden tryb awarii. Jeśli polegasz tylko na perpleksji, sparafrazowany wynik ze zmienionymi prawdopodobieństwami tokenów cię pokona. Jeśli polegasz tylko na nadzorowanym klasyfikatorze, tekst out-of-distribution (nowa rodzina modeli, nowa dziedzina pisania) cię pokona. Ensemble uśrednia słabości: parafraza, która pokonuje perpleksję, prawdopodobnie nadal uruchamia nadzorowaną głowicę, i odwrotnie.

Nasz produkcyjny detektor jest jawnie ensemblowany: 35% Binoculars (zero-shot, niezależny od modelu, odporny na tekst out-of-distribution) + 65% ModernBERT (nadzorowany, specyficzny dla domeny, wysoka precyzja na tekście in-distribution). Wagi zostały dobrane empirycznie — AUC ensemble był maksymalizowany, gdy ModernBERT dominował, ale Binoculars zachowywał prawo weta na przypadkach granicznych.

Konsekwencja: narzędzie do uczłowieczania musi teraz jednocześnie pokonać dwie zasadniczo różne architektury wykrywania, aby ominąć nasz werdykt. Publiczne narzędzia do uczłowieczania są zazwyczaj trenowane przeciwko jednemu docelowemu detektorowi, co oznacza, że często odnoszą sukces przeciwko temu konkretnemu detektorowi, ale zawodzą wobec ensemble. To jest główna strukturalna przewaga wykrywania w obecnym wyścigu zbrojeń.

Realistyczne oczekiwania na kolejne 12 miesięcy

Czego możemy się spodziewać do 2026–2027? GPT-6 i Claude 5 to prawdopodobnie wydania w połowie roku; oba dalej zawęzą lukę. Modele open-weights — Llama 4, Qwen 4 — będą nadal upowszechniać wysokiej jakości generowanie i sprawiać, że narzędzia do uczłowieczania będą tańsze w użyciu na dużą skalę. AUC wykrywania dla modeli frontier prawdopodobnie spadnie do przedziału 0,80–0,90 przez pierwszy rok po wydaniu, zanim doszkolenie to skoryguje.

Po stronie obrony: sygnały multimodalne (dynamika pisania, historia edycji, weryfikacja autorstwa na tle znanych korpusów) prawdopodobnie nabiorą większego znaczenia niż czyste wykrywanie oparte na tekście w ciągu 24 miesięcy. Nasz detektor tylko tekstowy pozostanie pierwszym filtrem, ale będzie coraz bardziej głosem w bogatszym stosie dowodów.

Szczere podsumowanie: czyste wykrywanie oparte na tekście nigdy nie osiągnie 100%. Zatrzyma się gdzieś około 90–95% AUC na tekście in-distribution i 75–85% na modelach frontier. Jeśli Twój przepływ pracy wymaga pewności, potrzebujesz dowodów poza wynikiem. Jeśli Twój przepływ pracy wymaga silnego sygnału do priorytetyzacji przeglądu przez człowieka, wykrywanie oparte na tekście pozostaje przydatne i mierzalnie lepsze niż nierobienie niczego.

Często zadawane pytania

Jeśli wykrywanie AI nigdy nie będzie doskonałe, czy w ogóle warto go używać?

Tak — pytanie nie brzmi ‘czy jest doskonałe’, ale ‘czy jest lepsze niż brak jakiegokolwiek przesiewania.’ Detektor o AUC 90% na Twoim obciążeniu to ogromna poprawa stosunku sygnału do szumu. Osoby najgłośniej mówiące o ograniczeniach detektorów to często te, które próbują je pokonać; to nie jest argument za rezygnacją z narzędzia.

Czy watermarking może zastąpić wykrywanie statystyczne?

Watermarking osadza ukryty podpis statystyczny w generowanym tekście, który detektor może później odczytać. Działa, gdy generatory współpracują (OpenAI wdrożył go eksperymentalnie), ale całkowicie zawodzi na modelach open-weights, które generują bez znaków wodnych. Wykrywanie statystyczne pozostanie konieczne w przewidywalnej przyszłości, ponieważ działa nawet gdy generator odmawia współpracy.

Co jest dziś najtrudniejsze do wykrycia?

Hybrydowa edycja człowiek-AI — fragment tekstu opracowanego przez AI i dopracowanego przez człowieka na poziomie zdania. Żaden obecny detektor nie rozwiązuje tych przypadków wiarygodnie bez dostępu do metadanych historii edycji. Jeśli to jest Twój przypadek użycia, wykrywanie oparte na tekście jest złym narzędziem — potrzebujesz instrumentacji przepływu pracy.

Jak często nowe wydanie generatora faktycznie obniża Wasze AUC?

Przy każdym głównym wydaniu, mniej więcej co 3–6 miesięcy, AUC dla tej rodziny spada o 5–10 punktów procentowych, dopóki nie doszkolimy. Doszkolenie zajmuje około 4 tygodnie po zebraniu wystarczającej liczby próbek. Praktyczny wynik: zawsze istnieje 2–8 tygodniowe okno po nowym wydaniu, w którym nasze AUC dla tej rodziny jest niższe niż średnia. Ujawniamy te luki na stronie benchmarku.

Czy ensemblowanie pomaga przeciwko narzędziom do uczłowieczania?

Zasadniczo — to nasza główna strukturalna obrona. Narzędzia do uczłowieczania trenują przeciwko docelowemu detektorowi. Gdy tym celem jest ensemble dwóch architekturalnie różnych detektorów, narzędzie do uczłowieczania musi jednocześnie pokonać oba, co jest znacznie trudniejsze niż pokonanie któregokolwiek z osobna. Dlatego używamy ensemble w produkcji, nawet gdy pojedynczy komponent byłby tańszy w użyciu.

Ten artykuł opisuje strukturalne właściwości wykrywania tekstu AI. Konkretne liczby odnoszą się do naszej wewnętrznej walidacji i mogą nie uogólniać się. Aktualizujemy tę stronę w miarę jak nowe badania i wydania generatorów tego wymagają.