Nie każdy tekst AI jest jednakowo wykrywalny. Oto wyniki naszego benchmarku per-generator — które rodziny modeli nasz detektor wykrywa z niemal doskonałą dokładnością, z którymi ma trudności i co to mówi o wyborze przepływu pracy wykrywania.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Uporządkowane od najłatwiejszego do najtrudniejszego do wykrycia w naszym zestawie walidacyjnym. Rozpiętość jest znaczna — AUC w niektórych rodzinach modeli przekracza 0,99, podczas gdy inne spadają do poziomu 0,80. Trudność wykrywania koreluje z rozmiarem modelu, wyrafinowaniem dostrajania pod kątem instrukcji i wariancją wyników.
Pełne omówienie metodologii per-generator znajdziesz na naszej stronie benchmarku dokładności. Ten artykuł podsumowuje praktyczne implikacje tych danych dla użytkowników wybierających, któremu detektorowi zaufać i którego modelu użyć.
GPT-3.5 jest najłatwiejszym nowoczesnym modelem do wykrycia — AUC [AUC: ?] w naszym zestawie. Artefakty starszej generacji (powtarzanie, zabezpieczanie się, banalny rejestr) pozostają wyraźnie obecne. GPT-4 spada do AUC [AUC: ?], GPT-4o do [AUC: ?], odzwierciedlając stopniowo lepszą kalibrację. GPT-5.x jest najtrudniejszy z rodziny — AUC [AUC: ?] — ponieważ zespół dostrajania pod kątem instrukcji wyraźnie celował w usunięcie artefaktów wykrywania.
Praktyczne znaczenie: akademickie przepływy pracy zaniepokojone oszustwami z epoki GPT-3.5 mogą w dużej mierze opierać się na samym wykrywaniu. Przepływy pracy zaniepokojone GPT-5 muszą połączyć wykrywanie z dowodami kontekstualnymi, jak opisano w naszym przewodniku przepływu pracy dla nauczycieli.
Ustawienia temperatury mają znaczenie. Wyniki o niskiej temperaturze (t≤0,5) są łatwiejsze do wykrycia, ponieważ koncentrują masę prawdopodobieństwa na węższym słownictwie. Większość interfejsów czatowych domyślnie ustawia t≈0,7, umieszczając tekst w umiarkowanie wykrywalnej strefie. Adversarialni użytkownicy jawnie zwiększają temperaturę lub używają zróżnicowanego dekodowania, aby poszerzyć zakres i uniknąć wykrywania — nasz ensemble częściowo to koryguje, ale nie całkowicie.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Rodzina Claude konsekwentnie produkuje mniej powtarzalny, bardziej stylistycznie zróżnicowany tekst niż modele GPT tej samej generacji, co sprawia, że jest trudniejsza do wykrycia metodami statystycznymi.
Trening konstytucyjny AI Claude specyficznie celuje w „maszynowe zdradzenie się”, na których uczy się nasz nadzorowany klasyfikator — wzorce zabezpieczania się, nadużywanie konkretnych spójników, przewidywalna struktura akapitów. To jest bezpośrednia relacja adversarialna: generator jest trenowany przeciwko cechom, na których polega detektor.
Claude 4.5 Sonnet i GPT-5.x są zbliżone pod względem trudności. Ich rozkłady wyników najbardziej pokrywają się z ludzką linią bazową w naszych danych walidacyjnych. Jeśli Twój przepływ pracy celuje w którykolwiek z tych modeli, spodziewaj się zmniejszonej czułości przy domyślnym progu i rozważ obniżenie do optymalnego F1 dla przesiewania wysokiej czułości.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini wykazał najbardziej zmienną wydajność wykrywania w różnych wersjach — niektóre wersje pośrednie czasowo cofały się przed poprawą.
Multimodalny trening Gemini oznacza, że wyniki tylko tekstowe czasami niosą szczątkowe wzorce z domen podpisów obrazów lub wyjaśnień kodu. Nasz detektor wychwytuje je, co wyjaśnia nieco wyższą wykrywalność Gemini na promptach mieszanych domen niż na czystej prozie.
Dla użytkowników Google Workspace, których studenci lub pracownicy używają Gemini przez Dokumenty, sygnał wykrywania jest podobny do surowego wyjścia API. Nie zaobserwowaliśmy wzorców unikania specyficznych dla integracji Workspace, różnych od bezpośredniego użycia API Gemini.
Wklej wyniki z dowolnego LLM i sprawdź werdykt per zdanie. Nasz detektor traktuje wszystkie 22 rodziny modeli jako jedno sprawdzenie ensemble.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Modele open-weights obejmują szerszy zakres niż modele zamknięte — warianty dostrojone, wdrożenia skwantyzowane i punkty kontrolne zmodyfikowane przez społeczność wszystkie produkują subtelnie różne wyniki.
Wykrywanie modeli open-weights ma strategiczne znaczenie, ponieważ narzędzia do uczłowieczania są zazwyczaj budowane na modelach open-weights — pochodne Llama i Mistral działają lokalnie przy niskich kosztach, dlatego usługi parafrazowania i transferu stylu wyceniają je na zewnątrz. Jeśli Twoją obawą jest uczłowieczony AI, ostatecznie bronisz się przed generowaniem rodziny Llama.
DeepSeek R1 i o3-mini (model rozumowania OpenAI) zasługują na osobną wzmiankę. Oba produkują tekst z artefaktami łańcucha rozumowania — jawna logika krok po kroku widoczna w wynikach — co nasz detektor nauczył się rozpoznawać. Modele rozumowania są obecnie łatwiejsze do wykrycia niż ich odpowiedniki chat-bazowe z tego powodu.
Jeśli wybierasz model do pisania i wykrywanie nie jest Twoją obawą, Claude 4.5 Sonnet i GPT-5 są najtrudniejsze do wykrycia. Jeśli budujesz przepływ pracy wykrywania, priorytetyzuj modele, które faktycznie widzisz: większość akademickich nadużyć nadal uruchamia się na GPT-4/5 przez bezpłatne interfejsy; większość content farmingu uruchamia się na uczłowieczaczach pochodnych Llama.
Pojedynczy detektor wytrenowany na jednej rodzinie modeli będzie działał najgorzej na pozostałych. Nasze podejście ensemble trenuje na próbkach ze wszystkich 22 generatorów, dlatego AUC per-model na trudnych przypadkach (Claude 4.5, GPT-5) nadal przekracza 0,90, podczas gdy każdy detektor wytrenowany na jednym modelu spadłby poniżej 0,80.
Podstawowy trend: trudność wykrywania rośnie szybciej niż kadencja wydań generatorów. Każda nowa flagowa wersja jest trudniejsza do wykrycia niż poprzednia, doszkolenie zamyka lukę, ale nie w pełni. Spodziewaj się, że linia bazowa 2026–2027 będzie miała niższe AUC dla modeli frontier i w przybliżeniu stałe dla modeli legacy.
Wyniki AUC per-model pochodzą z naszej wewnętrznej walidacji i mogą nie uogólniać się. Trudność każdego modelu zmienia się w czasie, gdy zarówno generator, jak i nasz korpus treningowy ewoluują. Aktualne dane odzwierciedlają przebieg benchmarku 2026-04.