Publikujemy rzeczywistą dokładność naszego detektora AI w odniesieniu do 22 modeli generatywnych, w tym GPT-5, Claude 4, Gemini 2 i Llama 3. Tabele per-model, uczciwe ograniczenia i zestaw danych do pobrania dla badaczy.
Większość narzędzi do wykrywania AI prosi o zaufanie jednemu nieprzejrzystemu wynikowi. Uważamy, że zasługujesz na dowody. Na tej stronie udostępniamy pełne wyniki naszego wewnętrznego przebiegu walidacji — każdy przetestowany generator, wynik AUC-ROC dla każdego z nich, typy esejów, które sprawiały nam najwięcej kłopotów, oraz progi decyzyjne stosowane w produkcji.
Ten poziom przejrzystości jest niezwykły w przestrzeni wykrywania AI. Większość konkurentów — dostawcy narzędzi do sprawdzania plagiatów, specjalistyczne usługi wykrywania AI, ogólne narzędzia SaaS — nie publikuje żadnych danych dokładności lub podaje jeden starannie wyselekcjonowany wynik. Ten schemat jest nie do utrzymania: nauczyciele, wydawcy i badacze potrzebują odtwarzalnych benchmarków, zanim będą mogli polegać na jakimkolwiek narzędziu.
Nasze wyniki pochodzą z podziału walidacyjnego 1000 próbek z korpusu kalibracyjnego użytego do trenowania naszego detektora ModernBERT. Ta sama metodologia, która napędza ten benchmark, działa na każdym dokumencie przesyłanym przez nasze narzędzie. Nic nie jest zatrzymywane na potrzeby demonstracji.
Zestaw walidacyjny zawiera 1000 esejów zaczerpniętych z korpusu kalibracyjnego liczącego 1200 próbek: 600 esejów napisanych przez ludzi (z danych wspólnego zadania PAN25 i zbioru danych esejów argumentacyjnych PERSUADE) oraz 600 esejów generowanych przez AI (wyprodukowanych przez 22 odrębne duże modele językowe w warunkach kontrolowanego promptowania). Podział 80/20 na trenowanie i walidację jest ustalony i powtarzalny.
Każda próbka jest oceniana w izolacji, bez dostępu do metadanych, które mogłyby ujawnić stan faktyczny. Detektor zwraca prawdopodobieństwo w zakresie [0, 100] reprezentujące prawdopodobieństwo, że próbka jest generowana przez AI. Następnie obliczamy pole pod krzywą charakterystyki operacyjnej odbiornika (AUC-ROC) per generator i na poziomie typu eseju.
Wszystkie progi, hiperparametry trenowania i nieprzetworzone wyniki prawdopodobieństwa są rejestrowane. Sam zestaw danych jest dostępny do pobrania na dole tej strony — format CSV, jeden wiersz na próbkę, z tożsamością generatora, etykietą typu eseju, surowym wynikiem i ostatecznym binarnym werdyktem.
Na pełnym zestawie 1000 próbek nasz detektor ensemble osiąga AUC-ROC [AUC: 0,9884]. Przy progu decyzyjnym 50% stosowanym w produkcji: 0 fałszywych wyników pozytywnych na esejach ludzkich w zestawie walidacyjnym oraz 60% czułości na esejach AI. Przy progu optymalnym F1 wynoszącym 26,56% czułość wzrasta do 90% kosztem 2% fałszywych wyników pozytywnych — kompromis lepiej dopasowany do przepływów pracy wymagających wysokiej czułości.
Werdykt na poziomie dokumentu w naszym publicznym narzędziu używa konserwatywnego progu 50%, priorytetyzując zero fałszywych wyników pozytywnych nad maksymalną czułością. Nauczyciele, wydawcy i badacze mogą to zmienić za pomocą suwaka czułości w widżecie, gdy chcą bardziej agresywnego flagowania.
Dla porównania, sam komponent zerowy Binoculars (konfiguracja 2× Llama-3.1-8B) osiąga AUC [AUC: 0,8509] samodzielnie. Dostrojony komponent ModernBERT samodzielnie osiąga [AUC: 1,0000] na esejach in-distribution i [AUC: 0,9069] na tekście out-of-distribution. Ensemble plasuje się między nimi na każdej pojedynczej osi, ale przewyższa oba średnio, ponieważ koryguje ich wzajemnie uzupełniające słabości.
Oto tabela AUC-ROC per-model. Modele są uporządkowane od najłatwiejszego do najtrudniejszego do wykrycia w naszym zestawie walidacyjnym. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
Modele OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Inne: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Główny wzorzec: nowsze, większe, dostrojone pod kątem instrukcji modele produkują tekst, który dla każdego statystycznego detektora — w tym naszego — wygląda bardziej ludzko. Claude 4.5 Sonnet i GPT-5.x to dwie rodziny, gdzie nasze rozkłady wyników pokrywają się najbardziej z ludzką linią bazową. Odpowiada to każdemu niezależnemu badaniu opublikowanemu w 2025 r. — wyścig zbrojeń jest realny, a rozmiar modelu to bezpośrednia przeszkoda dla wykrywania.
Nie każdy tekst jest jednakowo wykrywalny. Dzielimy wyniki według typu eseju — każdej kategorii promptu PERSUADE — a różnica między najlepszym a najgorszym jest znaczna. [PER-TYPE TABLE]
Eseje argumentacyjne, perswazyjne i ekspozycyjne: najmocniejsza domena detektora. AUC typowo 0,97–1,00, ponieważ korpusy treningowe nadmiernie reprezentują te style. To właśnie tutaj mieści się większość przypadków użycia w kontekście integralności akademickiej.
Pisanie kreatywne i analiza literacka: nasza najsłabsza domena. Dla literary_analysis AUC spada do 0,69 — ludzki styl w fikcji zbiega się z wynikami LLM i ani nasz nadzorowany, ani zero-shot komponent nie może ich wiarygodnie odróżnić. Traktuj wysoki wynik AI w fikcji ze sceptycyzmem.
Wklej dowolny dokument i sprawdź ten sam werdykt per zdanie oraz progi decyzyjne, których używamy do tych liczb benchmarkowych. Bezpłatnie, bez rejestracji.
Trzy klasy tekstu wymykają się naszemu detektorowi częściej niż sugeruje nasz zestaw walidacyjny. Uczłowieczony tekst AI — wynik przepuszczony przez adversarialne narzędzie do parafrazowania lub transferu stylu — często jest oceniany jako ludzki, nawet gdy tekst bazowy był w pełni wygenerowany. Krótki tekst (poniżej 100 słów) jest trudny do sklasyfikowania w ogóle, ponieważ brakuje wystarczającego sygnału statystycznego. Angielski nienatywnych użytkowników może być oceniany jako wygenerowany przez AI, ponieważ modele LLM i pisarze ESL mają wspólne pewne preferencje leksykalne i składniowe.
Nasz detektor jest probabilistyczny, a nie dowodowy. Wysoki wynik AI jest sygnałem do dalszego badania, a nie dowodem na wykroczenie. Zdecydowanie zalecamy uzupełnianie wyniku o kontekst: historię edycji, szkice wersji, próbki pism tego samego autora oraz — tam gdzie jest to dozwolone — krótką rozmowę uzupełniającą z autorem.
Stale doszkalamy się na najnowszych wynikach generatorów, ale zawsze istnieje opóźnienie: model wydany w ubiegłym tygodniu może nie być dobrze reprezentowany w danych treningowych. Jeśli Twój przepływ pracy zależy od wykrywania najnowszych modeli, sprawdzaj naszą stronę z benchmarkami co kwartał, aby uzyskać zaktualizowane liczby.
Publikujemy nieprzetworzone wyniki walidacji, aby badacze, dziennikarze i nauczyciele mogli niezależnie zweryfikować nasze twierdzenia. Plik CSV zawiera: ID próbki, tożsamość generatora (lub 'human'), etykietę typu eseju, nieprzetworzone wyniki prawdopodobieństwa, binarny werdykt przy progu 50%, binarny werdykt przy progu 26,56%.
Pobierz: ai-detector-benchmark-2026-04.csv (aktualizowany co kwartał). Użytkowanie akademickie jest nieograniczone; komercyjne ponowne publikowanie wymaga atrybucji: „Wykrywacz plagiatów — AI Detection Benchmark 2026-04”.
Aby uzyskać interaktywną wersję tej samej metodologii na własnym tekście, wypróbuj nasze narzędzie AI i Wykrywacz plagiatów — wklej dowolny dokument i sprawdź werdykt per zdanie, te same progi decyzyjne i ten sam przedział ufności, którego używamy do tych opublikowanych liczb.
Wyniki benchmarku pochodzą z naszego wewnętrznego zestawu walidacyjnego i mogą nie uogólniać się na tekst out-of-distribution. Opublikowane liczby reprezentują średnią wydajność na 1000 próbkach; Twój dokument może być oceniony inaczej. Używaj wyników wykrywania AI jako jednego sygnału spośród wielu, a nie jedynego dowodu autorstwa.