Przejdź do góry
Dom Jak dokładny jest detektor AI? Benchmark na 22 modelach LLM | Wykrywacz plagiatów

Jak dokładny jest detektor AI? Nasz benchmark na 22 modelach LLM

Publikujemy rzeczywistą dokładność naszego detektora AI w odniesieniu do 22 modeli generatywnych, w tym GPT-5, Claude 4, Gemini 2 i Llama 3. Tabele per-model, uczciwe ograniczenia i zestaw danych do pobrania dla badaczy.

2026-04-17 · Plagiarism Detector Team

Dlaczego publikujemy nasze wyniki dokładności

Większość narzędzi do wykrywania AI prosi o zaufanie jednemu nieprzejrzystemu wynikowi. Uważamy, że zasługujesz na dowody. Na tej stronie udostępniamy pełne wyniki naszego wewnętrznego przebiegu walidacji — każdy przetestowany generator, wynik AUC-ROC dla każdego z nich, typy esejów, które sprawiały nam najwięcej kłopotów, oraz progi decyzyjne stosowane w produkcji.

Ten poziom przejrzystości jest niezwykły w przestrzeni wykrywania AI. Większość konkurentów — dostawcy narzędzi do sprawdzania plagiatów, specjalistyczne usługi wykrywania AI, ogólne narzędzia SaaS — nie publikuje żadnych danych dokładności lub podaje jeden starannie wyselekcjonowany wynik. Ten schemat jest nie do utrzymania: nauczyciele, wydawcy i badacze potrzebują odtwarzalnych benchmarków, zanim będą mogli polegać na jakimkolwiek narzędziu.

Nasze wyniki pochodzą z podziału walidacyjnego 1000 próbek z korpusu kalibracyjnego użytego do trenowania naszego detektora ModernBERT. Ta sama metodologia, która napędza ten benchmark, działa na każdym dokumencie przesyłanym przez nasze narzędzie. Nic nie jest zatrzymywane na potrzeby demonstracji.

Korpus testowy i metodologia

Zestaw walidacyjny zawiera 1000 esejów zaczerpniętych z korpusu kalibracyjnego liczącego 1200 próbek: 600 esejów napisanych przez ludzi (z danych wspólnego zadania PAN25 i zbioru danych esejów argumentacyjnych PERSUADE) oraz 600 esejów generowanych przez AI (wyprodukowanych przez 22 odrębne duże modele językowe w warunkach kontrolowanego promptowania). Podział 80/20 na trenowanie i walidację jest ustalony i powtarzalny.

Każda próbka jest oceniana w izolacji, bez dostępu do metadanych, które mogłyby ujawnić stan faktyczny. Detektor zwraca prawdopodobieństwo w zakresie [0, 100] reprezentujące prawdopodobieństwo, że próbka jest generowana przez AI. Następnie obliczamy pole pod krzywą charakterystyki operacyjnej odbiornika (AUC-ROC) per generator i na poziomie typu eseju.

Wszystkie progi, hiperparametry trenowania i nieprzetworzone wyniki prawdopodobieństwa są rejestrowane. Sam zestaw danych jest dostępny do pobrania na dole tej strony — format CSV, jeden wiersz na próbkę, z tożsamością generatora, etykietą typu eseju, surowym wynikiem i ostatecznym binarnym werdyktem.

Główne wyniki

Na pełnym zestawie 1000 próbek nasz detektor ensemble osiąga AUC-ROC [AUC: 0,9884]. Przy progu decyzyjnym 50% stosowanym w produkcji: 0 fałszywych wyników pozytywnych na esejach ludzkich w zestawie walidacyjnym oraz 60% czułości na esejach AI. Przy progu optymalnym F1 wynoszącym 26,56% czułość wzrasta do 90% kosztem 2% fałszywych wyników pozytywnych — kompromis lepiej dopasowany do przepływów pracy wymagających wysokiej czułości.

Werdykt na poziomie dokumentu w naszym publicznym narzędziu używa konserwatywnego progu 50%, priorytetyzując zero fałszywych wyników pozytywnych nad maksymalną czułością. Nauczyciele, wydawcy i badacze mogą to zmienić za pomocą suwaka czułości w widżecie, gdy chcą bardziej agresywnego flagowania.

Dla porównania, sam komponent zerowy Binoculars (konfiguracja 2× Llama-3.1-8B) osiąga AUC [AUC: 0,8509] samodzielnie. Dostrojony komponent ModernBERT samodzielnie osiąga [AUC: 1,0000] na esejach in-distribution i [AUC: 0,9069] na tekście out-of-distribution. Ensemble plasuje się między nimi na każdej pojedynczej osi, ale przewyższa oba średnio, ponieważ koryguje ich wzajemnie uzupełniające słabości.

Podział per-generator

Oto tabela AUC-ROC per-model. Modele są uporządkowane od najłatwiejszego do najtrudniejszego do wykrycia w naszym zestawie walidacyjnym. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Modele OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Inne: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Główny wzorzec: nowsze, większe, dostrojone pod kątem instrukcji modele produkują tekst, który dla każdego statystycznego detektora — w tym naszego — wygląda bardziej ludzko. Claude 4.5 Sonnet i GPT-5.x to dwie rodziny, gdzie nasze rozkłady wyników pokrywają się najbardziej z ludzką linią bazową. Odpowiada to każdemu niezależnemu badaniu opublikowanemu w 2025 r. — wyścig zbrojeń jest realny, a rozmiar modelu to bezpośrednia przeszkoda dla wykrywania.

Gdzie detektor ma trudności

Nie każdy tekst jest jednakowo wykrywalny. Dzielimy wyniki według typu eseju — każdej kategorii promptu PERSUADE — a różnica między najlepszym a najgorszym jest znaczna. [PER-TYPE TABLE]

Eseje argumentacyjne, perswazyjne i ekspozycyjne: najmocniejsza domena detektora. AUC typowo 0,97–1,00, ponieważ korpusy treningowe nadmiernie reprezentują te style. To właśnie tutaj mieści się większość przypadków użycia w kontekście integralności akademickiej.

Pisanie kreatywne i analiza literacka: nasza najsłabsza domena. Dla literary_analysis AUC spada do 0,69 — ludzki styl w fikcji zbiega się z wynikami LLM i ani nasz nadzorowany, ani zero-shot komponent nie może ich wiarygodnie odróżnić. Traktuj wysoki wynik AI w fikcji ze sceptycyzmem.

Wypróbuj detektor na własnym tekście

Wklej dowolny dokument i sprawdź ten sam werdykt per zdanie oraz progi decyzyjne, których używamy do tych liczb benchmarkowych. Bezpłatnie, bez rejestracji.

Ograniczenia i tryby awarii

Trzy klasy tekstu wymykają się naszemu detektorowi częściej niż sugeruje nasz zestaw walidacyjny. Uczłowieczony tekst AI — wynik przepuszczony przez adversarialne narzędzie do parafrazowania lub transferu stylu — często jest oceniany jako ludzki, nawet gdy tekst bazowy był w pełni wygenerowany. Krótki tekst (poniżej 100 słów) jest trudny do sklasyfikowania w ogóle, ponieważ brakuje wystarczającego sygnału statystycznego. Angielski nienatywnych użytkowników może być oceniany jako wygenerowany przez AI, ponieważ modele LLM i pisarze ESL mają wspólne pewne preferencje leksykalne i składniowe.

Nasz detektor jest probabilistyczny, a nie dowodowy. Wysoki wynik AI jest sygnałem do dalszego badania, a nie dowodem na wykroczenie. Zdecydowanie zalecamy uzupełnianie wyniku o kontekst: historię edycji, szkice wersji, próbki pism tego samego autora oraz — tam gdzie jest to dozwolone — krótką rozmowę uzupełniającą z autorem.

Stale doszkalamy się na najnowszych wynikach generatorów, ale zawsze istnieje opóźnienie: model wydany w ubiegłym tygodniu może nie być dobrze reprezentowany w danych treningowych. Jeśli Twój przepływ pracy zależy od wykrywania najnowszych modeli, sprawdzaj naszą stronę z benchmarkami co kwartał, aby uzyskać zaktualizowane liczby.

Pobierz pełny zestaw danych

Publikujemy nieprzetworzone wyniki walidacji, aby badacze, dziennikarze i nauczyciele mogli niezależnie zweryfikować nasze twierdzenia. Plik CSV zawiera: ID próbki, tożsamość generatora (lub 'human'), etykietę typu eseju, nieprzetworzone wyniki prawdopodobieństwa, binarny werdykt przy progu 50%, binarny werdykt przy progu 26,56%.

Pobierz: ai-detector-benchmark-2026-04.csv (aktualizowany co kwartał). Użytkowanie akademickie jest nieograniczone; komercyjne ponowne publikowanie wymaga atrybucji: „Wykrywacz plagiatów — AI Detection Benchmark 2026-04”.

Aby uzyskać interaktywną wersję tej samej metodologii na własnym tekście, wypróbuj nasze narzędzie AI i Wykrywacz plagiatów — wklej dowolny dokument i sprawdź werdykt per zdanie, te same progi decyzyjne i ten sam przedział ufności, którego używamy do tych opublikowanych liczb.

Często zadawane pytania

Jak często ten benchmark jest aktualizowany?
Co kwartał. Gdy uruchamiany jest główny generator (GPT-6, Claude 5, Gemini 3), dodajemy go do korpusu testowego w ciągu 4 tygodni i ponownie publikujemy zaktualizowaną tabelę. Historyczne wersje są archiwizowane z datowanymi nazwami plików — edycja 2026-04 jest aktualnym stabilnym wydaniem.
Dlaczego nie publikujecie wyników prawdopodobieństwa per próbka?
Robimy to — pobierany plik CSV zawiera nieprzetworzone prawdopodobieństwa. Czego nie publikujemy, to oryginalny tekst eseju, ponieważ korpus PAN25 i zestaw danych PERSUADE mają ograniczenia dotyczące redystrybucji. Jeśli chcesz mieć tekst, pobierz te zestawy danych bezpośrednio z ich źródła (linki w dokumentacji CSV).
Czy mogę ufać detektorowi, jeśli AUC jest poniżej 1,0?
Żaden detektor nie osiąga AUC 1,0 na każdym generatorze, więc pytanie nie brzmi ‘czy jest doskonały’, ale ‘czy jest przejrzysty.’ Detektor, który publikuje AUC 0,95 i informuje, gdzie ma trudności, jest bardziej godny zaufania niż taki, który publikuje ‘wiodącą w branży dokładność’ bez podania liczby. Nasze AUC [AUC: 0,9884] to uczciwa średnia wydajność; podział per-generator i per-typ eseju to miejsce, w którym powinieneś podjąć decyzję zakupową.
Czy Wasz detektor AI nadaje się do publikacji akademicznych?
Podstawowa metodologia tak — Binoculars (ICML 2024) i ModernBERT to obie architektury recenzowane przez ekspertów. Nasz konkretny korpus dostrajania i progi są zastrzeżone, ale metodologia benchmarku jest w pełni odtwarzalna.
Jak bezpłatne narzędzie online wypada w porównaniu z produktem desktopowym?
Ten sam silnik, te same wyniki dokładności, ta sama logika werdyktu per zdanie. Produkt desktopowy dodaje nieograniczoną długość dokumentu, skanowanie offline, zintegrowane dopasowywanie plagiatu względem 4 miliardów stron internetowych oraz przetwarzanie wsadowe całych folderów. Do jednorazowych kontroli narzędzie online jest wystarczające; do codziennych przepływów pracy właściwym narzędziem jest wersja desktopowa.

Wyniki benchmarku pochodzą z naszego wewnętrznego zestawu walidacyjnego i mogą nie uogólniać się na tekst out-of-distribution. Opublikowane liczby reprezentują średnią wydajność na 1000 próbkach; Twój dokument może być oceniony inaczej. Używaj wyników wykrywania AI jako jednego sygnału spośród wielu, a nie jedynego dowodu autorstwa.