Dom › Który AI jest najtrudniejszy do wykrycia? GPT vs Claude vs Gemini | Wykrywacz plagiatów

Który AI jest najtrudniejszy do wykrycia? GPT vs Claude vs Gemini vs Llama

Nie każdy tekst AI jest jednakowo wykrywalny. Oto wyniki naszego benchmarku per-generator — które rodziny modeli nasz detektor wykrywa z niemal doskonałą dokładnością, z którymi ma trudności i co to mówi o wyborze przepływu pracy wykrywania.

2026-04-17 · Plagiarism Detector Team

Krótka odpowiedź — tabela liderów

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Uporządkowane od najłatwiejszego do najtrudniejszego do wykrycia w naszym zestawie walidacyjnym. Rozpiętość jest znaczna — AUC w niektórych rodzinach modeli przekracza 0,99, podczas gdy inne spadają do poziomu 0,80. Trudność wykrywania koreluje z rozmiarem modelu, wyrafinowaniem dostrajania pod kątem instrukcji i wariancją wyników.

Pełne omówienie metodologii per-generator znajdziesz na naszej stronie benchmarku dokładności. Ten artykuł podsumowuje praktyczne implikacje tych danych dla użytkowników wybierających, któremu detektorowi zaufać i którego modelu użyć.

Rodzina OpenAI — GPT

GPT-3.5 jest najłatwiejszym nowoczesnym modelem do wykrycia — AUC [AUC: ?] w naszym zestawie. Artefakty starszej generacji (powtarzanie, zabezpieczanie się, banalny rejestr) pozostają wyraźnie obecne. GPT-4 spada do AUC [AUC: ?], GPT-4o do [AUC: ?], odzwierciedlając stopniowo lepszą kalibrację. GPT-5.x jest najtrudniejszy z rodziny — AUC [AUC: ?] — ponieważ zespół dostrajania pod kątem instrukcji wyraźnie celował w usunięcie artefaktów wykrywania.

Praktyczne znaczenie: akademickie przepływy pracy zaniepokojone oszustwami z epoki GPT-3.5 mogą w dużej mierze opierać się na samym wykrywaniu. Przepływy pracy zaniepokojone GPT-5 muszą połączyć wykrywanie z dowodami kontekstualnymi, jak opisano w naszym przewodniku przepływu pracy dla nauczycieli.

Ustawienia temperatury mają znaczenie. Wyniki o niskiej temperaturze (t≤0,5) są łatwiejsze do wykrycia, ponieważ koncentrują masę prawdopodobieństwa na węższym słownictwie. Większość interfejsów czatowych domyślnie ustawia t≈0,7, umieszczając tekst w umiarkowanie wykrywalnej strefie. Adversarialni użytkownicy jawnie zwiększają temperaturę lub używają zróżnicowanego dekodowania, aby poszerzyć zakres i uniknąć wykrywania — nasz ensemble częściowo to koryguje, ale nie całkowicie.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Rodzina Claude konsekwentnie produkuje mniej powtarzalny, bardziej stylistycznie zróżnicowany tekst niż modele GPT tej samej generacji, co sprawia, że jest trudniejsza do wykrycia metodami statystycznymi.

Trening konstytucyjny AI Claude specyficznie celuje w „maszynowe zdradzenie się”, na których uczy się nasz nadzorowany klasyfikator — wzorce zabezpieczania się, nadużywanie konkretnych spójników, przewidywalna struktura akapitów. To jest bezpośrednia relacja adversarialna: generator jest trenowany przeciwko cechom, na których polega detektor.

Claude 4.5 Sonnet i GPT-5.x są zbliżone pod względem trudności. Ich rozkłady wyników najbardziej pokrywają się z ludzką linią bazową w naszych danych walidacyjnych. Jeśli Twój przepływ pracy celuje w którykolwiek z tych modeli, spodziewaj się zmniejszonej czułości przy domyślnym progu i rozważ obniżenie do optymalnego F1 dla przesiewania wysokiej czułości.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini wykazał najbardziej zmienną wydajność wykrywania w różnych wersjach — niektóre wersje pośrednie czasowo cofały się przed poprawą.

Multimodalny trening Gemini oznacza, że wyniki tylko tekstowe czasami niosą szczątkowe wzorce z domen podpisów obrazów lub wyjaśnień kodu. Nasz detektor wychwytuje je, co wyjaśnia nieco wyższą wykrywalność Gemini na promptach mieszanych domen niż na czystej prozie.

Dla użytkowników Google Workspace, których studenci lub pracownicy używają Gemini przez Dokumenty, sygnał wykrywania jest podobny do surowego wyjścia API. Nie zaobserwowaliśmy wzorców unikania specyficznych dla integracji Workspace, różnych od bezpośredniego użycia API Gemini.

Sprawdź próbkę z dowolnego modelu

Wklej wyniki z dowolnego LLM i sprawdź werdykt per zdanie. Nasz detektor traktuje wszystkie 22 rodziny modeli jako jedno sprawdzenie ensemble.

Meta i modele open-weights

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Modele open-weights obejmują szerszy zakres niż modele zamknięte — warianty dostrojone, wdrożenia skwantyzowane i punkty kontrolne zmodyfikowane przez społeczność wszystkie produkują subtelnie różne wyniki.

Wykrywanie modeli open-weights ma strategiczne znaczenie, ponieważ narzędzia do uczłowieczania są zazwyczaj budowane na modelach open-weights — pochodne Llama i Mistral działają lokalnie przy niskich kosztach, dlatego usługi parafrazowania i transferu stylu wyceniają je na zewnątrz. Jeśli Twoją obawą jest uczłowieczony AI, ostatecznie bronisz się przed generowaniem rodziny Llama.

DeepSeek R1 i o3-mini (model rozumowania OpenAI) zasługują na osobną wzmiankę. Oba produkują tekst z artefaktami łańcucha rozumowania — jawna logika krok po kroku widoczna w wynikach — co nasz detektor nauczył się rozpoznawać. Modele rozumowania są obecnie łatwiejsze do wykrycia niż ich odpowiedniki chat-bazowe z tego powodu.

Co te różnice oznaczają dla Ciebie

Jeśli wybierasz model do pisania i wykrywanie nie jest Twoją obawą, Claude 4.5 Sonnet i GPT-5 są najtrudniejsze do wykrycia. Jeśli budujesz przepływ pracy wykrywania, priorytetyzuj modele, które faktycznie widzisz: większość akademickich nadużyć nadal uruchamia się na GPT-4/5 przez bezpłatne interfejsy; większość content farmingu uruchamia się na uczłowieczaczach pochodnych Llama.

Pojedynczy detektor wytrenowany na jednej rodzinie modeli będzie działał najgorzej na pozostałych. Nasze podejście ensemble trenuje na próbkach ze wszystkich 22 generatorów, dlatego AUC per-model na trudnych przypadkach (Claude 4.5, GPT-5) nadal przekracza 0,90, podczas gdy każdy detektor wytrenowany na jednym modelu spadłby poniżej 0,80.

Podstawowy trend: trudność wykrywania rośnie szybciej niż kadencja wydań generatorów. Każda nowa flagowa wersja jest trudniejsza do wykrycia niż poprzednia, doszkolenie zamyka lukę, ale nie w pełni. Spodziewaj się, że linia bazowa 2026–2027 będzie miała niższe AUC dla modeli frontier i w przybliżeniu stałe dla modeli legacy.

Często zadawane pytania

Jeśli niektóre modele są trudniejsze do wykrycia, czy powinienem w ogóle używać detektorów?

Nie — nawet dla najtrudniejszych rodzin modeli nasze AUC przekracza 0,85, co jest silnym sygnałem. Pytanie brzmi, jak używasz sygnału. W przypadku modeli trudnych do wykrycia połącz wynik z potwierdzającymi dowodami (historia edycji, praca na zajęciach, rozmowa ze studentem). W przypadku łatwiejszych modeli wynik sam w sobie często wystarczy.

Którego modelu powinienem użyć, jeśli chcę uniknąć wykrywania?

Nie odpowiadamy bezpośrednio na to pytanie — prowadzimy narzędzie do wykrywania, a nie przewodnik po unikaniu. Co powiemy: wykrywalny-vs-niewykrywalny to nie właściwa oś do wyboru modelu. Jakość, koszt i dopasowanie do celu mają znacznie większe znaczenie niż trudność wykrywania. Jeśli piszesz zgodnie z prawem z pomocą AI, ujawnienie i przejrzysty przepływ pracy mają większe znaczenie niż ukrywanie narzędzia.

Czy warianty modeli open-weights mają różne profile wykrywania?

Tak, i to znacząco. Dostrojony przez społeczność wariant Llama 3.3 wytrenowany dla konkretnego stylu pisania może produkować tekst, który jest oceniany inaczej niż standardowy Llama 3.3. Nasz benchmark obejmuje standardowy punkt kontrolny; niestandardowe dostrojenia mogą być łatwiejsze (jeśli zawężają rozkłady wyników) lub trudniejsze (jeśli jawnie trenują adversarialnie przeciwko wykrywaniu).

Jak temperatura i próbkowanie wpływają na wykrywalność?

Wyższa temperatura i bardziej zróżnicowane próbkowanie generalnie zmniejszają wykrywalność, ponieważ poszerzają rozkład wyników. Zachłanne dekodowanie o niskiej temperaturze jest najłatwiejsze do wykrycia. Większość produkcyjnych interfejsów czatowych działa z t≈0,7–1,0 z próbkowaniem jądrowym, co umieszcza je w umiarkowanie wykrywalnym reżimie — nasz ensemble działa podobnie w całym domyślnym zakresie.

Kiedy pojawi się GPT-6 lub Claude 5 i czego się spodziewać?

Połowa 2026 r. to konsensusowa prognoza dla obu. Spodziewaj się, że AUC wykrywania dla nowych rodzin spadnie do zakresu 0,80–0,85 przez pierwsze 4–8 tygodni po premierie, podczas gdy zbieramy próbki i doszkalamy. Historyczne wersje sugerują pełne odzyskanie w ciągu 8–12 tygodni, jeśli model jest powszechnie dostępny; dłużej dla rzadkich lub modeli o ograniczonym dostępie.

Wyniki AUC per-model pochodzą z naszej wewnętrznej walidacji i mogą nie uogólniać się. Trudność każdego modelu zmienia się w czasie, gdy zarówno generator, jak i nasz korpus treningowy ewoluują. Aktualne dane odzwierciedlają przebieg benchmarku 2026-04.