Nem minden AI-szöveg egyformán felismerhető. Íme a generátorankénti benchmark eredményeink — mely modellcsaládokat kapja el a detektorunk közel tökéletes pontossággal, melyekkel küzd, és mit mond ez a felismerési munkafolyamat megválasztásáról.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
A validációs készletünkön a legkönnyebben felismerhetőtől a legnehezebbig rendezve. A szórás széles — az AUC egyes modellcsaládokon meghaladja a 0,99-et, míg mások a 0,80-as sávba esnek. A felismerési nehézség korrelál a modell méretével, az utasítással finomhangolás kifinomultságával és a kimenet szórásával.
A teljes generátorankénti bontás módszertanáért lásd a pontossági benchmark oldalunkat. Ez a cikk összefoglalja az adatok gyakorlati következményeit a detektort és a modellt választó felhasználók számára.
A GPT-3.5 a legkönnyebben felismerhető modern modell — AUC [AUC: ?] a mi készletünkön. A hagyományos generálási artefaktumok (ismétlés, kivárás, unalmas regiszter) még mindig tisztán jelen vannak. A GPT-4 AUC [AUC: ?]-re csökken, a GPT-4o [AUC: ?]-ra, fokozatosan jobb kalibrálást tükrözve. A GPT-5.x a legnehezebbik a modellcsaládban — AUC [AUC: ?] —, mert az utasítással finomhangolási csapat kifejezetten célozta a felismerési artefaktumok eltávolítását.
Gyakorlati következmény: a GPT-3.5-korszakbeli csalást aggályoló tanulmányi munkafolyamatok nagymértékben támaszkodhatnak a felismerésre. A GPT-5-öt aggályoló munkafolyamatoknak párosítaniuk kell a felismerést kontextuális bizonyítékkal, ahogyan a tanári munkafolyamat-útmutatónkban leírjuk.
A hőmérsékletbeállítások számítanak. Az alacsony hőmérsékletű kimenetek (t≤0,5) könnyebben felismerhetők, mert szűkebb szókincsre összpontosítják a valószínűségi tömeget. A legtöbb csevegési interfész alapértelmezésben t≈0,7-et használ, ami a szöveget mérsékelten felismerhető zónába helyezi. Az adversariális felhasználók kifejezetten felcsavarják a hőmérsékletet vagy változatos dekódolást alkalmaznak, hogy kiszélesítsék a tartományt és kijátsszák a felismerést — az összesítőnk részben korrigálja ezt, de nem teljesen.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. A Claude-modellcsalád következetesen kevésbé ismétlődő, stílusban változatosabb szöveget produkál, mint az azonos generációs GPT-modellek, ami statisztikai módszerekkel nehezebbé teszi a felismerést.
A Claude alkotmányos-AI betanítása kifejezetten azokat a “gépi jeleket” célozza, amelyeket a felügyelt osztályozónk megtanul — kivárási minták, specifikus kötőszavak túlzott használata, kiszámítható bekezdésszerkezet. Ez közvetlen adversariális kapcsolat: a generátor azokat a jellemzőket célozza, amelyekre a detektor támaszkodik.
A Claude 4.5 Sonnet és a GPT-5.x nehézségben közel van egymáshoz. A pontszámeloszlásaik a validációs adatainkban a legjobban átfednek az emberi alapvonallal. Ha a munkafolyamata e modellek bármelyikét célozza, várjon csökkent visszahívást az alapértelmezett küszöbnél, és fontolja meg az F1-optimálisra való csökkentést a magas érzékenységű szűréshez.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. A Gemini a legváltozatosabb felismerési teljesítményt mutatta a verziók között — néhány közbenső kiadás ideiglenesen visszaesett, mielőtt a fejlesztések megérkeztek.
A Gemini multimodális betanítása azt jelenti, hogy a csak szöveg kimenetek néha maradványmintákat hordoznak kép-felirat vagy kód-magyarázat területekről. A detektorunk ezeket felismeri, ami magyarázza a Gemini kissé magasabb felismerhetőségét vegyes terület-utasításokon, mint a tiszta prózán.
A Google Workspace-felhasználók számára, akiknek diákjai vagy alkalmazottai a Gemint a Docs-on keresztül használják, a felismerési jel hasonló a nyers API-kimenethez. Nem figyeltünk meg a közvetlen Gemini API-használattól eltérő munkahely-integrációs kijátszási mintákat.
Illessze be bármely LLM kimenetét, és tekintse meg a mondatonkénti ítéletet. A detektorunk mind a 22 modellcsaládot egyetlen összesítő ellenőrzésként kezeli.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. A nyílt súlyú modellek szélesebb tartományt fednek le, mint a zárt modellek — finomhangolt változatok, kvantált telepítések és közösség által módosított ellenőrzőpontok mind kissé eltérő kimeneteket produkálnak.
A nyílt súlyúak felismerése stratégiailag fontos, mert a humanizálóeszközök általában nyílt súlyú modelleken épülnek — a Llama és Mistral deriváltjai alacsony költséggel futnak helyileg, ezért az árazzák ki a parafrázis- és stílusátviteli szolgáltatásokat. Ha az aggálya a humanizált AI, akkor végső soron Llama-alapú generálás ellen védekezik.
A DeepSeek R1 és az o3-mini (OpenAI gondolkodási modell) külön megemlítést érdemel. Mindkettő érvelési lánc artefaktumokkal rendelkező szöveget produkál — a kimenetben látható, explicit lépésről-lépésre haladó logika —, amelyet a detektorunk megtanult felismerni. A gondolkodási modellek jelenleg könnyebben felismerhetők, mint az alap-csevegési megfelelőik emiatt.
Ha modellt választ az íráshoz, és a felismerés nem aggálya, a Claude 4.5 Sonnet és a GPT-5 a legnehezebben felismerhető. Ha felismerési munkafolyamatot épít, priorizáljon a ténylegesen látott modellek szerint: a legtöbb tanulmányi visszaélés még mindig GPT-4/5-ön fut ingyenes interfészeken; a legtöbb tartalomgyártás Llama-derivált humanizálókon fut.
Egy egységes modellcsaládra betanított egyetlen detektor a többi esetén teljesít a legrosszabbul. Összesítő megközelítésünk mind a 22 generátorból vett mintákon tanít, ezért a nehéz eseteken (Claude 4.5, GPT-5) modellazonkénti AUC még mindig 0,90 felett van, míg bármely egyetlen modellre betanított detektor 0,80 alá esne.
Az alapvető tendencia: a felismerési nehézség gyorsabban nő, mint a generátorkiadások üteme. Minden új csúcsmodell nehezebben felismerhető az előzőnél; az újratanítás csökkenti a rést, de nem teljesen. Várható, hogy a 2026–2027-es alapvonal alacsonyabb AUC-t mutat a határmodelleken, és nagyjából állandót a hagyományos modelleken.
A modellenkénti AUC számok a belső validációnkból származnak, és előfordulhat, hogy nem általánosíthatók. Az egyes modellek nehézsége idővel változik, ahogy mind a generátor, mind a betanítási korpuszunk fejlődik. A jelenlegi adatok a 2026-04-es benchmark futtatást tükrözik.