Nu tot textul AI este detectabil în aceeași măsură. Iată rezultatele benchmark-ului nostru per generator — care familii de modele detectorul nostru le prinde cu acuratețe aproape perfectă, care îi creează dificultăți și ce ne spune asta despre alegerea unui flux de lucru de detectare.
[TABEL DE CLASAMENT — completați cu numerele AUC reale per model din benchmark înainte de publicare]
Ordonate de la cel mai ușor la cel mai greu de detectat în setul nostru de validare. Diferența este mare — AUC pe unele familii de modele depășește 0,99, în timp ce altele scad în zona 0,80. Dificultatea detectării corelează cu dimensiunea modelului, sofisticarea reglării prin instrucțiuni și varianța rezultatelor.
Pentru detalii complete ale metodologiei de defalcare per generator, consultați pagina noastră de benchmark de acuratețe. Acest articol rezumă implicațiile practice ale acelor date pentru utilizatorii care aleg ce detector să aibă încredere și ce model să folosească.
GPT-3.5 este cel mai ușor model modern de detectat — AUC [AUC: ?] pe setul nostru. Artefactele de generare moștenite (repetiție, evazivitate, registru fade) rămân clar prezente. GPT-4 scade la AUC [AUC: ?], GPT-4o la [AUC: ?], reflectând o calibrare progresiv mai bună. GPT-5.x este cel mai greu din familie — AUC [AUC: ?] — deoarece echipa de reglare prin instrucțiuni a vizat explicit eliminarea artefactelor de detectare.
Implicație practică: fluxurile de lucru academice preocupate de frauda din era GPT-3.5 se pot baza în mare măsură pe detectare singură. Fluxurile de lucru preocupate de GPT-5 trebuie să asocieze detectarea cu dovezi contextuale, așa cum este descris în ghidul nostru de flux de lucru pentru profesori.
Setările de temperatură contează. Rezultatele cu temperatură scăzută (t≤0,5) sunt mai ușor de detectat deoarece concentrează masa de probabilitate pe un vocabular mai îngust. Majoritatea interfețelor de chat sunt implicite la t≈0,7, plasând textul într-o zonă moderat detectabilă. Utilizatorii adversariali ridică în mod explicit temperatura sau folosesc decodare diversă pentru a lărgi gama și a evita detectarea — ensemble-ul nostru corectează parțial acest lucru, dar nu complet.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Familia Claude produce constant text mai puțin repetitiv și mai variat stilistic decât modelele GPT din aceeași generație, ceea ce îl face mai greu de detectat prin metode statistice.
Antrenamentul constitutional-AI al lui Claude vizează în mod specific semnele mașinii pe care clasificatorul nostru supervizat le învață — tipare de evazivitate, suprafolosirea unor conectori specifici, structura previzibilă a paragrafelor. Aceasta este o relație adversarială directă: generatorul este antrenat împotriva caracteristicilor de care se bazează detectorul.
Claude 4.5 Sonnet și GPT-5.x sunt apropiați ca dificultate. Distribuțiile lor de scoruri se suprapun cel mai mult cu linia de bază umană în datele noastre de validare. Dacă fluxul dvs. de lucru vizează oricare dintre aceste modele, așteptați-vă la o rată de detectare redusă la pragul implicit și luați în considerare coborârea la F1-optim pentru screening cu sensibilitate ridicată.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini a arătat cea mai variabilă performanță de detectare de-a lungul versiunilor — unele versiuni intermediare au regresionat temporar înainte ca îmbunătățirile să fie lansate.
Antrenamentul multi-modal al lui Gemini înseamnă că rezultatele bazate exclusiv pe text poartă uneori tipare vestigiale din domeniile de legendă a imaginilor sau explicare a codului. Detectorul nostru le sesizează, ceea ce explică detectabilitatea ușor mai ridicată a lui Gemini pe prompturi din domenii mixte față de proza pură.
Pentru utilizatorii Google Workspace ai căror studenți sau angajați folosesc Gemini prin Docs, semnalul de detectare este similar cu rezultatul brut al API-ului. Nu am observat tipare de evaziune specifice integrării în spațiul de lucru distincte față de utilizarea directă a API-ului Gemini.
Lipiți rezultatele oricărui LLM și vedeți verdictul per propoziție. Detectorul nostru tratează toate cele 22 de familii de modele ca o singură verificare ensemble.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Modelele cu ponderi deschise acoperă o gamă mai largă decât cele cu acces închis — variantele reglate fin, implementările cuantizate și punctele de control modificate de comunitate produc rezultate subtil diferite.
Detectarea pe ponderi deschise este strategic importantă deoarece instrumentele de umanizare sunt de obicei construite pe modele cu ponderi deschise — derivatele Llama și Mistral rulează local la cost redus, motiv pentru care serviciile de parafrazare și transfer de stil le prețuiesc atât de mult. Dacă preocuparea dvs. este AI umanizat, vă apărați în ultimă instanță împotriva generației din familia Llama.
DeepSeek R1 și o3-mini (modelul de raționament OpenAI) merită o mențiune separată. Ambele produc text cu artefacte de lanț de raționament — logică explicită pas cu pas vizibilă în rezultat — pe care detectorul nostru a învățat să o recunoască. Modelele de raționament sunt în prezent mai ușor de detectat decât omologii lor de chat de bază din acest motiv.
Dacă alegeți un model pentru scriere și detectarea nu este preocuparea dvs., Claude 4.5 Sonnet și GPT-5 sunt cele mai greu de detectat. Dacă construiți un flux de lucru de detectare, prioritizați pentru modelele pe care le vedeți efectiv: majoritatea utilizărilor academice incorecte rulează pe GPT-4/5 prin interfețe gratuite; majoritatea producției de conținut în masă rulează pe instrumente de umanizare bazate pe derivate Llama.
Un singur detector antrenat pe o singură familie de modele va performa cel mai slab pe celelalte. Abordarea noastră ensemble se antrenează pe eșantioane din toate cele 22 de generatoare, motiv pentru care AUC per model pe cazurile dificile (Claude 4.5, GPT-5) este în continuare peste 0,90, în timp ce orice detector antrenat pe un singur model ar scădea sub 0,80.
Tendința de fond: dificultatea detectării crește mai repede decât cadența lansărilor de generatoare. Fiecare flagship nou este mai greu de detectat decât cel anterior, reantrenarea îngustează decalajul, dar nu complet. Așteptați-vă ca baza de referință 2026–2027 să fie AUC mai scăzut pe modelele de frontieră și aproximativ constant pe modelele moștenite.
Numerele AUC per model sunt derivate din validarea noastră internă și este posibil să nu se generalizeze. Dificultatea fiecărui model se schimbă în timp pe măsură ce atât generatorul, cât și corpusul nostru de antrenament evoluează. Datele curente reflectă rularea de benchmark din 2026-04.