Publicăm acuratețea reală a detectorului nostru AI față de 22 de modele generative, inclusiv GPT-5, Claude 4, Gemini 2 și Llama 3. Tabele per model, limitări oneste și un set de date descărcabil pentru cercetători.
Majoritatea instrumentelor de detectare AI vă cer să aveți încredere într-un singur scor opac. Credem că meritați dovezi. Pe această pagină împărtășim rezultatele complete ale rulării noastre interne de validare — fiecare generator testat, scorul AUC-ROC obținut, tipurile de eseu care ne-au creat cele mai mari dificultăți și pragurile de decizie pe care le folosim în producție.
Acest nivel de transparență este neobișnuit în spațiul detectării AI. Majoritatea concurenților — furnizori de verificatoare de plagiat, servicii specializate de detectare AI, instrumente SaaS generice — publică fie deloc date de acuratețe, fie un singur număr ales pe sprânceană. Acest model este nesustenabil: educatorii, editorii și cercetătorii au nevoie de benchmark-uri reproductibile înainte să poată conta pe orice instrument.
Datele noastre provin dintr-un eșantion de validare de 1.000 de probe din corpusul de calibrare folosit pentru a antrena detectorul nostru ModernBERT. Aceeași metodologie care stă la baza acestui benchmark rulează pe fiecare document trimis prin instrumentul nostru. Nimic nu este reținut pentru demonstrații.
Setul de validare conține 1.000 de eseuri extrase dintr-un corpus de calibrare de 1.200 de eșantioane: 600 de eseuri scrise de oameni (din datele sarcinii partajate PAN25 și din setul de date de eseuri argumentative PERSUADE) și 600 de eseuri generate de AI (produse de 22 de modele lingvistice mari distincte în condiții de promptare controlată). Împărțirea 80/20 antrenament-validare este fixă și reproductibilă.
Fiecare eșantion este evaluat izolat, fără acces la metadate care ar putea dezvălui adevărul de referință. Detectorul returnează o probabilitate în [0, 100] reprezentând probabilitatea ca eșantionul să fie generat de AI. Calculăm apoi aria de sub curba caracteristicii de operare a receptorului (AUC-ROC) per generator și la nivelul tipului de eseu.
Toate pragurile, hiperparametrii de antrenament și probabilitățile brute de ieșire sunt înregistrate. Setul de date în sine este disponibil pentru descărcare în partea de jos a acestei pagini — format CSV, un rând per eșantion, cu identitatea generatorului, eticheta tipului de eseu, scorul brut și verdictul binar final.
Pe întregul set de 1.000 de eșantioane, detectorul nostru ensemble atinge AUC-ROC [AUC: 0,9884]. La pragul de decizie de 50% folosit în producție: 0 fals pozitive pe eseurile umane din setul de validare și 60% rată de detectare pe eseurile AI. La pragul optim F1 de 26,56%, rata de detectare crește la 90% cu costul de 2% fals pozitive — un compromis mai potrivit pentru fluxurile de lucru de screening cu sensibilitate ridicată.
Verdictul la nivel de document al instrumentului nostru public folosește pragul conservator de 50%, prioritizând zero fals pozitive față de detectarea maximă. Profesorii, editorii și cercetătorii pot suprascrie aceasta prin glisorul de sensibilitate din widget atunci când doresc o marcare mai agresivă.
Pentru comparație, componenta zero-shot Binoculars singură (o configurație 2× Llama-3.1-8B) obține AUC [AUC: 0,8509] de sine stătător. Componenta ModernBERT reglată fin singură obține [AUC: 1,0000] pe eseuri din distribuție și [AUC: 0,9069] pe text în afara distribuției. Ensemble-ul se situează între ele pe orice axă singulară, dar le depășește pe amândouă în medie, deoarece corectează punctele slabe complementare ale acestora.
Iată tabelul AUC-ROC per model. Modelele sunt ordonate de la cel mai ușor la cel mai greu de detectat în setul nostru de validare. [TABEL PER MODEL — completați numerele reale din rezultatele dkr_eval_pan25/ înainte de publicare]
Modele OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Altele: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Tiparul principal: modelele mai noi, mai mari, reglate prin instrucțiuni tind să producă text care arată mai uman oricărui detector statistic, inclusiv al nostru. Claude 4.5 Sonnet și GPT-5.x sunt cele două familii unde distribuțiile scorurilor noastre se suprapun cel mai mult cu linia de bază umană. Aceasta corespunde cu fiecare studiu independent publicat în 2025 — cursa înarmărilor este reală, iar dimensiunea modelului reprezintă un obstacol direct pentru detectare.
Nu toate textele sunt detectabile în aceeași măsură. Defalcăm rezultatele pe tip de eseu — fiecare categorie de prompt PERSUADE — iar diferența dintre cel mai bun și cel mai slab este semnificativă. [TABEL PE TIP]
Eseuri argumentative, persuasive și expozitive: domeniul cel mai puternic al detectorului. AUC tipic 0,97–1,00 deoarece corpusurile de antrenament supraponderează aceste stiluri. Acesta este domeniul în care se încadrează majoritatea cazurilor de integritate academică.
Scriere creativă și analiză literară: domeniul nostru cel mai slab. Pentru analiza literară, AUC scade la 0,69 — stilul uman în ficțiune converge cu rezultatele LLM și nici componenta noastră supervizată, nici cea zero-shot nu le pot distinge în mod fiabil. Tratați un scor AI ridicat pe ficțiune cu scepticism.
Lipiți orice document și vedeți același verdict per propoziție și pragurile de decizie pe care le folosim pentru aceste numere de benchmark. Gratuit, fără înregistrare.
Trei clase de texte scapă detectorului nostru mai des decât sugerează setul nostru de validare. Textul AI umanizat — rezultate trecute printr-un instrument adversarial de parafrazare sau transfer de stil — obține adesea scor de text uman chiar și atunci când textul subiacent a fost generat integral. Textul scurt (sub 100 de cuvinte) este greu de clasificat deoarece nu există suficient semnal statistic. Scrisul în engleză non-nativă poate obține scor de text AI deoarece LLM-urile și scriitorii ESL împărtășesc anumite preferințe lexicale și sintactice.
Detectorul nostru este probabilistic, nu probatoriu. Un scor AI ridicat este un semnal pentru a investiga mai departe, nu o dovadă de conduită necorespunzătoare. Recomandăm insistent asocierea scorului cu contextul: istoricul recent al editărilor, versiunile de draft, mostre de scriere de la același autor și — acolo unde este permis — o scurtă conversație de urmărire cu autorul.
Ne reantrenăm continuu pe cele mai recente rezultate ale generatoarelor, dar există întotdeauna un decalaj: un model lansat săptămâna trecută poate să nu fie bine reprezentat în datele de antrenament. Dacă fluxul dvs. de lucru depinde de detectarea celor mai recente modele, reverificați pagina noastră de benchmark trimestrial pentru numerele actualizate.
Publicăm rezultatele brute de validare astfel încât cercetătorii, jurnaliștii și educatorii să poată verifica independent afirmațiile noastre. CSV-ul conține: ID eșantion, identitatea generatorului (sau 'human'), eticheta tipului de eseu, probabilitatea brută de ieșire, verdictul binar la pragul de 50%, verdictul binar la pragul de 26,56%.
Descărcare: ai-detector-benchmark-2026-04.csv (actualizat trimestrial). Utilizarea academică este nerestricționată; republicarea comercială necesită atribuire: „Detector de plagiat — AI Detection Benchmark 2026-04”.
Pentru o versiune interactivă a aceleiași metodologii pe propriul dvs. text, încercați instrumentul nostru Verificator AI și plagiat — lipiți orice document și vedeți verdictul per propoziție, aceleași praguri de decizie și același interval de încredere pe care le folosim pentru aceste numere publicate.
Rezultatele benchmark-ului sunt derivate din setul nostru intern de validare și este posibil să nu se generalizeze la text în afara distribuției. Numerele publicate reprezintă performanța medie pe 1.000 de eșantioane; documentul dvs. poate obține scoruri diferite. Utilizați rezultatele detectării AI ca una dintre mai multe intrări, nu ca singura dovadă a paternității.