Acasă › Cât de precis este detectarea AI? Benchmark pe 22 de LLM-uri | Detector de plagiat

Cât de precis este detectarea AI? Benchmarkul nostru pe 22 de LLM-uri

Publicăm acuratețea reală a detectorului nostru AI față de 22 de modele generative, inclusiv GPT-5, Claude 4, Gemini 2 și Llama 3. Tabele per model, limitări oneste și un set de date descărcabil pentru cercetători.

2026-04-17 · Plagiarism Detector Team

De ce publicăm datele noastre de acuratețe

Majoritatea instrumentelor de detectare AI vă cer să aveți încredere într-un singur scor opac. Credem că meritați dovezi. Pe această pagină împărtășim rezultatele complete ale rulării noastre interne de validare — fiecare generator testat, scorul AUC-ROC obținut, tipurile de eseu care ne-au creat cele mai mari dificultăți și pragurile de decizie pe care le folosim în producție.

Acest nivel de transparență este neobișnuit în spațiul detectării AI. Majoritatea concurenților — furnizori de verificatoare de plagiat, servicii specializate de detectare AI, instrumente SaaS generice — publică fie deloc date de acuratețe, fie un singur număr ales pe sprânceană. Acest model este nesustenabil: educatorii, editorii și cercetătorii au nevoie de benchmark-uri reproductibile înainte să poată conta pe orice instrument.

Datele noastre provin dintr-un eșantion de validare de 1.000 de probe din corpusul de calibrare folosit pentru a antrena detectorul nostru ModernBERT. Aceeași metodologie care stă la baza acestui benchmark rulează pe fiecare document trimis prin instrumentul nostru. Nimic nu este reținut pentru demonstrații.

Corpusul de testare și metodologia

Setul de validare conține 1.000 de eseuri extrase dintr-un corpus de calibrare de 1.200 de eșantioane: 600 de eseuri scrise de oameni (din datele sarcinii partajate PAN25 și din setul de date de eseuri argumentative PERSUADE) și 600 de eseuri generate de AI (produse de 22 de modele lingvistice mari distincte în condiții de promptare controlată). Împărțirea 80/20 antrenament-validare este fixă și reproductibilă.

Fiecare eșantion este evaluat izolat, fără acces la metadate care ar putea dezvălui adevărul de referință. Detectorul returnează o probabilitate în [0, 100] reprezentând probabilitatea ca eșantionul să fie generat de AI. Calculăm apoi aria de sub curba caracteristicii de operare a receptorului (AUC-ROC) per generator și la nivelul tipului de eseu.

Toate pragurile, hiperparametrii de antrenament și probabilitățile brute de ieșire sunt înregistrate. Setul de date în sine este disponibil pentru descărcare în partea de jos a acestei pagini — format CSV, un rând per eșantion, cu identitatea generatorului, eticheta tipului de eseu, scorul brut și verdictul binar final.

Rezultate principale

Pe întregul set de 1.000 de eșantioane, detectorul nostru ensemble atinge AUC-ROC [AUC: 0,9884]. La pragul de decizie de 50% folosit în producție: 0 fals pozitive pe eseurile umane din setul de validare și 60% rată de detectare pe eseurile AI. La pragul optim F1 de 26,56%, rata de detectare crește la 90% cu costul de 2% fals pozitive — un compromis mai potrivit pentru fluxurile de lucru de screening cu sensibilitate ridicată.

Verdictul la nivel de document al instrumentului nostru public folosește pragul conservator de 50%, prioritizând zero fals pozitive față de detectarea maximă. Profesorii, editorii și cercetătorii pot suprascrie aceasta prin glisorul de sensibilitate din widget atunci când doresc o marcare mai agresivă.

Pentru comparație, componenta zero-shot Binoculars singură (o configurație 2× Llama-3.1-8B) obține AUC [AUC: 0,8509] de sine stătător. Componenta ModernBERT reglată fin singură obține [AUC: 1,0000] pe eseuri din distribuție și [AUC: 0,9069] pe text în afara distribuției. Ensemble-ul se situează între ele pe orice axă singulară, dar le depășește pe amândouă în medie, deoarece corectează punctele slabe complementare ale acestora.

Defalcare per generator

Iată tabelul AUC-ROC per model. Modelele sunt ordonate de la cel mai ușor la cel mai greu de detectat în setul nostru de validare. [TABEL PER MODEL — completați numerele reale din rezultatele dkr_eval_pan25/ înainte de publicare]

Modele OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Altele: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Tiparul principal: modelele mai noi, mai mari, reglate prin instrucțiuni tind să producă text care arată mai uman oricărui detector statistic, inclusiv al nostru. Claude 4.5 Sonnet și GPT-5.x sunt cele două familii unde distribuțiile scorurilor noastre se suprapun cel mai mult cu linia de bază umană. Aceasta corespunde cu fiecare studiu independent publicat în 2025 — cursa înarmărilor este reală, iar dimensiunea modelului reprezintă un obstacol direct pentru detectare.

Unde detectorul are dificultăți

Nu toate textele sunt detectabile în aceeași măsură. Defalcăm rezultatele pe tip de eseu — fiecare categorie de prompt PERSUADE — iar diferența dintre cel mai bun și cel mai slab este semnificativă. [TABEL PE TIP]

Eseuri argumentative, persuasive și expozitive: domeniul cel mai puternic al detectorului. AUC tipic 0,97–1,00 deoarece corpusurile de antrenament supraponderează aceste stiluri. Acesta este domeniul în care se încadrează majoritatea cazurilor de integritate academică.

Scriere creativă și analiză literară: domeniul nostru cel mai slab. Pentru analiza literară, AUC scade la 0,69 — stilul uman în ficțiune converge cu rezultatele LLM și nici componenta noastră supervizată, nici cea zero-shot nu le pot distinge în mod fiabil. Tratați un scor AI ridicat pe ficțiune cu scepticism.

Testați detectorul pe propriul dvs. text

Lipiți orice document și vedeți același verdict per propoziție și pragurile de decizie pe care le folosim pentru aceste numere de benchmark. Gratuit, fără înregistrare.

Limitări și moduri de eșec

Trei clase de texte scapă detectorului nostru mai des decât sugerează setul nostru de validare. Textul AI umanizat — rezultate trecute printr-un instrument adversarial de parafrazare sau transfer de stil — obține adesea scor de text uman chiar și atunci când textul subiacent a fost generat integral. Textul scurt (sub 100 de cuvinte) este greu de clasificat deoarece nu există suficient semnal statistic. Scrisul în engleză non-nativă poate obține scor de text AI deoarece LLM-urile și scriitorii ESL împărtășesc anumite preferințe lexicale și sintactice.

Detectorul nostru este probabilistic, nu probatoriu. Un scor AI ridicat este un semnal pentru a investiga mai departe, nu o dovadă de conduită necorespunzătoare. Recomandăm insistent asocierea scorului cu contextul: istoricul recent al editărilor, versiunile de draft, mostre de scriere de la același autor și — acolo unde este permis — o scurtă conversație de urmărire cu autorul.

Ne reantrenăm continuu pe cele mai recente rezultate ale generatoarelor, dar există întotdeauna un decalaj: un model lansat săptămâna trecută poate să nu fie bine reprezentat în datele de antrenament. Dacă fluxul dvs. de lucru depinde de detectarea celor mai recente modele, reverificați pagina noastră de benchmark trimestrial pentru numerele actualizate.

Descărcați setul complet de date

Publicăm rezultatele brute de validare astfel încât cercetătorii, jurnaliștii și educatorii să poată verifica independent afirmațiile noastre. CSV-ul conține: ID eșantion, identitatea generatorului (sau 'human'), eticheta tipului de eseu, probabilitatea brută de ieșire, verdictul binar la pragul de 50%, verdictul binar la pragul de 26,56%.

Descărcare: ai-detector-benchmark-2026-04.csv (actualizat trimestrial). Utilizarea academică este nerestricționată; republicarea comercială necesită atribuire: „Detector de plagiat — AI Detection Benchmark 2026-04”.

Pentru o versiune interactivă a aceleiași metodologii pe propriul dvs. text, încercați instrumentul nostru Verificator AI și plagiat — lipiți orice document și vedeți verdictul per propoziție, aceleași praguri de decizie și același interval de încredere pe care le folosim pentru aceste numere publicate.

Întrebări frecvente

Cât de des este actualizat acest benchmark?

În fiecare trimestru. Când un generator major (GPT-6, Claude 5, Gemini 3) este lansat, îl adăugăm în corpusul de testare în termen de 4 săptămâni și republicăm tabelul actualizat. Versiunile istorice sunt arhivate cu nume de fișiere datate — ediția 2026-04 este versiunea stabilă curentă.

De ce nu publicați probabilitățile per eșantion?

Publicăm — CSV-ul descărcabil conține probabilități brute. Ceea ce nu publicăm este textul original al eseului, deoarece corpusul PAN25 și setul de date PERSUADE au restricții de redistribuire. Dacă doriți textul, accesați acele seturi de date direct din sursa lor (linkuri în documentația CSV).

Pot avea încredere într-un detector dacă AUC este sub 1,0?

Niciun detector nu atinge AUC 1,0 pe fiecare generator, deci întrebarea nu este „este perfect” ci „este transparent”. Un detector care publică AUC 0,95 și vă spune unde are dificultăți este mai demn de încredere decât unul care publică „acuratețe de top din industrie” fără niciun număr. AUC-ul nostru [AUC: 0,9884] este performanța medie onestă; defalcările per generator și per tip de eseu sunt locul unde ar trebui să vă luați decizia de achiziție.

Detectorul dvs. AI este pregătit pentru publicații academice?

Metodologia de bază este — Binoculars (ICML 2024) și ModernBERT sunt ambele arhitecturi revizuite de colegi. Corpusul nostru specific de reglare fină și pragurile sunt proprietare, dar metodologia de benchmark este complet reproductibilă.

Cum se compară instrumentul online gratuit cu produsul desktop?

Același motor, aceleași numere de acuratețe, aceeași logică de verdict per propoziție. Produsul desktop adaugă lungime nelimitată a documentelor, scanare offline, potrivire integrată a plagiatului față de 4 miliarde de pagini web și procesare în lot a dosarelor întregi. Pentru verificări ocazionale, instrumentul online este suficient; pentru fluxuri de lucru zilnice, desktopul este instrumentul potrivit.

Rezultatele benchmark-ului sunt derivate din setul nostru intern de validare și este posibil să nu se generalizeze la text în afara distribuției. Numerele publicate reprezintă performanța medie pe 1.000 de eșantioane; documentul dvs. poate obține scoruri diferite. Utilizați rezultatele detectării AI ca una dintre mai multe intrări, nu ca singura dovadă a paternității.