Casa › Come è accurato il rilevamento IA? Benchmark su 22 LLM | Rilevatore di plagio

Come è accurato il rilevamento IA? Il nostro benchmark su 22 LLM

Pubblichiamo la precisione reale del nostro rilevatore IA rispetto a 22 modelli generativi, inclusi GPT-5, Claude 4, Gemini 2 e Llama 3. Tabelle per modello, limitazioni oneste e un dataset scaricabile per i ricercatori.

2026-04-17 · Plagiarism Detector Team

Perché pubblichiamo i nostri dati di precisione

La maggior parte degli strumenti di rilevamento IA vi chiede di fidarvi di un singolo punteggio opaco. Riteniamo che meritate prove concrete. In questa pagina condividiamo i risultati completi della nostra esecuzione di validazione interna — ogni generatore testato, il punteggio AUC-ROC su ciascuno, i tipi di testo che ci hanno creato più difficoltà e le soglie decisionali che utilizziamo in produzione.

Questo livello di trasparenza è insolito nel settore del rilevamento IA. La maggior parte dei concorrenti — fornitori di controllo anti-plagio, servizi specializzati in rilevamento IA, strumenti SaaS generici — pubblica o nessun dato di precisione o un singolo numero selezionato ad arte. Questo schema non è sostenibile: educatori, editori e ricercatori hanno bisogno di benchmark riproducibili prima di poter fare affidamento su qualsiasi strumento.

I nostri numeri provengono da una suddivisione di validazione di 1.000 campioni del corpus di calibrazione usato per addestrare il nostro rilevatore ModernBERT. La stessa metodologia che guida questo benchmark viene eseguita su ogni documento che inviate tramite il nostro strumento. Niente viene trattenuto per le demo.

Il corpus di test e la metodologia

Il set di validazione contiene 1.000 saggi tratti da un corpus di calibrazione di 1.200 campioni: 600 saggi scritti da esseri umani (dal dataset del compito condiviso PAN25 e dal dataset di saggi argomentativi PERSUADE) e 600 saggi generati da IA (prodotti da 22 distinti modelli linguistici di grandi dimensioni con prompt controllati). La suddivisione training-validazione 80/20 è fissa e ripetibile.

Ogni campione viene valutato in isolamento, senza accesso a metadati che potrebbero rivelare la verità di base. Il rilevatore restituisce una probabilità in [0, 100] che rappresenta la probabilità che il campione sia generato da IA. Calcoliamo poi l'area sotto la curva caratteristica operativa del ricevitore (AUC-ROC) per generatore e a livello di tipo di testo.

Tutte le soglie, gli iperparametri di training e gli output di probabilità grezzi vengono registrati. Il dataset stesso è disponibile per il download in fondo a questa pagina — formato CSV, una riga per campione, con identità del generatore, etichetta del tipo di testo, punteggio grezzo e verdetto binario finale.

Risultati principali

Sull'intero set di 1.000 campioni, il nostro rilevatore ensemble raggiunge AUC-ROC [AUC: 0,9884]. Alla soglia decisionale del 50% che utilizziamo in produzione: 0 falsi positivi sui saggi umani nel set di validazione, e 60% di recall sui saggi IA. Alla soglia ottimale F1 del 26,56%, il recall sale al 90% al costo del 2% di falsi positivi — un compromesso più adatto ai flussi di lavoro di screening ad alta sensibilità.

Il verdetto a livello di documento nel nostro strumento pubblico utilizza la soglia conservativa del 50%, privilegiando zero falsi positivi rispetto al massimo recall. Insegnanti, editori e ricercatori possono sovrascrivere questo tramite il cursore di sensibilità nel widget quando vogliono un segnalamento più aggressivo.

Per confronto, la componente zero-shot Binoculars da sola (una configurazione 2× Llama-3.1-8B) ottiene AUC [AUC: 0,8509] in modo indipendente. La componente ModernBERT con fine-tuning da sola ottiene [AUC: 1,0000] sui testi in-distribution e [AUC: 0,9069] sui testi out-of-distribution. L'ensemble si colloca tra loro su qualsiasi asse singolo ma supera entrambi in media perché corregge le loro debolezze complementari.

Dettaglio per generatore

Ecco la tabella AUC-ROC per modello. I modelli sono ordinati dal più facile al più difficile da rilevare nel nostro set di validazione. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Modelli OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Altri: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Il pattern principale: i modelli più recenti, di dimensioni maggiori e con instruction-tuning tendono a produrre testi che sembrano più umani a qualsiasi rilevatore statistico, incluso il nostro. Claude 4.5 Sonnet e GPT-5.x sono le due famiglie in cui le nostre distribuzioni di punteggio si sovrappongono di più con la baseline umana. Questo corrisponde a ogni studio indipendente pubblicato nel 2025 — la corsa agli armamenti è reale e la dimensione del modello è un vento contrario diretto per il rilevamento.

Dove il rilevatore incontra difficoltà

Non tutti i testi sono ugualmente rilevabili. Analizziamo i risultati per tipo di testo — ogni categoria di prompt PERSUADE — e il divario tra il migliore e il peggiore è ampio. [PER-TYPE TABLE]

Saggi argomentativi, persuasivi ed espositivi: il dominio più forte del rilevatore. AUC tipicamente 0,97–1,00 perché i corpus di training privilegiano questi stili. Qui rientrano la maggior parte dei casi d'uso per l'integrità accademica.

Scrittura creativa e analisi letteraria: il nostro dominio più debole. Per l'analisi letteraria l'AUC scende a 0,69 — lo stile umano nella narrativa converge con gli output dei LLM e né la nostra componente supervisionata né quella zero-shot riescono ad distinguerli in modo affidabile. Trattate un punteggio IA elevato sulla narrativa con scetticismo.

Provate il rilevatore sul vostro testo

Incollate qualsiasi documento e vedete il verdetto frase per frase e le soglie decisionali che utilizziamo per questi numeri di benchmark. Gratuito, senza registrazione.

Limitazioni e modalità di fallimento

Tre classi di testo sfuggono al nostro rilevatore più spesso di quanto suggerisce il nostro set di validazione. Il testo IA umanizzato — output passato attraverso uno strumento di parafrasi avversariale o di trasferimento di stile — spesso ottiene un punteggio come umano anche quando il testo sottostante era completamente generato. I testi brevi (meno di 100 parole) sono difficili da classificare del tutto perché manca un segnale statistico sufficiente. La scrittura in inglese non madrelingua può ottenere un punteggio come generata da IA perché i LLM e gli scrittori ESL condividono certe preferenze lessicali e sintattiche.

Il nostro rilevatore è probabilistico, non probatorio. Un punteggio IA elevato è un segnale per indagare ulteriormente, non una prova di condotta illecita. Raccomandiamo vivamente di abbinare il punteggio al contesto: cronologia delle modifiche recenti, bozze delle versioni, campioni di scrittura dello stesso autore e — dove consentito — una breve conversazione di follow-up con l'autore.

Riaddestriamo continuamente sugli ultimi output dei generatori, ma c'è sempre un ritardo: un modello rilasciato la settimana scorsa potrebbe non essere ben rappresentato nei dati di training. Se il vostro flusso di lavoro dipende dall'individuare i modelli più recenti, controllate la nostra pagina di benchmark trimestralmente per i numeri aggiornati.

Scarica il dataset completo

Pubblichiamo i risultati grezzi della validazione in modo che ricercatori, giornalisti ed educatori possano verificare in modo indipendente le nostre affermazioni. Il CSV contiene: ID campione, identità del generatore (o 'human'), etichetta del tipo di testo, output di probabilità grezzo, verdetto binario alla soglia del 50%, verdetto binario alla soglia del 26,56%.

Download: ai-detector-benchmark-2026-04.csv (aggiornato trimestralmente). L'uso accademico è senza restrizioni; la ripubblicazione commerciale richiede attribuzione: “Rilevatore di plagio — AI Detection Benchmark 2026-04”.

Per una versione interattiva della stessa metodologia sul vostro testo, provate il nostro strumento Verificatore IA e plagio — incollate qualsiasi documento e vedete il verdetto frase per frase, le stesse soglie decisionali e lo stesso intervallo di confidenza che utilizziamo per questi numeri pubblicati.

Domande frequenti

Con quale frequenza viene aggiornato questo benchmark?

Ogni trimestre. Quando viene lanciato un generatore principale (GPT-6, Claude 5, Gemini 3), lo aggiungiamo al corpus di test entro 4 settimane e pubblichiamo nuovamente la tabella aggiornata. Le versioni storiche sono archiviate con nomi di file datati — l'edizione 2026-04 è la versione stabile corrente.

Perché non pubblicate gli output di probabilità per campione?

Lo facciamo — il CSV scaricabile contiene le probabilità grezze. Quello che non pubblichiamo è il testo originale del saggio, perché il corpus PAN25 e il dataset PERSUADE hanno restrizioni di ridistribuzione. Se volete il testo, scaricate direttamente quei dataset dalla loro fonte (link nella documentazione CSV).

Posso fidarmi di un rilevatore se l'AUC è inferiore a 1,0?

Nessun rilevatore raggiunge AUC 1,0 su ogni generatore, quindi la domanda non è ‘è perfetto’ ma ‘è trasparente.’ Un rilevatore che pubblica AUC 0,95 e vi dice dove incontra difficoltà è più affidabile di uno che pubblica ‘precisione leader del settore’ senza alcun numero. Il nostro AUC [AUC: 0,9884] è una performance media onesta; i dettagli per generatore e per tipo di testo sono dove dovreste prendere la vostra decisione d'acquisto.

Il vostro rilevatore IA è pronto per la pubblicazione accademica?

La metodologia sottostante lo è — Binoculars (ICML 2024) e ModernBERT sono entrambe architetture sottoposte a revisione paritetica. Il nostro corpus specifico di fine-tuning e le soglie sono proprietari, ma la metodologia di benchmark è completamente riproducibile.

Come si confronta lo strumento online gratuito con il prodotto desktop?

Stesso motore, stessi numeri di precisione, stessa logica del verdetto frase per frase. Il prodotto desktop aggiunge lunghezza illimitata dei documenti, scansione offline, corrispondenza integrata del plagio su 4 miliardi di pagine web ed elaborazione in batch di intere cartelle. Per controlli occasionali lo strumento online è sufficiente; per i flussi di lavoro quotidiani il desktop è lo strumento giusto.

I risultati del benchmark derivano dal nostro set di validazione interno e potrebbero non generalizzarsi a testi out-of-distribution. I numeri pubblicati rappresentano le prestazioni medie su 1.000 campioni; il vostro documento potrebbe ottenere un punteggio diverso. Utilizzate i risultati del rilevamento IA come uno degli input, non come unica prova di paternità.