Non tutti i testi IA sono ugualmente rilevabili. Ecco i risultati del nostro benchmark per generatore — quali famiglie di modelli il nostro rilevatore intercetta con precisione quasi perfetta, con quali incontra difficoltà e cosa questo vi dice sulla scelta di un flusso di lavoro di rilevamento.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Ordinati dal più facile al più difficile da rilevare nel nostro set di validazione. La distribuzione è ampia — l'AUC su alcune famiglie di modelli supera 0,99 mentre altre scendono agli 0,80. La difficoltà di rilevamento è correlata con la dimensione del modello, la sofisticazione dell'instruction-tuning e la varianza dell'output.
Per la metodologia completa del dettaglio per generatore, consultate la nostra pagina del benchmark di precisione. Questo articolo riassume le implicazioni pratiche di tali dati per gli utenti che scelgono quale rilevatore fidarsi e quale modello utilizzare.
GPT-3.5 è il modello moderno più facile da rilevare — AUC [AUC: ?] nel nostro set. Gli artefatti di generazione legacy (ripetizione, evasività, registro banale) rimangono chiaramente presenti. GPT-4 scende ad AUC [AUC: ?], GPT-4o a [AUC: ?], riflettendo una calibrazione progressivamente migliore. GPT-5.x è il più difficile della famiglia — AUC [AUC: ?] — perché il team di instruction-tuning ha preso esplicitamente di mira la rimozione degli artefatti di rilevamento.
Implicazione pratica: i flussi di lavoro accademici preoccupati per l'imbroglio nell'era GPT-3.5 possono fare molto affidamento solo sul rilevamento. I flussi di lavoro preoccupati per GPT-5 devono abbinare il rilevamento a prove contestuali, come descritto nella nostra guida al flusso di lavoro per insegnanti.
Le impostazioni di temperatura sono importanti. Gli output a bassa temperatura (t≤0,5) sono più facili da rilevare perché concentrano la massa di probabilità su un vocabolario più ristretto. La maggior parte delle interfacce chat predefinisce t≈0,7, collocando il testo in una zona moderatamente rilevabile. Gli utenti avversariali alzano esplicitamente la temperatura o utilizzano decodifiche diversificate per ampliare la gamma e sfuggire al rilevamento — il nostro ensemble corregge parzialmente per questo ma non completamente.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. La famiglia Claude produce costantemente testi meno ripetitivi e più variegati stilisticamente rispetto ai modelli GPT della stessa generazione, il che la rende più difficile da rilevare con metodi statistici.
L'addestramento costituzionale-IA di Claude prende esplicitamente di mira i “indizi meccanici” che il nostro classificatore supervisionato apprende — pattern di evasività, uso eccessivo di specifici connettivi, struttura paragrafica prevedibile. Questa è una relazione avversariale diretta: il generatore è addestrato contro le caratteristiche su cui si basa il rilevatore.
Claude 4.5 Sonnet e GPT-5.x sono simili in difficoltà. Le loro distribuzioni di punteggio si sovrappongono maggiormente alla baseline umana nei nostri dati di validazione. Se il vostro flusso di lavoro si rivolge a uno di questi modelli, aspettatevi un recall ridotto alla soglia predefinita e considerate di abbassarla all'ottimale F1 per lo screening ad alta sensibilità.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini ha mostrato le prestazioni di rilevamento più variabili tra le versioni — alcune versioni intermedie hanno subito regressioni temporanee prima che i miglioramenti arrivassero.
L'addestramento multi-modale di Gemini significa che gli output solo testo a volte portano pattern vestigiali dai domini di didascalie di immagini o spiegazione di codice. Il nostro rilevatore li individua, il che spiega la leggermente maggiore rilevabilità di Gemini sui prompt a dominio misto rispetto alla prosa pura.
Per gli utenti di Google Workspace i cui studenti o dipendenti utilizzano Gemini tramite Docs, il segnale di rilevamento è simile all'output grezzo dell'API. Non abbiamo osservato pattern di evasione specifici per l'integrazione workspace distinti dall'uso diretto dell'API Gemini.
Incollate l'output di qualsiasi LLM e vedete il verdetto frase per frase. Il nostro rilevatore tratta tutte le 22 famiglie di modelli come un singolo controllo ensemble.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. I modelli open-weights coprono una gamma più ampia di quelli chiusi — varianti con fine-tuning, deployment quantizzati e checkpoint modificati dalla community producono tutti output sottilmente diversi.
Il rilevamento degli open-weights è strategicamente importante perché gli strumenti di umanizzazione sono di solito costruiti su modelli open-weights — i derivati di Llama e Mistral girano localmente a basso costo, motivo per cui i servizi di parafrasi e trasferimento di stile li prezzano competitivamente. Se la vostra preoccupazione è l'IA umanizzata, state fondamentalmente difendendovi contro la generazione della famiglia Llama.
DeepSeek R1 e o3-mini (modello di ragionamento OpenAI) meritano menzione separata. Entrambi producono testo con artefatti di catena di ragionamento — logica passo-passo esplicita visibile nell'output — che il nostro rilevatore ha imparato a riconoscere. I modelli di ragionamento sono attualmente più facili da rilevare rispetto alle loro controparti base-chat per questo motivo.
Se state scegliendo un modello con cui scrivere e il rilevamento non è la vostra preoccupazione, Claude 4.5 Sonnet e GPT-5 sono i più difficili da rilevare. Se state costruendo un flusso di lavoro di rilevamento, date priorità ai modelli che vedete effettivamente: la maggior parte degli abusi accademici avviene ancora su GPT-4/5 tramite interfacce gratuite; la maggior parte del content farming avviene su strumenti di umanizzazione derivati da Llama.
Un singolo rilevatore addestrato su una singola famiglia di modelli avrà le prestazioni peggiori sugli altri. Il nostro approccio ensemble si addestra su campioni di tutti i 22 generatori, motivo per cui l'AUC per modello sui casi difficili (Claude 4.5, GPT-5) è ancora sopra 0,90 mentre qualsiasi rilevatore addestrato su un solo modello scenderebbe sotto 0,80.
La tendenza sottostante: la difficoltà di rilevamento sta aumentando più velocemente della cadenza di rilascio dei generatori. Ogni nuovo flagship è più difficile da rilevare del precedente, il riaddestramento chiude il gap ma non completamente. Aspettatevi che la baseline 2026–2027 sia un AUC inferiore sui modelli di frontiera e sostanzialmente costante sui modelli legacy.
I numeri AUC per modello derivano dalla nostra validazione interna e potrebbero non generalizzarsi. La difficoltà di ciascun modello cambia nel tempo man mano che sia il generatore che il nostro corpus di training si evolvono. I dati attuali riflettono il benchmark 2026-04.