Casa › Quale IA è più difficile da rilevare? GPT vs Claude vs Gemini | Rilevatore di plagio

Quale IA è più difficile da rilevare? GPT vs Claude vs Gemini vs Llama

Non tutti i testi IA sono ugualmente rilevabili. Ecco i risultati del nostro benchmark per generatore — quali famiglie di modelli il nostro rilevatore intercetta con precisione quasi perfetta, con quali incontra difficoltà e cosa questo vi dice sulla scelta di un flusso di lavoro di rilevamento.

2026-04-17 · Plagiarism Detector Team

La risposta breve — classifica

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Ordinati dal più facile al più difficile da rilevare nel nostro set di validazione. La distribuzione è ampia — l'AUC su alcune famiglie di modelli supera 0,99 mentre altre scendono agli 0,80. La difficoltà di rilevamento è correlata con la dimensione del modello, la sofisticazione dell'instruction-tuning e la varianza dell'output.

Per la metodologia completa del dettaglio per generatore, consultate la nostra pagina del benchmark di precisione. Questo articolo riassume le implicazioni pratiche di tali dati per gli utenti che scelgono quale rilevatore fidarsi e quale modello utilizzare.

Famiglia OpenAI — GPT

GPT-3.5 è il modello moderno più facile da rilevare — AUC [AUC: ?] nel nostro set. Gli artefatti di generazione legacy (ripetizione, evasività, registro banale) rimangono chiaramente presenti. GPT-4 scende ad AUC [AUC: ?], GPT-4o a [AUC: ?], riflettendo una calibrazione progressivamente migliore. GPT-5.x è il più difficile della famiglia — AUC [AUC: ?] — perché il team di instruction-tuning ha preso esplicitamente di mira la rimozione degli artefatti di rilevamento.

Implicazione pratica: i flussi di lavoro accademici preoccupati per l'imbroglio nell'era GPT-3.5 possono fare molto affidamento solo sul rilevamento. I flussi di lavoro preoccupati per GPT-5 devono abbinare il rilevamento a prove contestuali, come descritto nella nostra guida al flusso di lavoro per insegnanti.

Le impostazioni di temperatura sono importanti. Gli output a bassa temperatura (t≤0,5) sono più facili da rilevare perché concentrano la massa di probabilità su un vocabolario più ristretto. La maggior parte delle interfacce chat predefinisce t≈0,7, collocando il testo in una zona moderatamente rilevabile. Gli utenti avversariali alzano esplicitamente la temperatura o utilizzano decodifiche diversificate per ampliare la gamma e sfuggire al rilevamento — il nostro ensemble corregge parzialmente per questo ma non completamente.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. La famiglia Claude produce costantemente testi meno ripetitivi e più variegati stilisticamente rispetto ai modelli GPT della stessa generazione, il che la rende più difficile da rilevare con metodi statistici.

L'addestramento costituzionale-IA di Claude prende esplicitamente di mira i “indizi meccanici” che il nostro classificatore supervisionato apprende — pattern di evasività, uso eccessivo di specifici connettivi, struttura paragrafica prevedibile. Questa è una relazione avversariale diretta: il generatore è addestrato contro le caratteristiche su cui si basa il rilevatore.

Claude 4.5 Sonnet e GPT-5.x sono simili in difficoltà. Le loro distribuzioni di punteggio si sovrappongono maggiormente alla baseline umana nei nostri dati di validazione. Se il vostro flusso di lavoro si rivolge a uno di questi modelli, aspettatevi un recall ridotto alla soglia predefinita e considerate di abbassarla all'ottimale F1 per lo screening ad alta sensibilità.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini ha mostrato le prestazioni di rilevamento più variabili tra le versioni — alcune versioni intermedie hanno subito regressioni temporanee prima che i miglioramenti arrivassero.

L'addestramento multi-modale di Gemini significa che gli output solo testo a volte portano pattern vestigiali dai domini di didascalie di immagini o spiegazione di codice. Il nostro rilevatore li individua, il che spiega la leggermente maggiore rilevabilità di Gemini sui prompt a dominio misto rispetto alla prosa pura.

Per gli utenti di Google Workspace i cui studenti o dipendenti utilizzano Gemini tramite Docs, il segnale di rilevamento è simile all'output grezzo dell'API. Non abbiamo osservato pattern di evasione specifici per l'integrazione workspace distinti dall'uso diretto dell'API Gemini.

Verificate un campione di qualsiasi modello

Incollate l'output di qualsiasi LLM e vedete il verdetto frase per frase. Il nostro rilevatore tratta tutte le 22 famiglie di modelli come un singolo controllo ensemble.

Meta e modelli open-weights

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. I modelli open-weights coprono una gamma più ampia di quelli chiusi — varianti con fine-tuning, deployment quantizzati e checkpoint modificati dalla community producono tutti output sottilmente diversi.

Il rilevamento degli open-weights è strategicamente importante perché gli strumenti di umanizzazione sono di solito costruiti su modelli open-weights — i derivati di Llama e Mistral girano localmente a basso costo, motivo per cui i servizi di parafrasi e trasferimento di stile li prezzano competitivamente. Se la vostra preoccupazione è l'IA umanizzata, state fondamentalmente difendendovi contro la generazione della famiglia Llama.

DeepSeek R1 e o3-mini (modello di ragionamento OpenAI) meritano menzione separata. Entrambi producono testo con artefatti di catena di ragionamento — logica passo-passo esplicita visibile nell'output — che il nostro rilevatore ha imparato a riconoscere. I modelli di ragionamento sono attualmente più facili da rilevare rispetto alle loro controparti base-chat per questo motivo.

Cosa significano queste differenze per voi

Se state scegliendo un modello con cui scrivere e il rilevamento non è la vostra preoccupazione, Claude 4.5 Sonnet e GPT-5 sono i più difficili da rilevare. Se state costruendo un flusso di lavoro di rilevamento, date priorità ai modelli che vedete effettivamente: la maggior parte degli abusi accademici avviene ancora su GPT-4/5 tramite interfacce gratuite; la maggior parte del content farming avviene su strumenti di umanizzazione derivati da Llama.

Un singolo rilevatore addestrato su una singola famiglia di modelli avrà le prestazioni peggiori sugli altri. Il nostro approccio ensemble si addestra su campioni di tutti i 22 generatori, motivo per cui l'AUC per modello sui casi difficili (Claude 4.5, GPT-5) è ancora sopra 0,90 mentre qualsiasi rilevatore addestrato su un solo modello scenderebbe sotto 0,80.

La tendenza sottostante: la difficoltà di rilevamento sta aumentando più velocemente della cadenza di rilascio dei generatori. Ogni nuovo flagship è più difficile da rilevare del precedente, il riaddestramento chiude il gap ma non completamente. Aspettatevi che la baseline 2026–2027 sia un AUC inferiore sui modelli di frontiera e sostanzialmente costante sui modelli legacy.

Domande frequenti

Se alcuni modelli sono più difficili da rilevare, dovrei evitare del tutto di usare i rilevatori?

No — anche sulle famiglie di modelli più difficili il nostro AUC è sopra 0,85, il che è un segnale forte. La domanda è come usate il segnale. Per i modelli difficili da rilevare, abbinate il punteggio a prove corroboranti (cronologia delle modifiche, lavoro in classe, conversazione con lo studente). Per i modelli più facili, il punteggio da solo è spesso sufficiente.

Quale modello dovrei usare se voglio evitare il rilevamento?

Non rispondiamo direttamente a questa domanda — gestiamo uno strumento di rilevamento, non una guida all'evasione. Quello che diremo: rilevabile-vs-non rilevabile non è l'asse giusto per scegliere un modello. Qualità, costo e adeguatezza allo scopo contano molto di più della difficoltà di rilevamento. Se scrivete legittimamente con assistenza IA, la divulgazione e un flusso di lavoro trasparente contano più del nascondere lo strumento.

Le varianti dei modelli open-weights hanno profili di rilevamento diversi?

Sì, e in modo significativo. Una variante Llama 3.3 con fine-tuning della community addestrata per uno stile di scrittura specifico può produrre testo che ottiene punteggi diversi dalla Llama 3.3 standard. Il nostro benchmark copre il checkpoint standard; i fine-tune personalizzati possono essere più facili (se restringono le distribuzioni di output) o più difficili (se si addestrano esplicitamente in modo avversariale contro il rilevamento).

Come influiscono la temperatura e il campionamento sulla rilevabilità?

Temperature più alte e campionamento più diversificato riducono generalmente la rilevabilità perché ampliano la distribuzione dell'output. La decodifica greedy a bassa temperatura è la più facile da rilevare. La maggior parte delle interfacce chat in produzione usa t≈0,7–1,0 con nucleus sampling, collocandole in un regime moderatamente rilevabile — il nostro ensemble si comporta in modo simile nell'intervallo predefinito.

Quando arriveranno GPT-6 o Claude 5 e cosa dovrei aspettarmi?

Metà 2026 è la previsione consensuale per entrambi. Aspettatevi che l'AUC di rilevamento sulle nuove famiglie scenda nella fascia 0,80–0,85 per le prime 4–8 settimane dopo il lancio mentre raccogliamo campioni e riaddestriamo. I precedenti storici suggeriscono un pieno recupero entro 8–12 settimane se il modello è ampiamente disponibile; più lungo per i modelli rari o con accesso limitato.

I numeri AUC per modello derivano dalla nostra validazione interna e potrebbero non generalizzarsi. La difficoltà di ciascun modello cambia nel tempo man mano che sia il generatore che il nostro corpus di training si evolvono. I dati attuali riflettono il benchmark 2026-04.