Tous les textes IA ne sont pas également détectables. Voici les résultats de notre benchmark par générateur — quelles familles de modèles notre détecteur capture avec une précision quasi parfaite, lesquelles lui posent problème et ce que cela vous apprend pour choisir un workflow de détection.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Ordonné du plus facile au plus difficile à détecter sur notre ensemble de validation. L'écart est important — l'AUC sur certaines familles de modèles dépasse 0,99 tandis que d'autres descendent dans les 0,80. La difficulté de détection est corrélée à la taille du modèle, à la sophistication du fine-tuning par instruction et à la variance des sorties.
Pour la méthodologie complète du détail par générateur, consultez notre page de benchmark de précision. Cet article résume les implications pratiques de ces données pour les utilisateurs qui choisissent à quel détecteur faire confiance et quel modèle utiliser.
GPT-3.5 est le modèle moderne le plus facile à détecter — AUC [AUC: ?] sur notre ensemble. Les artefacts de génération hérités (répétition, hésitation, registre banal) restent clairement présents. GPT-4 descend à AUC [AUC: ?], GPT-4o à [AUC: ?], reflétant une calibration progressivement meilleure. GPT-5.x est le plus difficile de la famille — AUC [AUC: ?] — car l'équipe de fine-tuning par instruction a explicitement ciblé la suppression des artefacts de détection.
Implication pratique : les workflows académiques préoccupés par la triche à l'ère GPT-3.5 peuvent s'appuyer largement sur la détection seule. Les workflows préoccupés par GPT-5 doivent associer la détection à des preuves contextuelles, comme décrit dans notre guide de workflow pour enseignants.
Les réglages de température comptent. Les sorties à faible température (t ≤ 0,5) sont plus faciles à détecter car elles concentrent la masse de probabilité sur un vocabulaire plus étroit. La plupart des interfaces de chat utilisent par défaut t ≈ 0,7, plaçant le texte dans une zone modérément détectable. Les utilisateurs adversariaux augmentent explicitement la température ou utilisent un décodage diversifié pour élargir la plage et contourner la détection — notre ensemble corrige partiellement cela mais pas complètement.
Claude 3 Opus : AUC [AUC: ?]. Claude 3.5 Sonnet : [AUC: ?]. Claude 4 Opus : [AUC: ?]. Claude 4.5 Sonnet : [AUC: ?]. La famille Claude produit systématiquement des textes moins répétitifs et plus variés stylistiquement que les modèles GPT de même génération, ce qui les rend plus difficiles à détecter par des méthodes statistiques.
L'entraînement constitutionnel de Claude cible spécifiquement les « signes révélateurs de machine » que notre classifieur supervisé apprend — schémas d'hésitation, suremploi de certains connecteurs, structure de paragraphe prévisible. C'est une relation adversariale directe : le générateur est entraîné contre des caractéristiques sur lesquelles le détecteur s'appuie.
Claude 4.5 Sonnet et GPT-5.x sont proches en termes de difficulté. Leurs distributions de scores se recoupent le plus avec la référence humaine dans nos données de validation. Si votre workflow cible l'un ou l'autre de ces modèles, attendez-vous à un rappel réduit au seuil par défaut et envisagez de passer au seuil optimal F1 pour un criblage à haute sensibilité.
Gemini 1.5 Pro : AUC [AUC: ?]. Gemini 2.0 : [AUC: ?]. Gemini 2.5 : [AUC: ?]. Gemini a montré la performance de détection la plus variable entre les versions — certaines versions intermédiaires ont régressé temporairement avant que des améliorations n'arrivent.
L'entraînement multimodal de Gemini signifie que les sorties uniquement textuelles portent parfois des schémas vestigiaux issus des domaines de légendes d'images ou d'explications de code. Notre détecteur les repère, ce qui explique la détectabilité légèrement plus élevée de Gemini sur les prompts à domaines mixtes que sur la prose pure.
Pour les utilisateurs de Google Workspace dont les étudiants ou employés utilisent Gemini via Docs, le signal de détection est similaire à la sortie brute de l'API. Nous n'avons pas observé de schémas d'évasion spécifiques à l'intégration dans l'espace de travail distincts de l'utilisation directe de l'API Gemini.
Collez une sortie de n'importe quel LLM et voyez le verdict par phrase. Notre détecteur traite les 22 familles de modèles comme une seule vérification par ensemble.
Llama 3.1 : AUC [AUC: ?]. Llama 3.3 : [AUC: ?]. Qwen 2.5 : [AUC: ?]. Qwen 3 : [AUC: ?]. DeepSeek R1 : [AUC: ?]. Mistral Large : [AUC: ?]. Les modèles à poids ouverts couvrent une plage plus large que les modèles fermés — les variantes fine-tunées, les déploiements quantifiés et les checkpoints modifiés par la communauté produisent tous des sorties subtilement différentes.
La détection sur les modèles à poids ouverts est stratégiquement importante car les outils humaniseurs sont généralement construits sur des modèles à poids ouverts — les dérivés de Llama et Mistral fonctionnent localement à faible coût, raison pour laquelle les services de paraphrase et de transfert de style les proposent. Si votre préoccupation est l'IA humanisée, vous défendez en fin de compte contre la génération de la famille Llama.
DeepSeek R1 et o3-mini (modèle de raisonnement d'OpenAI) méritent une mention séparée. Les deux produisent des textes avec des artefacts de chaîne de raisonnement — logique étape par étape explicite visible dans la sortie — que notre détecteur a appris à reconnaître. Les modèles de raisonnement sont actuellement plus faciles à détecter que leurs homologues de chat de base pour cette raison.
Si vous choisissez un modèle pour écrire et que la détection n'est pas votre préoccupation, Claude 4.5 Sonnet et GPT-5 sont les plus difficiles à détecter. Si vous construisez un workflow de détection, priorisez pour les modèles que vous voyez réellement : la plupart des usages abusifs académiques tournent encore sur GPT-4/5 via des interfaces gratuites ; la plupart des fermes de contenu utilisent des humaniseurs dérivés de Llama.
Un détecteur unique entraîné sur une seule famille de modèles sera le moins performant sur les autres. Notre approche par ensemble entraîne sur des échantillons de tous les 22 générateurs, c'est pourquoi l'AUC par modèle sur les cas difficiles (Claude 4.5, GPT-5) reste au-dessus de 0,90 alors que tout détecteur entraîné sur un seul modèle descendrait sous 0,80.
La tendance sous-jacente : la difficulté de détection augmente plus vite que la cadence de sortie des générateurs. Chaque nouveau fleuron est plus difficile à détecter que le précédent, le réentraînement réduit l'écart mais pas complètement. Attendez-vous à ce que la référence 2026-2027 soit un AUC plus bas sur les modèles de pointe et à peu près constant sur les modèles hérités.
Les chiffres AUC par modèle sont issus de notre validation interne et peuvent ne pas se généraliser. La difficulté de chaque modèle évolue dans le temps à mesure que le générateur et notre corpus d'entraînement évoluent. Les données actuelles reflètent le benchmark 2026-04.