Nous publions la précision réelle de notre détecteur IA sur 22 modèles génératifs, dont GPT-5, Claude 4, Gemini 2 et Llama 3. Tableaux par modèle, limites honnêtes et jeu de données téléchargeable pour les chercheurs.
La plupart des outils de détection IA vous demandent de faire confiance à un score opaque unique. Vous méritez des preuves. Sur cette page, nous partageons l'intégralité des résultats de notre validation interne — chaque générateur testé, le score AUC-ROC obtenu, les types de textes qui nous ont posé le plus de difficultés, et les seuils de décision utilisés en production.
Ce niveau de transparence est inhabituel dans le domaine de la détection IA. La plupart des concurrents — éditeurs de vérificateurs de plagiat, services spécialisés en détection IA, outils SaaS généralistes — ne publient aucune donnée de précision ou seulement un chiffre soigneusement sélectionné. Cette pratique n'est pas viable : les enseignants, les éditeurs et les chercheurs ont besoin de benchmarks reproductibles avant de pouvoir se fier à un outil.
Nos chiffres proviennent d'un ensemble de validation de 1 000 échantillons extrait du corpus de calibrage utilisé pour entraîner notre détecteur ModernBERT. La même méthodologie qui guide ce benchmark est appliquée à chaque document que vous soumettez via notre outil. Rien n'est mis de côté pour les démonstrations.
L'ensemble de validation contient 1 000 essais tirés d'un corpus de calibrage de 1 200 échantillons : 600 essais rédigés par des humains (issus des données de la tâche partagée PAN25 et du jeu de données d'essais argumentatifs PERSUADE) et 600 essais générés par IA (produits par 22 grands modèles de langage distincts sous des conditions de prompting contrôlées). Le découpage 80/20 entraînement-validation est fixe et reproductible.
Chaque échantillon est évalué isolément, sans accès à des métadonnées susceptibles de révéler la vérité terrain. Le détecteur renvoie une probabilité dans [0, 100] représentant la vraisemblance que l'échantillon soit généré par IA. Nous calculons ensuite l'aire sous la courbe ROC (AUC-ROC) par générateur et par type d'essai.
Tous les seuils, hyperparamètres d'entraînement et sorties de probabilité brutes sont journalisés. Le jeu de données lui-même est disponible en téléchargement en bas de cette page — format CSV, une ligne par échantillon, avec l'identité du générateur, le label du type d'essai, le score brut et le verdict binaire final.
Sur l'ensemble des 1 000 échantillons, notre détecteur en ensemble atteint AUC-ROC [AUC: 0,9884]. Au seuil de décision de 50 % utilisé en production : 0 faux positif sur les essais humains de l'ensemble de validation, et 60 % de rappel sur les essais IA. Au seuil optimal F1 de 26,56 %, le rappel monte à 90 % au prix de 2 % de faux positifs — un compromis mieux adapté aux workflows de criblage à haute sensibilité.
Le verdict au niveau du document sur notre outil public utilise le seuil conservateur de 50 %, en privilégiant l'absence de faux positifs plutôt que le rappel maximal. Les enseignants, éditeurs et chercheurs peuvent modifier ce réglage via le curseur de sensibilité dans le widget lorsqu'ils souhaitent un signalement plus agressif.
À titre de comparaison, la composante zéro-shot Binoculars seule (une configuration 2× Llama-3.1-8B) obtient un AUC [AUC: 0,8509] en autonome. La composante ModernBERT fine-tunée seule obtient [AUC: 1,0000] sur les essais en distribution et [AUC: 0,9069] sur les textes hors distribution. L'ensemble se situe entre les deux sur n'importe quel axe unique mais surpasse les deux en moyenne car il corrige leurs faiblesses complémentaires.
Voici le tableau AUC-ROC par modèle. Les modèles sont ordonnés du plus facile au plus difficile à détecter sur notre ensemble de validation. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
Modèles OpenAI : GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic : Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google : Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta : Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Autres : Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Le schéma dominant : les modèles plus récents, plus grands et fine-tunés par instruction tendent à produire des textes qui ressemblent davantage à de l'écriture humaine pour tout détecteur statistique, y compris le nôtre. Claude 4.5 Sonnet et GPT-5.x sont les deux familles où nos distributions de scores se recoupent le plus avec la référence humaine. Cela correspond à toutes les études indépendantes publiées en 2025 — la course aux armements est réelle et la taille du modèle est un frein direct à la détection.
Tous les textes ne sont pas également détectables. Nous décomposons les résultats par type d'essai — chaque catégorie de prompt PERSUADE — et l'écart entre le meilleur et le pire est important. [PER-TYPE TABLE]
Essais argumentatifs, persuasifs et expositifs : le domaine le plus fort du détecteur. L'AUC est typiquement de 0,97 à 1,00 car les corpus d'entraînement surreprésentent ces styles. C'est là que se situent la plupart des cas d'usage d'intégrité académique.
Écriture créative et analyse littéraire : notre domaine le plus faible. Pour l'analyse littéraire, l'AUC descend à 0,69 — le style humain en fiction converge avec les sorties des LLMs, et ni notre composante supervisée ni notre composante zéro-shot ne peuvent les distinguer de manière fiable. Traitez avec scepticisme un score IA élevé sur de la fiction.
Collez n'importe quel document et voyez le même verdict par phrase et les seuils de décision que nous utilisons pour ces chiffres de benchmark. Gratuit, sans inscription.
Trois catégories de textes échappent à notre détecteur plus souvent que notre ensemble de validation ne le suggère. Texte IA humanisé — une sortie passée par un outil de paraphrase adversariale ou de transfert de style — est souvent classifiée comme humaine, même si le texte sous-jacent était entièrement généré. Texte court (moins de 100 mots) est difficile à classer car le signal statistique est insuffisant. L'écriture en anglais par des locuteurs non natifs peut être classée comme IA car les LLMs et les scripteurs ESL partagent certaines préférences lexicales et syntaxiques.
Notre détecteur est probabiliste, pas probatoire. Un score IA élevé est un signal pour approfondir l'investigation, pas une preuve d'inconduite. Nous recommandons vivement d'associer le score à du contexte : historique d'édition récent, brouillons de versions, échantillons d'écriture du même auteur, et — si cela est autorisé — une courte conversation de suivi avec l'auteur.
Nous réentraînons continuellement sur les dernières sorties de générateurs, mais il y a toujours un décalage : un modèle sorti la semaine dernière peut ne pas être bien représenté dans les données d'entraînement. Si votre workflow dépend de la détection des derniers modèles, vérifiez notre page de benchmark trimestriellement pour les chiffres mis à jour.
Nous publions les résultats bruts de la validation afin que les chercheurs, journalistes et enseignants puissent vérifier indépendamment nos affirmations. Le CSV contient : l'identifiant de l'échantillon, l'identité du générateur (ou « humain »), le label du type d'essai, la sortie de probabilité brute, le verdict binaire au seuil de 50 %, le verdict binaire au seuil de 26,56 %.
Téléchargement : ai-detector-benchmark-2026-04.csv (mis à jour trimestriellement). L'utilisation académique est libre ; la republication commerciale requiert une attribution : « Détecteur de plagiat — AI Detection Benchmark 2026-04 ».
Pour une version interactive de la même méthodologie sur votre propre texte, essayez notre outil Vérificateur IA & plagiat — collez n'importe quel document et visualisez le verdict par phrase, les mêmes seuils de décision et le même intervalle de confiance que nous utilisons pour ces chiffres publiés.
Les résultats du benchmark sont issus de notre ensemble de validation interne et peuvent ne pas se généraliser aux textes hors distribution. Les chiffres publiés représentent la performance moyenne sur 1 000 échantillons ; votre document peut obtenir un score différent. Utilisez les résultats de détection IA comme l'une des entrées parmi d'autres, et non comme preuve unique d'auteur.