Maison › Quelle est la précision de la détection IA ? Benchmark sur 22 LLMs | Détecteur de plagiat

Quelle est la précision de la détection IA ? Notre benchmark sur 22 LLMs

Nous publions la précision réelle de notre détecteur IA sur 22 modèles génératifs, dont GPT-5, Claude 4, Gemini 2 et Llama 3. Tableaux par modèle, limites honnêtes et jeu de données téléchargeable pour les chercheurs.

2026-04-17 · Plagiarism Detector Team

Pourquoi nous publions nos chiffres de précision

La plupart des outils de détection IA vous demandent de faire confiance à un score opaque unique. Vous méritez des preuves. Sur cette page, nous partageons l'intégralité des résultats de notre validation interne — chaque générateur testé, le score AUC-ROC obtenu, les types de textes qui nous ont posé le plus de difficultés, et les seuils de décision utilisés en production.

Ce niveau de transparence est inhabituel dans le domaine de la détection IA. La plupart des concurrents — éditeurs de vérificateurs de plagiat, services spécialisés en détection IA, outils SaaS généralistes — ne publient aucune donnée de précision ou seulement un chiffre soigneusement sélectionné. Cette pratique n'est pas viable : les enseignants, les éditeurs et les chercheurs ont besoin de benchmarks reproductibles avant de pouvoir se fier à un outil.

Nos chiffres proviennent d'un ensemble de validation de 1 000 échantillons extrait du corpus de calibrage utilisé pour entraîner notre détecteur ModernBERT. La même méthodologie qui guide ce benchmark est appliquée à chaque document que vous soumettez via notre outil. Rien n'est mis de côté pour les démonstrations.

Le corpus de test et la méthodologie

L'ensemble de validation contient 1 000 essais tirés d'un corpus de calibrage de 1 200 échantillons : 600 essais rédigés par des humains (issus des données de la tâche partagée PAN25 et du jeu de données d'essais argumentatifs PERSUADE) et 600 essais générés par IA (produits par 22 grands modèles de langage distincts sous des conditions de prompting contrôlées). Le découpage 80/20 entraînement-validation est fixe et reproductible.

Chaque échantillon est évalué isolément, sans accès à des métadonnées susceptibles de révéler la vérité terrain. Le détecteur renvoie une probabilité dans [0, 100] représentant la vraisemblance que l'échantillon soit généré par IA. Nous calculons ensuite l'aire sous la courbe ROC (AUC-ROC) par générateur et par type d'essai.

Tous les seuils, hyperparamètres d'entraînement et sorties de probabilité brutes sont journalisés. Le jeu de données lui-même est disponible en téléchargement en bas de cette page — format CSV, une ligne par échantillon, avec l'identité du générateur, le label du type d'essai, le score brut et le verdict binaire final.

Résultats globaux

Sur l'ensemble des 1 000 échantillons, notre détecteur en ensemble atteint AUC-ROC [AUC: 0,9884]. Au seuil de décision de 50 % utilisé en production : 0 faux positif sur les essais humains de l'ensemble de validation, et 60 % de rappel sur les essais IA. Au seuil optimal F1 de 26,56 %, le rappel monte à 90 % au prix de 2 % de faux positifs — un compromis mieux adapté aux workflows de criblage à haute sensibilité.

Le verdict au niveau du document sur notre outil public utilise le seuil conservateur de 50 %, en privilégiant l'absence de faux positifs plutôt que le rappel maximal. Les enseignants, éditeurs et chercheurs peuvent modifier ce réglage via le curseur de sensibilité dans le widget lorsqu'ils souhaitent un signalement plus agressif.

À titre de comparaison, la composante zéro-shot Binoculars seule (une configuration 2× Llama-3.1-8B) obtient un AUC [AUC: 0,8509] en autonome. La composante ModernBERT fine-tunée seule obtient [AUC: 1,0000] sur les essais en distribution et [AUC: 0,9069] sur les textes hors distribution. L'ensemble se situe entre les deux sur n'importe quel axe unique mais surpasse les deux en moyenne car il corrige leurs faiblesses complémentaires.

Détail par générateur

Voici le tableau AUC-ROC par modèle. Les modèles sont ordonnés du plus facile au plus difficile à détecter sur notre ensemble de validation. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Modèles OpenAI : GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic : Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google : Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta : Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Autres : Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Le schéma dominant : les modèles plus récents, plus grands et fine-tunés par instruction tendent à produire des textes qui ressemblent davantage à de l'écriture humaine pour tout détecteur statistique, y compris le nôtre. Claude 4.5 Sonnet et GPT-5.x sont les deux familles où nos distributions de scores se recoupent le plus avec la référence humaine. Cela correspond à toutes les études indépendantes publiées en 2025 — la course aux armements est réelle et la taille du modèle est un frein direct à la détection.

Où le détecteur peine

Tous les textes ne sont pas également détectables. Nous décomposons les résultats par type d'essai — chaque catégorie de prompt PERSUADE — et l'écart entre le meilleur et le pire est important. [PER-TYPE TABLE]

Essais argumentatifs, persuasifs et expositifs : le domaine le plus fort du détecteur. L'AUC est typiquement de 0,97 à 1,00 car les corpus d'entraînement surreprésentent ces styles. C'est là que se situent la plupart des cas d'usage d'intégrité académique.

Écriture créative et analyse littéraire : notre domaine le plus faible. Pour l'analyse littéraire, l'AUC descend à 0,69 — le style humain en fiction converge avec les sorties des LLMs, et ni notre composante supervisée ni notre composante zéro-shot ne peuvent les distinguer de manière fiable. Traitez avec scepticisme un score IA élevé sur de la fiction.

Testez le détecteur sur votre propre texte

Collez n'importe quel document et voyez le même verdict par phrase et les seuils de décision que nous utilisons pour ces chiffres de benchmark. Gratuit, sans inscription.

Limites et modes d'échec

Trois catégories de textes échappent à notre détecteur plus souvent que notre ensemble de validation ne le suggère. Texte IA humanisé — une sortie passée par un outil de paraphrase adversariale ou de transfert de style — est souvent classifiée comme humaine, même si le texte sous-jacent était entièrement généré. Texte court (moins de 100 mots) est difficile à classer car le signal statistique est insuffisant. L'écriture en anglais par des locuteurs non natifs peut être classée comme IA car les LLMs et les scripteurs ESL partagent certaines préférences lexicales et syntaxiques.

Notre détecteur est probabiliste, pas probatoire. Un score IA élevé est un signal pour approfondir l'investigation, pas une preuve d'inconduite. Nous recommandons vivement d'associer le score à du contexte : historique d'édition récent, brouillons de versions, échantillons d'écriture du même auteur, et — si cela est autorisé — une courte conversation de suivi avec l'auteur.

Nous réentraînons continuellement sur les dernières sorties de générateurs, mais il y a toujours un décalage : un modèle sorti la semaine dernière peut ne pas être bien représenté dans les données d'entraînement. Si votre workflow dépend de la détection des derniers modèles, vérifiez notre page de benchmark trimestriellement pour les chiffres mis à jour.

Télécharger le jeu de données complet

Nous publions les résultats bruts de la validation afin que les chercheurs, journalistes et enseignants puissent vérifier indépendamment nos affirmations. Le CSV contient : l'identifiant de l'échantillon, l'identité du générateur (ou « humain »), le label du type d'essai, la sortie de probabilité brute, le verdict binaire au seuil de 50 %, le verdict binaire au seuil de 26,56 %.

Téléchargement : ai-detector-benchmark-2026-04.csv (mis à jour trimestriellement). L'utilisation académique est libre ; la republication commerciale requiert une attribution : « Détecteur de plagiat — AI Detection Benchmark 2026-04 ».

Pour une version interactive de la même méthodologie sur votre propre texte, essayez notre outil Vérificateur IA & plagiat — collez n'importe quel document et visualisez le verdict par phrase, les mêmes seuils de décision et le même intervalle de confiance que nous utilisons pour ces chiffres publiés.

Foire aux questions

À quelle fréquence ce benchmark est-il mis à jour ?

Chaque trimestre. Lorsqu'un générateur majeur (GPT-6, Claude 5, Gemini 3) est lancé, nous l'ajoutons au corpus de test dans les 4 semaines et republions le tableau mis à jour. Les versions historiques sont archivées avec des noms de fichiers datés — l'édition 2026-04 est la version stable actuelle.

Ne publiez-vous pas les probabilités par échantillon ?

Si — le CSV téléchargeable contient des probabilités brutes. Ce que nous ne publions pas, c'est le texte original des essais, car le corpus PAN25 et le jeu de données PERSUADE sont soumis à des restrictions de redistribution. Si vous voulez les textes, téléchargez directement ces jeux de données depuis leur source (liens dans la documentation du CSV).

Peut-on faire confiance à un détecteur si l'AUC est inférieur à 1,0 ?

Aucun détecteur n'atteint AUC 1,0 sur tous les générateurs ; la question n'est donc pas « est-il parfait ? » mais « est-il transparent ? ». Un détecteur qui publie AUC 0,95 et vous dit où il peine est plus digne de confiance qu'un autre qui publie « précision de pointe » sans aucun chiffre. Notre AUC [AUC: 0,9884] est la performance moyenne honnête ; les détails par générateur et par type d'essai sont là où vous devriez prendre votre décision d'achat.

Votre détecteur IA est-il prêt pour la publication académique ?

La méthodologie sous-jacente l'est — Binoculars (ICML 2024) et ModernBERT sont tous deux des architectures évaluées par les pairs. Notre corpus de fine-tuning spécifique et nos seuils sont propriétaires, mais la méthodologie du benchmark est entièrement reproductible.

Comment l'outil en ligne gratuit se compare-t-il au produit bureautique ?

Même moteur, mêmes chiffres de précision, même logique de verdict par phrase. Le produit bureautique ajoute une longueur de document illimitée, le scanning hors ligne, la correspondance de plagiat intégrée sur 4 milliards de pages web et le traitement par lots de dossiers entiers. Pour des vérifications ponctuelles, l'outil en ligne est suffisant ; pour des workflows quotidiens, la version bureautique est le bon outil.

Les résultats du benchmark sont issus de notre ensemble de validation interne et peuvent ne pas se généraliser aux textes hors distribution. Les chiffres publiés représentent la performance moyenne sur 1 000 échantillons ; votre document peut obtenir un score différent. Utilisez les résultats de détection IA comme l'une des entrées parmi d'autres, et non comme preuve unique d'auteur.