Avant toute analyse anti-plagiat, le logiciel doit extraire du texte propre et exploitable du document soumis. Ce problème est plus complexe qu'il n'y paraît, car les documents se présentent sous de nombreux formats - DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT et HTML, entre autres - chacun possédant sa propre structure interne (formatage, métadonnées, objets intégrés et encodage). Un système d'extraction de texte fiable doit traiter tous ces formats de manière cohérente, afin de produire un texte brut normalisé, prêt pour la comparaison.
Détecteur de plagiat utilise une architecture d'extraction de texte à cinq niveaux pour une fiabilité maximale. Pour les fichiers DOCX, le premier niveau analyse directement la structure XML native. En cas d'échec (corruption ou formatage non standard), le système recourt à l'interface iFilter de Microsoft, puis à l'analyse OpenXML brute, et enfin à Apache Tika comme extracteur universel de dernier recours. Cette approche en cascade permet d'obtenir un texte exploitable même pour les documents endommagés ou non conformes. Ce principe multi-niveaux s'applique à l'ensemble des plus de 12 formats pris en charge, garantissant ainsi le traitement de tous les documents.
Le processus d'extraction gère également la normalisation de l'encodage : il convertit le texte, quel que soit son encodage (UTF-8, UTF-16, Windows-1252, variantes ISO-8859), en une représentation interne unifiée. Cette étape est cruciale, car des différences d'encodage peuvent rendre des textes identiques différents au niveau des octets, ce qui peut entraîner des erreurs de détection de plagiat. Une extraction correcte est essentielle pour chaque étape de détection ultérieure.
Une fois le texte propre extrait, le moteur de détection le décompose en unités analysables grâce à un processus appelé empreinte textuelle. Le document est segmenté en séquences de mots qui se chevauchent (n-grammes), et chaque séquence est convertie en un hachage numérique compact : une empreinte digitale. Ces empreintes servent d’identifiants efficaces qui peuvent être rapidement comparées à celles d’autres sources, sans nécessiter de coûteuses comparaisons de texte intégral à chaque fois.
L'algorithme d'empreinte numérique doit trouver un équilibre entre sensibilité et efficacité. Les n-grammes courts (3 à 4 mots) détectent davantage de correspondances, mais génèrent un nombre excessif de faux positifs à partir d'expressions courantes. Les n-grammes plus longs (8 à 10 mots) sont plus spécifiques, mais peuvent ne pas détecter le plagiat lorsque quelques mots seulement ont été modifiés. Les systèmes avancés utilisent une empreinte numérique de longueur variable, combinée à des algorithmes de sélection qui choisissent un sous-ensemble représentatif d'empreintes, préservant ainsi la précision de la détection tout en maintenant un espace de comparaison gérable pour des documents de toute taille.
Une fois le document identifié par son empreinte numérique, le moteur de détection doit comparer ces empreintes avec le contenu existant sur Internet. Détecteur de plagiat adopte une approche originale : au lieu de s’appuyer sur une seule base de données propriétaire, il interroge simultanément quatre grands moteurs de recherche - Google, Bing, Yahoo et DuckDuckGo - accédant ainsi à leur index combiné de plus de 4 milliards de pages web. Cette stratégie multi-moteurs accroît considérablement la couverture des sources, car chaque moteur de recherche indexe différentes portions du web et classe les résultats différemment.
Le processus d'interrogation utilise une rotation et une sélection intelligentes de fragments de texte pour constituer les requêtes de recherche. Toutes les empreintes ne sont pas interrogées : le moteur sélectionne les passages les plus distinctifs du document, ceux qui sont les plus susceptibles de fournir des correspondances pertinentes plutôt que des expressions génériques. La planification des requêtes gère les limites de débit et répartit les demandes entre les moteurs afin de maintenir une capacité de traitement optimale. Il en résulte une analyse exhaustive du contenu Internet public, impossible à reproduire avec un seul moteur, couvrant aussi bien les archives académiques que les archives de presse, les fermes de contenu, les plateformes de rédaction et les pages web classiques.
Lorsque les requêtes des moteurs de recherche renvoient des URL potentiellement correspondantes, le moteur de détection passe à la phase de récupération et de comparaison des sources. Chaque page source candidate est récupérée, son contenu est extrait et normalisé (suppression des balises HTML, des éléments de navigation, des en-têtes et des pieds de page pour isoler le texte de l'article), puis aligné avec le document soumis. Cet alignement utilise des algorithmes de correspondance de séquences qui identifient les plus longues sous-séquences communes entre les deux textes, en tenant compte des variations mineures de ponctuation, d'espacement et de mise en forme.
La comparaison ne se limite pas aux correspondances exactes. Le moteur effectue une correspondance approximative pour identifier les passages où des mots ont été remplacés par des synonymes, où l'ordre des phrases a été modifié, ou encore où des expressions de liaison ont été ajoutées ou supprimées. Ceci permet de détecter la technique de contournement la plus courante : la reformulation superficielle qui préserve le sens et la structure d'origine. Chaque segment correspondant est enregistré avec son URL source, le pourcentage de chevauchement et les fragments de texte spécifiques associés, constituant ainsi les données brutes du rapport d'originalité.
Une fois toutes les sources récupérées et comparées, le moteur calcule un score de similarité : un pourcentage représentant la proportion du document soumis qui correspond aux sources externes. Ce calcul est plus nuancé qu’un simple ratio. Le moteur distingue différents types de correspondances : les copies exactes, les correspondances approximatives (passages paraphrasés), les citations et références correctes, ainsi que les expressions courantes ou les textes standardisés qui n’indiquent pas de plagiat.
Le système de détection de références de Détecteur de plagiat identifie automatiquement les citations, les extraits et les références bibliographiques au sein du document et les traite différemment des correspondances non attribuées. Un bloc de texte entre guillemets suivi d'une citation est considéré comme une référence légitime et non comme du plagiat. Ceci évite des scores de similarité artificiellement élevés qui pénaliseraient des travaux de recherche rigoureux pour leur utilisation correcte des sources. Le score final reflète les véritables problèmes d'originalité, offrant ainsi au relecteur un indicateur pertinent et exploitable.
Avec la prolifération des textes générés par l'IA, la détection du plagiat doit prendre en compte les contenus qui, bien que n'étant pas copiés d'une source existante, ne constituent pas pour autant une œuvre originale humaine. Détecteur de plagiat intègre un module de détection de contenu généré par IA d'une sensibilité de 0,98, capable d'identifier les textes produits par de grands modèles de langage tels que ChatGPT, Gemini et HuggingChat. La détection repose sur l'analyse des propriétés statistiques du texte - distribution de fréquence des mots, perplexité au niveau de la phrase, variabilité (burstiness) et séquences de probabilité des tokens - qui diffèrent systématiquement entre l'écriture humaine et l'écriture automatique.
L'écriture humaine présente généralement une plus grande variabilité dans la longueur des phrases, des choix de mots plus imprévisibles et une complexité irrégulière. À l'inverse, les textes générés par l'IA tendent vers des séquences de mots statistiquement probables, une structure de phrase plus uniforme et une distribution de probabilité d'une grande régularité. Le modèle de détection est entraîné sur de vastes corpus de textes humains et de textes générés par l'IA, et il opère au niveau du paragraphe pour fournir des résultats précis. Cette analyse est menée en parallèle de la détection de plagiat traditionnelle lors d'une seule analyse, permettant ainsi aux relecteurs de recevoir un rapport unique couvrant à la fois le contenu copié et les passages générés par l'IA, sans avoir besoin d'outils ou de flux de travail distincts.
Les utilisateurs avertis tentent de contourner la détection de plagiat grâce à diverses astuces techniques. La technique la plus courante consiste à substituer des caractères Unicode : remplacer des caractères latins par des caractères visuellement identiques issus d’autres alphabets Unicode. Par exemple, la lettre cyrillique « a » (U+0430) est identique à la lettre latine « a » (U+0061) à l’écran, mais il s’agit de caractères différents au niveau du point de code. Une comparaison de texte simpliste considérerait « academic », orthographié avec un « a » cyrillique, comme un mot totalement différent, ce qui permettrait au passage plagié d’échapper complètement à la détection.
Détecteur de plagiat résout ce problème grâce à son moteur anti-triche Unicode (UACE). Avant toute comparaison, l'UACE normalise l'ensemble du texte en associant les caractères visuellement équivalents dans les blocs Unicode (cyrillique, grec, arménien et autres systèmes d'écriture contenant des caractères similaires) à leurs équivalents latins. Le moteur gère une table de substitution exhaustive couvrant des centaines de paires de caractères. Cette normalisation s'effectue de manière transparente lors de l'extraction du texte, garantissant ainsi que chaque étape de détection ultérieure fonctionne sur un texte propre et conforme à l'original, quelles que soient les manipulations de caractères appliquées au document source.
Outre la substitution de caractères, UACE détecte également d'autres méthodes de contournement, notamment l'insertion de caractères Unicode invisibles (espaces de largeur nulle, caractères de liaison de largeur nulle, traits d'union conditionnels) entre les mots ou les lettres, le texte blanc sur fond blanc dissimulé dans les documents et l'insertion de micro-polices pour fragmenter les phrases reconnaissables. Ces techniques sont signalées dans le rapport d'originalité comme des tentatives de manipulation délibérées, alertant ainsi le réviseur que l'auteur a activement cherché à contourner la détection – ce qui constitue en soi une preuve solide d'intention de plagier.
Téléchargez une démo gratuite ou achetez une licence pour commencer à vérifier le plagiat et le contenu généré par l'IA.
Le processus de détection aboutit au Rapport d'originalité, un document détaillé présentant l'ensemble des résultats dans un format structuré et consultable. Ce rapport met en évidence les passages similaires dans le texte soumis, codés par couleur selon la source, chaque correspondance étant liée à son URL ou à son entrée de base de données. Une section récapitulative indique le score de similarité global, le nombre de sources identifiées, le pourcentage de contenu généré par l'IA détecté et le détail des types de correspondance (exacte, paraphrasée, citée).
Pour les établissements, les rapports d'originalité peuvent être personnalisés avec le logo de l'organisation, offrant ainsi un format professionnel et standardisé pour les documents relatifs à l'intégrité académique. Ces rapports sont conçus pour constituer des preuves solides, utilisables dans le cadre de procédures d'évaluation formelles, d'audiences disciplinaires ou de procédures juridiques. Chaque affirmation contenue dans le rapport est vérifiable indépendamment : les évaluateurs peuvent accéder à la source originale pour confirmer la correspondance par eux-mêmes. Cette transparence garantit que les conclusions en matière de plagiat sont justifiées et équitables, protégeant ainsi l'intégrité du processus d'évaluation et les droits de la personne dont le travail est évalué.
Un choix architectural fondamental en matière de détection du plagiat réside dans le traitement des documents : localement, sur l’ordinateur de l’utilisateur, ou via un serveur cloud distant. Les logiciels anti-plagiat basés sur le cloud exigent que les utilisateurs téléchargent leurs documents sur les serveurs du fournisseur, où le texte est extrait, analysé et souvent stocké dans une base de données. Ceci soulève d’importantes questions de confidentialité et de respect de la vie privée, notamment pour les travaux de recherche universitaires sensibles, les manuscrits non publiés, les documents juridiques et les documents d’entreprise. Les documents téléchargés sur les services cloud peuvent être conservés, indexés ou utilisés pour entraîner des modèles d’IA, et les fuites de données peuvent exposer des informations confidentielles.
Détecteur de plagiat fonctionne entièrement sur l'ordinateur de l'utilisateur. Les documents sont ouverts, analysés et traités localement ; le texte intégral n'est jamais transmis à un serveur externe. Seuls des fragments de texte sélectionnés (requêtes de recherche) sont envoyés aux moteurs de recherche pour comparaison, de la même manière qu'un utilisateur effectuerait une recherche manuelle dans un navigateur. Cette architecture garantit une confidentialité absolue : le document complet reste toujours sur l'ordinateur de l'utilisateur. Pour les institutions traitant des documents sensibles (cabinets d'avocats vérifiant des dossiers, chercheurs médicaux évaluant des articles, agences gouvernementales auditant des rapports), cette approche, qui privilégie l'utilisation de l'ordinateur de l'utilisateur, n'est pas un simple choix, mais une obligation de conformité. Associée à un modèle d'achat unique (sans abonnement récurrent), elle offre à la fois confidentialité et prévisibilité des coûts.