Navigeer naar boven
Thuis Waarom AI-tekstdetectie moeilijk is: de aanval-verdedigingswapenwedloop | Plagiaatdetector

Waarom AI-tekstdetectie moeilijk is: in de wapenwedloop

Detectie en generatie zijn verwikkeld in een kat-en-muisspel. Elke nieuwe modelrelease verkleint het statistische gat waarop detectors vertrouwen — en elke detectieverbetering wordt beantwoord met een nieuwe humaniseertool. Dit is wat er werkelijk achter de schermen plaatsvindt.

2026-04-17 · Plagiarism Detector Team

De statistische basis van detectie

Elke AI-tekstdetector is in wezen een statistisch discriminator — hij kijkt naar kenmerken van tekst (tokenkansen, verwarring, burstiness, syntactische regelmatigheid) en probeert signalen te vinden die door machines gegenereerde tekst onderscheiden van door mensen geschreven tekst. De methode Binoculars (ICML 2024) gebruikt een verhouding van kruisverwarring tussen twee taalmodellen als signaal. De gesuperviseerde aanpak van ModernBERT leert het signaal rechtstreeks uit gelabelde voorbeelden.

Beide benaderingen delen een fundamentele kwetsbaarheid: de signalen waarop zij vertrouwen zijn neveneffecten van de manier waarop modellen tekst genereren, geen fundamentele kenmerken van door machines geschreven tekst. Naarmate generatoren verbeteren, nemen die neveneffecten af. Een model dat is getraind om meer als een mens te schrijven, zal — per definitie — moeilijker te detecteren zijn.

Dit is geen onderzoeksfalen. Het is een structureel feit over het probleem. Detectie opereert op een bewegend doel: elke grote LLM-release verkleint het gat, elke humaniseertool traint expliciet op detectoruitvoer. De vraag is niet ‘kunnen we 100% detectie voor altijd bereiken’ — dat kan niet — maar ‘kunnen we lang genoeg voor de huidige generatie blijven om in de praktijk nuttig te zijn.’

Wat het zwaard doet — generatie verbetert

Drie generatietrends maken detectie moeilijker. Omvang: grotere modellen produceren statistisch meer diverse tekst doordat zij rijkere interne distributies hebben. Een model met 70 miljard parameters heeft een bredere reeks mensachtige uitvoer dan een met 7 miljard parameters. Instruction-tuning: RLHF en constitutionele methoden leren modellen de repetitieve, ontwijkende, saaie patronen te vermijden die GPT-3 gemakkelijk herkenbaar maakten. Temperatuur en sampling: chatinterfaces zijn verschoven naar nucleus sampling en willekeurigheid, waardoor sommige laagtevariante patronen worden doorbroken die klassieke detectors als ankers gebruikten.

GPT-5, Claude 4.5 en Gemini 2.5 zijn alle merkbaar moeilijker te detecteren dan hun voorgangers. Onze interne validatie bevestigt dit: elke modelgeneratie verlaagt onze AUC op die familie met 5-10 procentpunten ten opzichte van de vorige generatie. Zie onze nauwkeurigheidsbenchmark voor cijfers per model.

Humaniseertools — Undetectable AI, StealthWriter, Humanbeing en een groeiende lijst — zijn de expliciete tegenstanders. Zij nemen AI-uitvoer en parafraseren, herschrijven of voeren stijloverdracht uit, specifiek om detectors te omzeilen. Zij worden getraind op publieke detectors (inclusief de onze, al delen wij nooit onze modelgewichten) en worden aantoonbaar beter met elke update.

Wat het schild doet — detectie reageert

Detectors hebben drie reacties op de generatiewapenwedloop. Ensembling: meerdere detectiesignalen combineren zodat een enkele ontwijkingstactiek onvoldoende is. Onze ensemble van zero-shot Binoculars met gesuperviseerde ModernBERT maakt hiervan gebruik: een humaniseertool die één component verslaat, faalt vaak bij de andere, en de ensemble-score omvat beide.

Continu hertrainen: wij voegen binnen 4 weken na de lancering voorbeelden toe van elke grote nieuwe generatorrelease. Als GPT-6 morgen uitkomt, bevat ons trainingscorpus het halverwege de volgende maand. Dit is kostbaar — rekenkracht, annotatie, hervalidatie — maar het is de enige manier om detectie actueel te houden. Detectors die jaarlijks of minder hertrainen zijn binnen een jaar effectief museumstuken.

Adversarial training: wij trainen opzettelijk op gehumaniseerde AI-voorbeelden en geparafraseerde uitvoer, waarmee wij het model leren door oppervlakkige stijloverdracht heen te kijken. Dit verhoogt de drempel van wat een humaniseertool moet doen om ons te omzeilen, wat op zijn beurt de wapenwedloop vertraagt.

In de ontwijkingslandschap

Hoe werken humaniseertools eigenlijk? Drie brede categorieën. Parafraseren: de tekst woord voor woord of zin voor zin herschrijven met behulp van een secundair LLM. Effectief tegen naïeve detectors die op exacte tokenreeksen vertrouwen; matig effectief tegen statistische methoden. Stijloverdracht: de tekst transformeren om een specifieke auteur of register na te bootsen. Effectiever — de AUC van onze detector daalt met ~8 punten op door stijloverdracht bewerkte AI-tekst.

Hybride menselijk-AI-bewerking: de auteur schrijft een concepttekst, laat deze door een LLM polijsten en bewerkt de gepolijste versie vervolgens handmatig. Dit is het moeilijkste geval — legitiem samenwerkend werk dat menselijke en machine-signalen op zinsniveau vermengt. Geen enkele detector, inclusief de onze, kan dit betrouwbaar oplossen zonder bewerkingsgeschiedenismetadata die de detector niet kan inzien.

Een nuttig mentaal model: een humaniseertool is geen detectordoorbreker, het is een kostenvermenigvuldiger voor de ontwijker. Het kost tijd, soms geld en voegt altijd risico toe op het introduceren van fouten. De meeste pogingen tot academisch bedrog gebruiken geen humaniseertools omdat de wrijving de baten niet opweegt. Waar humaniseertools domineren, is bij professionele contentfarms en door AI gegenereerde SEO-spam — gebruiksgevallen waarbij doorvoer van belang is en kwaliteitscontrole zwak is.

Kijk hoe onze detector nu scoort

Plak een document en bekijk het per-zin-oordeel in realtime. De hierboven beschreven ensemble-logica wordt op uw tekst uitgevoerd in minder dan 30 seconden.

Waarom ensembling meer uitmaakt dan welke afzonderlijke meetwaarde dan ook

Een detector met één signaal heeft één faalmodus. Als u alleen op verwarring vertrouwt, verslaat een geparafraseerde uitvoer met gewijzigde tokenkansen u. Als u alleen op een gesuperviseerde classifier vertrouwt, verslaat out-of-distribution-tekst (een nieuwe modelfamilie, een nieuw schrijfdomein) u. Een ensemble middelt de zwaktes: de parafrase die verwarring verslaat, stoort waarschijnlijk nog steeds de gesuperviseerde kop, en vice versa.

Onze productiedetector is expliciet ensemble: 35% Binoculars (zero-shot, modelagnostisch, robuust voor out-of-distribution) + 65% ModernBERT (gesuperviseerd, domeinspecifiek, hoge precisie op in-distributioneele tekst). De gewichten werden empirisch gekozen — ensemble-AUC werd gemaximaliseerd wanneer ModernBERT domineerde maar Binoculars vetorecht hield op randgevallen.

Het gevolg: een humaniseertool moet nu twee wezenlijk verschillende detectiearchitecturen tegelijkertijd verslaan om ons oordeel te omzeilen. Publieke humaniseertools worden doorgaans getraind op één doeldetector, wat betekent dat zij vaak slagen tegen die specifieke detector maar falen tegen een ensemble. Dit is het primaire structurele voordeel van detectie in de huidige wapenwedloop.

Realistische verwachtingen voor de komende 12 maanden

Wat mogen wij verwachten tot 2026-2027? GPT-6 en Claude 5 zijn waarschijnlijk releases halverwege het jaar; beide zullen het gat verder verkleinen. Open-gewichtsmodellen — Llama 4, Qwen 4 — zullen hoogwaardige generatie verder commoditiseren en humaniseertools goedkoper maken om op schaal te draaien. Detectie-AUC op frontiermodellen zal in het eerste jaar na de release waarschijnlijk dalen naar de 0,80-0,90-band voordat hertraining dit corrigeert.

Aan de verdedigingskant: multimodale signalen (typedynamiek, bewerkingsgeschiedenis, auteurschapsverificatie tegen een bekend corpus) zullen binnen 24 maanden waarschijnlijk meer belang krijgen dan pure tekst gebaseerde detectie. Onze alleen-tekst-detector blijft het eerste filter, maar zal steeds meer een stemverlener zijn in een rijkere bewijsstapel.

De eerlijke conclusie: pure tekst gebaseerde detectie zal nooit 100% bereiken. Het zal ergens rond de 90-95% AUC op in-distributioneele tekst plafoneren en 75-85% op frontiermodellen. Als uw workflow zekerheid vereist, heeft u bewijs nodig dat verder gaat dan de score. Als uw workflow een sterk signaal vereist om menselijke beoordeling te prioriteren, blijft tekst gebaseerde detectie nuttig en aantoonbaar beter dan niets doen.

Veelgestelde vragen

Is AI-detectie de moeite waard als het nooit perfect zal zijn?
Ja — de vraag is niet ‘is het perfect’ maar ‘is het beter dan helemaal niet screenen.’ Een detector met 90% AUC op uw werkbelasting is een enorme verbetering van het signaal-ruisverhouding. De mensen die het meest vocaal zijn over de beperkingen van detectors zijn vaak degenen die proberen ze te omzeilen; dat is geen argument voor het opgeven van de tool.
Kan watermerken statistische detectie vervangen?
Watermerken sluit een verborgen statistisch handtekening in gegenereerde tekst in die een detector later kan ophalen. Het werkt wanneer generatoren meewerken (OpenAI heeft het experimenteel ingezet) maar faalt volledig bij open-gewichtsmodellen, die genereren zonder watermerken. Statistische detectie blijft voor de afzienbare toekomst noodzakelijk omdat het werkt zelfs wanneer de generator weigert mee te werken.
Wat is het moeilijkste om vandaag de dag te detecteren?
Hybride menselijk-AI-bewerking — een door AI opgesteld, door mensen gepolijst tekstfragment op zinsniveau. Geen huidige detector lost dit betrouwbaar op zonder toegang tot bewerkingsgeschiedenismetadata. Als dat uw gebruiksscenario is, is tekst gebaseerde detectie het verkeerde hulpmiddel — u heeft workflow-instrumentatie nodig.
Hoe vaak verlaagt een nieuwe generator uw AUC werkelijk?
Bij elke grote release, ruwweg elke 3-6 maanden, daalt de AUC op die familie met 5-10 procentpunten totdat wij hertrainen. Hertraining duurt ongeveer 4 weken nadat wij voldoende voorbeelden hebben. Het praktische resultaat: er is altijd een venster van 2-8 weken na een nieuwe lancering waarop onze AUC op die familie lager is dan gemiddeld. Wij geven deze lacunes aan op de benchmarkpagina.
Helpt ensembling tegen humaniseertools?
Aanzienlijk — het is de primaire structurele verdediging die wij hebben. Humaniseertools trainen op een doeldetector. Wanneer dat doel een ensemble is van twee architectureel verschillende detectors, moet de humaniseertool beide tegelijkertijd verslaan, wat betekenisvol moeilijker is dan elk afzonderlijk verslaan. Daarom gebruiken wij een ensemble in productie, zelfs wanneer een enkele component goedkoper te draaien zou zijn.

Dit artikel beschrijft structurele eigenschappen van AI-tekstdetectie. Specifieke cijfers verwijzen naar onze interne validatie en zijn mogelijk niet generaliseerbaar. Wij werken deze pagina bij naarmate nieuw onderzoek en generatorreleases dat rechtvaardigen.