Navigeer naar boven
Thuis Hoe nauwkeurig is AI-detectie? Benchmark over 22 LLM's | Plagiaatdetector

Hoe nauwkeurig is AI-detectie? Onze benchmark over 22 LLM's

Wij publiceren de werkelijke nauwkeurigheid van onze AI-detector op 22 generatieve modellen, waaronder GPT-5, Claude 4, Gemini 2 en Llama 3. Per-model tabellen, eerlijke beperkingen en een downloadbare dataset voor onderzoekers.

2026-04-17 · Plagiarism Detector Team

Waarom wij onze nauwkeurigheidsgegevens publiceren

De meeste AI-detectietools vragen u op een enkel ondoorzichtig cijfer te vertrouwen. Wij vinden dat u bewijs verdient. Op deze pagina delen wij de volledige resultaten van onze interne validatierun — elke generator die wij hebben getest, de AUC-ROC-score daarop, de soorten essays die ons de meeste moeite kostten en de beslissingsdrempels die wij in productie gebruiken.

Dit niveau van transparantie is ongebruikelijk in de AI-detectiesector. De meeste concurrenten — leveranciers van plagiaatcontrollers, gespecialiseerde AI-detectiediensten, generieke SaaS-tools — publiceren ofwel geen nauwkeurigheidsgegevens ofwel een enkel gunstig gekozen cijfer. Dat patroon is onhoudbaar: onderwijzers, uitgevers en onderzoekers hebben reproduceerbare benchmarks nodig voordat zij op een tool kunnen vertrouwen.

Onze cijfers zijn afkomstig van een validatiesplit van 1.000 voorbeelden uit het kalibratiecorpus dat is gebruikt om onze ModernBERT-detector te trainen. Dezelfde methodologie die deze benchmark aandrijft, wordt toegepast op elk document dat u via onze tool indient. Er wordt niets achtergehouden voor demo's.

Het testcorpus en de methodologie

De validatieset bevat 1.000 essays uit een kalibratiecorpus van 1.200 voorbeelden: 600 door mensen geschreven essays (uit de PAN25-taakdata en de PERSUADE argumentatieve-essaysdataset) en 600 door AI gegenereerde essays (geproduceerd door 22 afzonderlijke grote taalmodellen onder gecontroleerde prompting). De 80/20 trainings-validatiesplit is vastgelegd en herhaalbaar.

Elk voorbeeld wordt afzonderlijk beoordeeld, zonder toegang tot metadata die de grondwaarheid zou kunnen lekken. De detector geeft een kans terug in [0, 100] die de waarschijnlijkheid weergeeft dat het voorbeeld door AI is gegenereerd. Vervolgens berekenen wij het oppervlak onder de receiver-operating-characteristic-curve (AUC-ROC) per generator en op het niveau van het essaytype.

Alle drempels, trainings-hyperparameters en ruwe kanssuitvoer worden geregistreerd. De dataset zelf is onderaan deze pagina te downloaden — CSV-formaat, een rij per voorbeeld, met generatoridentiteit, essaytypelabel, ruwe score en het uiteindelijke binaire oordeel.

Hoofdresultaten

Over de volledige set van 1.000 voorbeelden behaalt onze ensemble-detector AUC-ROC [AUC: 0,9884]. Bij de beslissingsdrempel van 50% die wij in productie gebruiken: 0 fout-positieven op menselijke essays in de validatieset en 60% recall op door AI gegenereerde essays. Bij de F1-optimale drempel van 26,56% stijgt de recall naar 90% ten koste van 2% fout-positieven — een afweging die beter geschikt is voor workflows met hoge gevoeligheid.

Het oordeel op documentniveau in onze publieke tool gebruikt de conservatieve drempel van 50%, waarbij nul fout-positieven worden geprioriteerd boven maximale recall. Onderwijzers, uitgevers en onderzoekers kunnen dit aanpassen via de gevoeligheidsschuifregelaar in de widget als zij agressievere markering willen.

Ter vergelijking scoort de Binoculars zero-shot-component afzonderlijk (een 2x Llama-3.1-8B-setup) AUC [AUC: 0,8509] standalone. De fijnafgestelde ModernBERT-component afzonderlijk scoort [AUC: 1,0000] op in-distributioneele essays en [AUC: 0,9069] op out-of-distribution-tekst. De ensemble zit tussen beide in op elke afzonderlijke as, maar presteert gemiddeld beter dan beide doordat hij hun complementaire zwaktes corrigeert.

Uitsplitsing per generator

Hieronder staat de AUC-ROC-tabel per model. Modellen zijn gerangschikt van gemakkelijkst tot moeilijkst te detecteren op onze validatieset. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI-modellen: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Overigen: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Het opvallende patroon: nieuwere, grotere, instruction-tuned modellen produceren tekst die statistisch meer op menselijk schrijven lijkt, ook voor onze detector. Claude 4.5 Sonnet en GPT-5.x zijn de twee families waarbij onze scoreverdelingen het meest overlappen met de menselijke basislijn. Dit komt overeen met elk onafhankelijk onderzoek dat in 2025 is gepubliceerd — de wapenwedloop is reeel en modelomvang is een directe tegenwind voor detectie.

Waar de detector moeite mee heeft

Niet alle tekst is even goed detecteerbaar. Wij splitsen de resultaten uit per essaytype — elke PERSUADE-promptcategorie — en het verschil tussen beste en slechtste is groot. [PER-TYPE TABLE]

Argumentatieve, overtuigende en beschouwende essays: het sterkste domein van de detector. AUC ligt doorgaans op 0,97-1,00 doordat trainingskorpora deze stijlen overwegen. Dit is het domein waar de meeste academische-integriteitszaken vallen.

Creatief schrijven en literaire analyse: ons zwakste domein. Voor literary_analysis daalt de AUC naar 0,69 — menselijke stijl in fictie convergeert met LLM-uitvoer en noch onze gesuperviseerde noch onze zero-shot-component kan ze betrouwbaar onderscheiden. Behandel een hoge AI-score op fictie met scepsis.

Probeer de detector op uw eigen tekst

Plak een document en zie hetzelfde per-zin-oordeel en dezelfde beslissingsdrempels die wij voor deze benchmarkcijfers gebruiken. Gratis, geen aanmelding vereist.

Beperkingen en faalmodi

Drie klassen tekst ontsnappen vaker aan onze detector dan onze validatieset suggereert. Gehumaniseerde AI-tekst — uitvoer die door een adversarial parafraserings- of stijloverdrachtstool is gehaald — scoort vaak als menselijk geschreven, zelfs wanneer de onderliggende tekst volledig was gegenereerd. Korte tekst (minder dan 100 woorden) is moeilijk te classificeren omdat er onvoldoende statistisch signaal is. Niet-moedertaal Engels schrijven kan als door AI gegenereerd scoren, doordat LLM's en ESL-schrijvers bepaalde lexicale en syntactische voorkeuren delen.

Onze detector is probabilistisch, niet bewijsmatig. Een hoge AI-score is een signaal om nader onderzoek te doen, geen bewijs van wangedrag. Wij raden sterk aan de score te combineren met context: recente bewerkingsgeschiedenis, conceptversies, schrijfvoorbeelden van dezelfde auteur en — waar toegestaan — een korte vervolgconversatie met de auteur.

Wij trainen continu opnieuw op de nieuwste generatoruitvoer, maar er is altijd een vertraging: een model dat vorige week is uitgebracht, is mogelijk niet goed vertegenwoordigd in de trainingsdata. Als uw workflow afhankelijk is van het opvangen van de nieuwste modellen, controleer onze benchmarkpagina elk kwartaal op de bijgewerkte cijfers.

De volledige dataset downloaden

Wij publiceren de ruwe validatieresultaten zodat onderzoekers, journalisten en onderwijzers onze beweringen onafhankelijk kunnen verifiëren. De CSV bevat: voorbeeld-ID, generatoridentiteit (of 'human'), essaytypelabel, ruwe kanssuitvoer, binair oordeel bij 50%-drempel, binair oordeel bij 26,56%-drempel.

Download: ai-detector-benchmark-2026-04.csv (elk kwartaal bijgewerkt). Academisch gebruik is onbeperkt; commerciële herpublicatie vereist naamsvermelding: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

Voor een interactieve versie van dezelfde methodologie op uw eigen tekst kunt u onze AI & Plagiaatcontroleur gebruiken — plak een document en zie het per-zin-oordeel, dezelfde beslissingsdrempels en hetzelfde betrouwbaarheidsinterval dat wij voor deze gepubliceerde cijfers gebruiken.

Veelgestelde vragen

Hoe vaak wordt deze benchmark bijgewerkt?
Elk kwartaal. Wanneer een grote generator (GPT-6, Claude 5, Gemini 3) uitkomt, voegen wij deze binnen 4 weken toe aan het testcorpus en publiceren wij de bijgewerkte tabel opnieuw. Historische versies worden gearchiveerd met gedateerde bestandsnamen — de editie 2026-04 is de huidige stabiele release.
Waarom publiceert u geen per-voorbeeld kanssuitvoer?
Dat doen wij wel — de downloadbare CSV bevat ruwe kansen. Wat wij niet publiceren is de originele essaytekst, omdat het PAN25-corpus en de PERSUADE-dataset herdistributiebeperkingen bevatten. Als u de tekst wilt, haal die datasets dan rechtstreeks bij hun bron op (links in de CSV-documentatie).
Kan ik een detector vertrouwen als de AUC onder 1,0 ligt?
Geen enkele detector behaalt AUC 1,0 op elke generator, dus de vraag is niet ‘is hij perfect’ maar ‘is hij transparant.’ Een detector die AUC 0,95 publiceert en aangeeft waar hij moeite mee heeft, is betrouwbaarder dan een die ‘toonaangevende nauwkeurigheid’ publiceert zonder enig cijfer. Onze AUC [AUC: 0,9884] is eerlijke gemiddelde prestatie; de uitsplitsingen per generator en per essaytype zijn de plek waar u uw aankoopbeslissing op moet baseren.
Is uw AI-detector gereed voor academische publicatie?
De onderliggende methodologie wel — Binoculars (ICML 2024) en ModernBERT zijn beide peer-reviewed architecturen. Ons specifieke fijnafstemmingscorpus en onze drempels zijn eigendomsrechtelijk beschermd, maar de benchmarkmethodologie is volledig reproduceerbaar.
Hoe verhoudt de gratis online tool zich tot het desktopproduct?
Dezelfde engine, dezelfde nauwkeurigheidscijfers, dezelfde per-zin-oordeelslogica. Het desktopproduct voegt onbeperkte documentlengte toe, offline scannen, geïntegreerde plagiaatmatching tegen 4 miljard webpagina's en batchverwerking van volledige mappen. Voor eenmalige controles volstaat de online tool; voor dagelijkse workflows is de desktop het juiste hulpmiddel.

Benchmarkresultaten zijn afkomstig van onze interne validatieset en zijn mogelijk niet generaliseerbaar naar out-of-distribution-tekst. Gepubliceerde cijfers vertegenwoordigen gemiddelde prestaties over 1.000 voorbeelden; uw document kan anders scoren. Gebruik AI-detectieresultaten als één input onder meerdere, niet als enig bewijs van auteurschap.