Vi offentliggør vores AI-detektors reelle præcision mod 22 generative modeller, herunder GPT-5, Claude 4, Gemini 2 og Llama 3. Per-model-tabeller, ærlige begrænsninger og et downloadbart datasæt til forskere.
De fleste AI-detektionsværktøjer beder dig om at stole på en enkelt uigennemsigtig score. Vi mener, du fortjener beviser. På denne side deler vi de fulde resultater fra vores interne valideringskørsel — hver generator vi testede, AUC-ROC-scoren for den, de essay-typer der gav os mest besvær, og de beslutningstærskler vi bruger i produktion.
Dette niveau af gennemsigtighed er usædvanligt i AI-detektionssektoren. De fleste konkurrenter — leverandører af plagiatkontroltjenester, specialiserede AI-detektionstjenester, generiske SaaS-værktøjer — offentliggør enten ingen præcisionsdata eller et enkelt udvalgt tal. Dette mønster er uholdbart: undervisere, forlag og forskere har brug for reproducerbare benchmarks, før de kan stole på noget værktøj.
Vores tal stammer fra en valideringsopdeling med 1.000 prøver af det kalibreringsskorpus, der bruges til at træne vores ModernBERT-detektor. Den samme metode, der driver dette benchmark, kører på hvert dokument, du indsender via vores værktøj. Intet er tilbageholdt til demoer.
Valideringssættet indeholder 1.000 essays hentet fra et kalibreringsskorpus med 1.200 prøver: 600 menneske-skrevne essays (fra PAN25 shared-task-data og PERSUADE-argumentationsessay-datasættet) og 600 AI-genererede essays (produceret af 22 forskellige store sprogmodeller under kontrolleret promptning). 80/20-opdeling i træning og validering er fast og reproducerbar.
Hver prøve scores isoleret, uden adgang til metadata, der kunne afsløre sandhedsgrundlaget. Detektoren returnerer en sandsynlighed i [0, 100], der repræsenterer sandsynligheden for, at prøven er AI-genereret. Vi beregner derefter arealet under kurven for receiverens operationskarakteristik (AUC-ROC) per generator og på essay-typeniveau.
Alle tærskler, træningshyperparametre og rå sandsynlighedsoutput logges. Datasættet er tilgængeligt til download nederst på denne side — CSV-format, én række per prøve med generatoridentitet, essay-typeetiket, rå score og den endelige binære afgørelse.
På tværs af det fulde sæt med 1.000 prøver opnår vores ensembledetektor AUC-ROC [AUC: 0.9884]. Ved den 50%-beslutningstærskel, vi bruger i produktion: 0 falske positiver på menneske-essays i valideringssættet, og 60% recall på AI-essays. Ved F1-optimal tærskel på 26,56% stiger recall til 90% på bekostning af 2% falske positiver — en afvejning der er bedre egnet til arbejdsgange med høj sensitivitet.
Den dokumentniveaubaserede afgørelse i vores offentlige værktøj bruger den konservative 50%-tærskel, der prioriterer nul falske positiver frem for maksimal recall. Lærere, forlag og forskere kan tilsidesætte dette via følsomhedsskyderen i widgetten, når de ønsker mere aggressiv markering.
Til sammenligning scorer Binoculars zero-shot-komponenten alene (en 2× Llama-3.1-8B-opsætning) AUC [AUC: 0.8509] selvstændigt. Den finjusterede ModernBERT-komponent alene scorer [AUC: 1.0000] på in-distribution essays og [AUC: 0.9069] på out-of-distribution tekst. Ensemblet befinder sig imellem dem på én enkelt akse, men overgår begge i gennemsnit, fordi det korrigerer deres komplementære svagheder.
Her er per-model AUC-ROC-tabellen. Modeller er ordnet fra lettest til sværest at detektere i vores valideringssæt. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI-modeller: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Andre: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Overordnet mønster: nyere, større, instruktionsjusterede modeller har tendens til at producere tekst, der ser mere menneskelig ud for enhver statistisk detektor, inklusive vores. Claude 4.5 Sonnet og GPT-5.x er de to familier, hvor vores scoringsfordelinger overlapper mest med den menneskelige baseline. Dette stemmer overens med alle uafhængige undersøgelser offentliggjort i 2025 — kapløbet er reelt, og modelstørrelse er en direkte modvind for detektion.
Ikke al tekst er lige let at detektere. Vi opdeler resultaterne efter essay-type — hver PERSUADE-promptkategori — og kløften mellem bedst og dårligst er bred. [PER-TYPE TABLE]
Argumenterende, overbevisende og forklarende essays: detektorens stærkeste domæne. AUC typisk 0,97–1,00, fordi træningsskorpusserne overvægter disse stilarter. Det er her, de fleste akademiske integritetssager falder.
Kreativ skrivning og litterær analyse: vores svageste domæne. For literary_analysis falder AUC til 0,69 — menneskelig stil i fiktion konvergerer med LLM-output, og hverken vores superviserede eller zero-shot-komponent kan pålideligt skelne dem fra hinanden. Behandl en høj AI-score på fiktion med skepsis.
Indsæt ethvert dokument og se den samme afgørelse per sætning og de beslutningstærskler, vi bruger til disse benchmarktal. Gratis, ingen tilmelding kræves.
Tre klasser af tekst undslipper vores detektor hyppigere end vores valideringssæt antyder. Humaniseret AI-tekst — output, der er behandlet med et adversarielt parafraserings- eller stil-overførselsværktøj — scores ofte som menneskelig, selv når den underliggende tekst var fuldt genereret. Kort tekst (under 100 ord) er svær at klassificere, fordi der ikke er tilstrækkeligt statistisk signal. Ikke-native engelsk skrivning kan scores som AI-genereret, fordi LLM'er og ESL-skribenter deler visse leksikale og syntaktiske præferencer.
Vores detektor er probabilistisk, ikke bevismæssig. En høj AI-score er et signal til yderligere undersøgelse, ikke bevis for uredelighed. Vi anbefaler kraftigt at kombinere scoren med kontekst: seneste redigeringshistorik, versionsudkast, skriftlige eksempler fra samme forfatter og — hvor det er tilladt — en kort opfølgende samtale med forfatteren.
Vi genoptræner løbende på de nyeste generatoroutput, men der er altid en forsinkelse: en model, der blev udgivet i sidste uge, er muligvis ikke godt repræsenteret i træningsdataene. Hvis din arbejdsgang afhænger af at opfange de nyeste modeller, bør du genbesøge vores benchmarkside kvartalsvis for de opdaterede tal.
Vi offentliggør de rå valideringsresultater, så forskere, journalister og undervisere uafhængigt kan verificere vores påstande. CSV'en indeholder: prøve-ID, generatoridentitet (eller 'human'), essay-typeetiket, rå sandsynlighedsoutput, binær afgørelse ved 50%-tærskel, binær afgørelse ved 26,56%-tærskel.
Download: ai-detector-benchmark-2026-04.csv (opdateret kvartalsvis). Akademisk brug er ubegrænset; kommerciel genudgivelse kræver kildeangivelse: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
Prøv vores AI & Plagiatkontrolfunktion for en interaktiv version af den samme metode på din egen tekst — indsæt ethvert dokument og se afgørelsen per sætning, de samme beslutningstærskler og det samme konfidensinterval, vi bruger til disse offentliggjorte tal.
Benchmarkresultaterne er afledt af vores interne valideringssæt og generaliserer muligvis ikke til out-of-distribution tekst. Offentliggjorte tal repræsenterer gennemsnitlig præstation på tværs af 1.000 prøver; dit dokument kan score anderledes. Brug AI-detektionsresultater som ét input blandt mange, ikke som eneste bevis for forfatterskab.