Hjem › Hvor nøyaktig er AI-deteksjon? Benchmark på tvers av 22 LLM-er | Plagiatdetektor

Hvor nøyaktig er AI-deteksjon? Vår benchmark på tvers av 22 LLM-er

Vi publiserer vår AI-detektors reelle nøyaktighet mot 22 generative modeller, inkludert GPT-5, Claude 4, Gemini 2 og Llama 3. Tabeller per modell, ærlige begrensninger og et nedlastbart datasett for forskere.

2026-04-17 · Plagiarism Detector Team

Hvorfor vi publiserer nøyaktighetstallene våre

De fleste AI-deteksjonsverktøy ber deg stole på én ugjennomsiktig poengsum. Vi mener du fortjener bevis. På denne siden deler vi de fullstendige resultatene fra vår interne valideringskjøring – hver generator vi testet, AUC-ROC-scoren for den, essaytypene som ga oss mest problemer, og beslutningstersklene vi bruker i produksjon.

Dette nivået av åpenhet er uvanlig i AI-deteksjonsbransjen. De fleste konkurrenter – plagiatsjekkerleverandører, spesialiserte AI-deteksjonstjenester, generiske SaaS-verktøy – publiserer enten ingen nøyaktighetsdata eller ett enkelt kirsebærplukket tall. Dette mønsteret er uholdbart: utdannere, forlag og forskere trenger reproduserbare benchmarks før de kan stole på noe verktøy.

Tallene våre kommer fra en valideringssplitt på 1 000 prøver av kalibreringskildene som ble brukt til å trene vår ModernBERT-detektor. Den samme metodikken som driver denne benchmarken kjører på hvert dokument du sender inn via verktøyet vårt. Ingenting holdes tilbake for demoer.

Testkorpuset og metodikken

Valideringssettet inneholder 1 000 essays hentet fra et kalibreringssett med 1 200 prøver: 600 menneskeskrevne essays (fra PAN25-delte oppgavedata og PERSUADE argumentative essays-datasett) og 600 AI-genererte essays (produsert av 22 forskjellige store språkmodeller under kontrollert prompting). 80/20-opplærings-valideringsoppdelingen er fast og repeterbar.

Hver prøve scores isolert, uten tilgang til metadata som kan avsløre grunnannheten. Detektoren returnerer en sannsynlighet i [0, 100] som representerer sannsynligheten for at prøven er AI-generert. Vi beregner deretter arealet under ROC-kurven (AUC-ROC) per generator og på essaytypnivå.

Alle terskler, treningshyperparametere og rå sannsynlighetsutdata logges. Selve datasettet er tilgjengelig for nedlasting nederst på denne siden – CSV-format, én rad per prøve, med generatoridentitet, essaytypeetikett, rå score og den endelige binære dommen.

Hovedresultater

På tvers av hele settet med 1 000 prøver oppnår vår ensemble-detektor AUC-ROC [AUC: 0.9884]. Ved 50 %-beslutningsskjermen vi bruker i produksjon: 0 falske positiver på menneskeskrevne essays i valideringssettet, og 60 % recall på AI-essays. Ved den F1-optimale terskelen på 26,56 % stiger recall til 90 % på bekostning av 2 % falske positiver – en avveining som er bedre egnet for arbeidsflyter med høy sensitivitet.

Dokumentnivådommen i det offentlige verktøyet vårt bruker den konservative 50 %-terskelen, og prioriterer null falske positiver fremfor maksimal recall. Lærere, forlag og forskere kan overstyre dette via sensitivitetsglideren i widgeten når de ønsker mer aggressiv flagging.

Til sammenligning scorer Binoculars nullskuddkomponent alene (et 2× Llama-3.1-8B-oppsett) AUC [AUC: 0.8509] på egenhånd. Den finjusterte ModernBERT-komponenten alene scorer [AUC: 1.0000] på essays i distribusjon og [AUC: 0.9069] på tekst utenfor distribusjon. Ensemblet befinner seg mellom dem på enhver enkelt akse, men overgår begge i gjennomsnitt fordi det korrigerer for de komplementære svakhetene deres.

Fordeling per generator

Her er AUC-ROC-tabellen per modell. Modeller er sortert fra lettest til vanskeligst å oppdage i valideringssettet vårt. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI-modeller: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Andre: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Hovedmønsteret: nyere, større, instruksjonstunede modeller har en tendens til å produsere tekst som ser mer menneskelig ut for enhver statistisk detektor, inkludert vår. Claude 4.5 Sonnet og GPT-5.x er de to familiene der scorefordelingene våre overlapper mest med den menneskelige referansen. Dette stemmer overens med alle uavhengige studier publisert i 2025 – kappløpet er reelt og modellstørrelse er en direkte motvind for deteksjon.

Hvor detektoren sliter

Ikke all tekst er like detekterbar. Vi bryter ned resultater etter essaytype – hver PERSUADE-promptkategori – og gapet mellom best og verst er stort. [PER-TYPE TABLE]

Argumenterende, overbevisende og forklarende essays: detektorens sterkeste domene. AUC typisk 0,97–1,00 fordi treningskorpusen overvekter disse stilene. Dette er der de fleste akademiske integritetssaker befinner seg.

Kreativ skriving og litterær analyse: vårt svakeste domene. For literary_analysis faller AUC til 0,69 – menneskelig stil i fiksjon konvergerer med LLM-utdata og verken vår overvåkede eller nullskuddskomponent kan pålitelig skille dem. Behandl en høy AI-score på fiksjon med skepsis.

Prøv detektoren på din egen tekst

Lim inn et dokument og se den samme dommen per setning og beslutningstersklene vi bruker for disse benchmarktallene. Gratis, ingen registrering.

Begrensninger og sviktmodi

Tre klasser tekst unnslipper detektoren vår oftere enn valideringssettet antyder. Humanisert AI-tekst – utdata sendt gjennom et motstridende parafrasering- eller stiloverføringsverktøy – scorer ofte som menneskelig selv når den underliggende teksten var fullstendig generert. Kort tekst (under 100 ord) er vanskelig å klassifisere i det hele tatt fordi det er utilstrekkelig statistisk signal. Ikke-innfødt engelsk skriving kan score som AI-generert fordi LLM-er og ESL-skribenter deler visse leksikalske og syntaktiske preferanser.

Detektoren vår er probabilistisk, ikke bevisgivende. En høy AI-score er et signal om å undersøke nærmere, ikke bevis på uredelighet. Vi anbefaler sterkt å kombinere scoren med kontekst: nylig redigeringshistorikk, versjonsutkast, skriveprøver fra samme forfatter, og – der det er tillatt – en kort oppfølgingssamtale med forfatteren.

Vi trener kontinuerlig på de nyeste generatorutdataene, men det er alltid en forsinkelse: en modell utgitt forrige uke er kanskje ikke godt representert i treningsdataene. Hvis arbeidsflyten din avhenger av å fange de nyeste modellene, sjekk benchmark-siden vår kvartalsvis for de oppdaterte tallene.

Last ned det fullstendige datasettet

Vi publiserer de rå valideringsresultatene slik at forskere, journalister og utdannere uavhengig kan verifisere påstandene våre. CSV-en inneholder: prøve-ID, generatoridentitet (eller 'human'), essaytypeetikett, rå sannsynlighetsutdata, binær dom ved 50 %-terskel, binær dom ved 26,56 %-terskel.

Last ned: ai-detector-benchmark-2026-04.csv (oppdateres kvartalsvis). Akademisk bruk er ubegrenset; kommersiell gjenpublisering krever attribusjon: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

For en interaktiv versjon av den samme metodikken på din egen tekst, prøv verktøyet vårt AI & Plagiatsjekker – lim inn et dokument og se dommen per setning, de samme beslutningstersklene og det samme konfidensintervallet vi bruker for disse publiserte tallene.

Ofte stilte spørsmål

Hvor ofte oppdateres denne benchmarken?

Hvert kvartal. Når en stor generator (GPT-6, Claude 5, Gemini 3) lanseres, legger vi den til i testkorpuset innen 4 uker og republiserer den oppdaterte tabellen. Historiske versjoner er arkivert med daterte filnavn – 2026-04-utgaven er den gjeldende stabile utgivelsen.

Hvorfor publiserer dere ikke sannsynlighetsutdata per prøve?

Det gjør vi – den nedlastbare CSV-en inneholder rå sannsynligheter. Det vi ikke publiserer er den originale essayteksten, fordi PAN25-korpuset og PERSUADE-datasettet har viderespredningsbegrensninger. Hvis du vil ha teksten, hent disse datasettene direkte fra kilden (lenker i CSV-dokumentasjonen).

Kan jeg stole på en detektor hvis AUC er under 1,0?

Ingen detektor oppnår AUC 1,0 på alle generatorer, så spørsmålet er ikke ‘er den perfekt’ men ‘er den transparent.’ En detektor som publiserer AUC 0,95 og forteller deg hvor den sliter er mer pålitelig enn en som publiserer ‘bransjeledende nøyaktighet’ uten tall. Vår AUC [AUC: 0.9884] er ærlig gjennomsnittlig ytelse; fordelingene per generator og per essaytype er der du bør ta kjøpsbeslutningen din.

Er AI-detektoren din klar for akademisk publisering?

Den underliggende metodikken er det – Binoculars (ICML 2024) og ModernBERT er begge fagfellevurderte arkitekturer. Vårt spesifikke finjusteringskorpus og terskler er proprietære, men benchmarkmetodikken er fullt reproduserbar.

Hvordan sammenlignes det gratis nettverktøyet med skrivebordsprodukt?

Samme motor, samme nøyaktighetstall, samme dom-logikk per setning. Skrivebordsprodukt legger til ubegrenset dokumentlengde, frakoblet skanning, integrert plagiatmatching mot 4 milliarder nettsider og batchbehandling av hele mapper. For engangssjekkinger er nettverktøyet tilstrekkelig; for daglige arbeidsflyter er skrivebordet det rette verktøyet.

Benchmarkresultater er avledet fra vårt interne valideringssett og generaliserer kanskje ikke til tekst utenfor distribusjon. Publiserte tall representerer gjennomsnittlig ytelse på tvers av 1 000 prøver; dokumentet ditt kan score annerledes. Bruk AI-deteksjonsresultater som ett innspill blant mange, ikke som eneste bevis på forfatterskap.