Vi publiserer vår AI-detektors reelle nøyaktighet mot 22 generative modeller, inkludert GPT-5, Claude 4, Gemini 2 og Llama 3. Tabeller per modell, ærlige begrensninger og et nedlastbart datasett for forskere.
De fleste AI-deteksjonsverktøy ber deg stole på én ugjennomsiktig poengsum. Vi mener du fortjener bevis. På denne siden deler vi de fullstendige resultatene fra vår interne valideringskjøring – hver generator vi testet, AUC-ROC-scoren for den, essaytypene som ga oss mest problemer, og beslutningstersklene vi bruker i produksjon.
Dette nivået av åpenhet er uvanlig i AI-deteksjonsbransjen. De fleste konkurrenter – plagiatsjekkerleverandører, spesialiserte AI-deteksjonstjenester, generiske SaaS-verktøy – publiserer enten ingen nøyaktighetsdata eller ett enkelt kirsebærplukket tall. Dette mønsteret er uholdbart: utdannere, forlag og forskere trenger reproduserbare benchmarks før de kan stole på noe verktøy.
Tallene våre kommer fra en valideringssplitt på 1 000 prøver av kalibreringskildene som ble brukt til å trene vår ModernBERT-detektor. Den samme metodikken som driver denne benchmarken kjører på hvert dokument du sender inn via verktøyet vårt. Ingenting holdes tilbake for demoer.
Valideringssettet inneholder 1 000 essays hentet fra et kalibreringssett med 1 200 prøver: 600 menneskeskrevne essays (fra PAN25-delte oppgavedata og PERSUADE argumentative essays-datasett) og 600 AI-genererte essays (produsert av 22 forskjellige store språkmodeller under kontrollert prompting). 80/20-opplærings-valideringsoppdelingen er fast og repeterbar.
Hver prøve scores isolert, uten tilgang til metadata som kan avsløre grunnannheten. Detektoren returnerer en sannsynlighet i [0, 100] som representerer sannsynligheten for at prøven er AI-generert. Vi beregner deretter arealet under ROC-kurven (AUC-ROC) per generator og på essaytypnivå.
Alle terskler, treningshyperparametere og rå sannsynlighetsutdata logges. Selve datasettet er tilgjengelig for nedlasting nederst på denne siden – CSV-format, én rad per prøve, med generatoridentitet, essaytypeetikett, rå score og den endelige binære dommen.
På tvers av hele settet med 1 000 prøver oppnår vår ensemble-detektor AUC-ROC [AUC: 0.9884]. Ved 50 %-beslutningsskjermen vi bruker i produksjon: 0 falske positiver på menneskeskrevne essays i valideringssettet, og 60 % recall på AI-essays. Ved den F1-optimale terskelen på 26,56 % stiger recall til 90 % på bekostning av 2 % falske positiver – en avveining som er bedre egnet for arbeidsflyter med høy sensitivitet.
Dokumentnivådommen i det offentlige verktøyet vårt bruker den konservative 50 %-terskelen, og prioriterer null falske positiver fremfor maksimal recall. Lærere, forlag og forskere kan overstyre dette via sensitivitetsglideren i widgeten når de ønsker mer aggressiv flagging.
Til sammenligning scorer Binoculars nullskuddkomponent alene (et 2× Llama-3.1-8B-oppsett) AUC [AUC: 0.8509] på egenhånd. Den finjusterte ModernBERT-komponenten alene scorer [AUC: 1.0000] på essays i distribusjon og [AUC: 0.9069] på tekst utenfor distribusjon. Ensemblet befinner seg mellom dem på enhver enkelt akse, men overgår begge i gjennomsnitt fordi det korrigerer for de komplementære svakhetene deres.
Her er AUC-ROC-tabellen per modell. Modeller er sortert fra lettest til vanskeligst å oppdage i valideringssettet vårt. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI-modeller: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Andre: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Hovedmønsteret: nyere, større, instruksjonstunede modeller har en tendens til å produsere tekst som ser mer menneskelig ut for enhver statistisk detektor, inkludert vår. Claude 4.5 Sonnet og GPT-5.x er de to familiene der scorefordelingene våre overlapper mest med den menneskelige referansen. Dette stemmer overens med alle uavhengige studier publisert i 2025 – kappløpet er reelt og modellstørrelse er en direkte motvind for deteksjon.
Ikke all tekst er like detekterbar. Vi bryter ned resultater etter essaytype – hver PERSUADE-promptkategori – og gapet mellom best og verst er stort. [PER-TYPE TABLE]
Argumenterende, overbevisende og forklarende essays: detektorens sterkeste domene. AUC typisk 0,97–1,00 fordi treningskorpusen overvekter disse stilene. Dette er der de fleste akademiske integritetssaker befinner seg.
Kreativ skriving og litterær analyse: vårt svakeste domene. For literary_analysis faller AUC til 0,69 – menneskelig stil i fiksjon konvergerer med LLM-utdata og verken vår overvåkede eller nullskuddskomponent kan pålitelig skille dem. Behandl en høy AI-score på fiksjon med skepsis.
Lim inn et dokument og se den samme dommen per setning og beslutningstersklene vi bruker for disse benchmarktallene. Gratis, ingen registrering.
Tre klasser tekst unnslipper detektoren vår oftere enn valideringssettet antyder. Humanisert AI-tekst – utdata sendt gjennom et motstridende parafrasering- eller stiloverføringsverktøy – scorer ofte som menneskelig selv når den underliggende teksten var fullstendig generert. Kort tekst (under 100 ord) er vanskelig å klassifisere i det hele tatt fordi det er utilstrekkelig statistisk signal. Ikke-innfødt engelsk skriving kan score som AI-generert fordi LLM-er og ESL-skribenter deler visse leksikalske og syntaktiske preferanser.
Detektoren vår er probabilistisk, ikke bevisgivende. En høy AI-score er et signal om å undersøke nærmere, ikke bevis på uredelighet. Vi anbefaler sterkt å kombinere scoren med kontekst: nylig redigeringshistorikk, versjonsutkast, skriveprøver fra samme forfatter, og – der det er tillatt – en kort oppfølgingssamtale med forfatteren.
Vi trener kontinuerlig på de nyeste generatorutdataene, men det er alltid en forsinkelse: en modell utgitt forrige uke er kanskje ikke godt representert i treningsdataene. Hvis arbeidsflyten din avhenger av å fange de nyeste modellene, sjekk benchmark-siden vår kvartalsvis for de oppdaterte tallene.
Vi publiserer de rå valideringsresultatene slik at forskere, journalister og utdannere uavhengig kan verifisere påstandene våre. CSV-en inneholder: prøve-ID, generatoridentitet (eller 'human'), essaytypeetikett, rå sannsynlighetsutdata, binær dom ved 50 %-terskel, binær dom ved 26,56 %-terskel.
Last ned: ai-detector-benchmark-2026-04.csv (oppdateres kvartalsvis). Akademisk bruk er ubegrenset; kommersiell gjenpublisering krever attribusjon: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
For en interaktiv versjon av den samme metodikken på din egen tekst, prøv verktøyet vårt AI & Plagiatsjekker – lim inn et dokument og se dommen per setning, de samme beslutningstersklene og det samme konfidensintervallet vi bruker for disse publiserte tallene.
Benchmarkresultater er avledet fra vårt interne valideringssett og generaliserer kanskje ikke til tekst utenfor distribusjon. Publiserte tall representerer gjennomsnittlig ytelse på tvers av 1 000 prøver; dokumentet ditt kan score annerledes. Bruk AI-deteksjonsresultater som ett innspill blant mange, ikke som eneste bevis på forfatterskap.