Inte all AI-text är lika detekterbar. Här är resultaten av vår benchmark per generator — vilka modellfamiljer vår detektor fångar med nästan perfekt noggrannhet, vilka den kämpar med och vad det berättar om att välja ett detektionsarbetsflöde.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Ordnade från lättast till svårast att detektera i vårt valideringsset. Spridningen är bred — AUC på vissa modellfamiljer överstiger 0,99 medan andra sjunker till 0,80-talet. Detektionssvårighet korrelerar med modellstorlek, sofistikering i instruktionsjustering och utdatavariation.
För den fullständiga uppdelningsmetodiken per generator, se vår noggrannhetsbenchmarksida. Denna artikel sammanfattar de praktiska konsekvenserna av dessa data för användare som väljer vilken detektor de ska lita på och vilken modell de ska använda.
GPT-3.5 är den lättaste moderna modellen att detektera — AUC [AUC: ?] i vårt set. Artefakter från äldre generering (repetition, undvikande, blekt register) är fortfarande tydligt närvarande. GPT-4 sjunker till AUC [AUC: ?], GPT-4o till [AUC: ?], vilket återspeglar progressivt bättre kalibrering. GPT-5.x är den svåraste i familjen — AUC [AUC: ?] — eftersom instruktionsjusteringsteamet explicit inriktade sig på borttagning av detektionsartefakter.
Praktisk konsekvens: akademiska arbetsflöden som är oroliga för GPT-3.5-erans fusk kan förlita sig starkt på enbart detektion. Arbetsflöden som är oroliga för GPT-5 behöver para ihop detektion med kontextuell evidens, som beskrivs i vår lärararbetsflödesguide.
Temperaturinställningar spelar roll. Lågtemperaturutdata (t≤0,5) är lättare att detektera eftersom de koncentrerar sannolikhetsmassa på ett smalare ordförråd. De flesta chattgränssnitt som standard t≈0,7, vilket placerar text i en måttligt detekterbar zon. Adversariella användare skruvar explicit upp temperaturen eller använder diversifierad avkodning för att vidga intervallet och undgå detektion — vår ensemble korrigerar delvis för detta men inte helt.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude-familjen producerar konsekvent mindre repetitiv, mer stilistiskt varierad text än GPT-modeller av samma generation, vilket gör den svårare att detektera via statistiska metoder.
Claudes konstitutionella AI-träning riktar specifikt in sig på de “maskinella signalerna” som vår övervakade klassificerare lär sig från — undvikande mönster, överanvändning av specifika konnektorer, förutsägbar styckesstruktur. Detta är en direkt adversariell relation: generatorn tränas mot egenskaper som detektorn förlitar sig på.
Claude 4.5 Sonnet och GPT-5.x är nära i svårighet. Deras poängdistributioner överlappar den mänskliga baslinjen mest i våra valideringsdata. Om ditt arbetsflöde riktar in sig på någon av dessa modeller, förvänta dig minskad recall vid standardgränsvärdet och överväg att sänka till F1-optimal för högkänslig screening.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini har visat den mest variabla detektionsprestandan över versioner — vissa mellanliggande versioner regresserade tillfälligt innan förbättringar landade.
Geminis multimodala träning innebär att textbaserade utdata ibland bär resterande mönster från bildtexts- eller kodförklaringsdomäner. Vår detektor fångar upp dessa, vilket förklarar Geminis något högre detekterbarhet på blanddominsprompter än på ren prosa.
För Google Workspace-användare vars studenter eller anställda använder Gemini via Dokument, är detektionssignalen liknande rådet API-utdata. Vi har inte observerat arbetsplatsintegrationsspecifika undvikande mönster som skiljer sig från direkt Gemini API-användning.
Klistra in utdata från valfri LLM och se utslaget per mening. Vår detektor behandlar alla 22 modellfamiljer som en enda ensemblekontroll.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Öppenviktsmodeller spänner ett bredare intervall än slutna — finjusteringsvarianter, kvantiserade driftsättningar och community-modifierade kontrollpunkter producerar alla subtilt olika utdata.
Detektion på öppenviktsmodeller är strategiskt viktigt eftersom humaniseringsverktyg vanligtvis är byggda på öppenviktsmodeller — Llama- och Mistral-derivat körs lokalt till låg kostnad, vilket är varför omformuleringstjänster och stilöverföringstjänster prissätter dem. Om din oro är humaniserad AI försvarar du dig i slutändan mot Llama-familjesgenerering.
DeepSeek R1 och o3-mini (OpenAI:s resonangsmodell) förtjänar separat omnämnande. Båda producerar text med resonanskedjartefakter — explicit steg-för-steg-logik synlig i utdata — vilket vår detektor har lärt sig att känna igen. Resonangsmodeller är för närvarande lättare att detektera än deras bashantterande motsvarigheter av just denna anledning.
Om du väljer en modell att skriva med och detektion inte är din oro, är Claude 4.5 Sonnet och GPT-5 de svårast att detektera. Om du bygger ett detektionsarbetsflöde, prioritera för de modeller du faktiskt ser: de flesta akademiska missbruk körs fortfarande på GPT-4/5 via gratis gränssnitt; det mesta innehållsodlandet körs på Llama-derivata humaniseringsverktyg.
En enda detektor tränad på en enda modellfamilj kommer att prestera sämst på de andra. Vår ensemblestrategi tränar på sampel från alla 22 generatorer, vilket är varför AUC per modell på svåra fall (Claude 4.5, GPT-5) fortfarande är ovanför 0,90 medan en enda modelltränad detektor skulle sjunka under 0,80.
Den underliggande trenden: detektionssvårighet stiger snabbare än generatorsläppstakten. Varje ny flaggskeppsmodell är svårare att detektera än den föregående, omträning minskar gapet men inte fullständigt. Förvänta att 2026–2027-baslinjen är lägre AUC på frontlinjemodeller och ungefär konstant på äldre modeller.
AUC-siffror per modell härrör från vår interna validering och kanske inte generaliseras. Varje modells svårighet förändras över tid i takt med att både generatorn och vårt träningscorpus utvecklas. Nuvarande data återspeglar 2026-04-benchmarkkörningen.