Hjem › Hvilken AI er vanskeligst å oppdage? GPT vs Claude vs Gemini | Plagiatdetektor

Hvilken AI er vanskeligst å oppdage? GPT vs Claude vs Gemini vs Llama

Ikke all AI-tekst er like detekterbar. Her er resultatene fra benchmark per generator – hvilke modellfamilier detektoren vår fanger med nær-perfekt nøyaktighet, hvilke den sliter med, og hva det forteller deg om valg av en deteksjonsarbeidsflyt.

2026-04-17 · Plagiarism Detector Team

Det korte svaret — Ledertavle

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Sortert fra lettest til vanskeligst å oppdage i valideringssettet vårt. Spredningen er bred – AUC på noen modellfamilier overstiger 0,99 mens andre faller inn i 0,80-ene. Deteksjonsvanskelighet korrelerer med modellstørrelse, instruksjonstuningens sofistikering og utdatavarians.

For den fullstendige forklaringsmetodikken per generator, se vår nøyaktighetsbenchmarkside. Denne artikkelen oppsummerer de praktiske implikasjonene av disse dataene for brukere som velger hvilken detektor de skal stole på og hvilken modell de skal bruke.

OpenAI-familien — GPT

GPT-3.5 er den enkleste moderne modellen å oppdage – AUC [AUC: ?] på settet vårt. Eldre generasjonsartefakter (repetisjon, forsiktighet, kjedelig register) er fortsatt tydelig tilstede. GPT-4 faller til AUC [AUC: ?], GPT-4o til [AUC: ?], som gjenspeiler progressivt bedre kalibrering. GPT-5.x er den vanskeligste av familien – AUC [AUC: ?] – fordi instruksjonstuningsteamet eksplisitt målrettet fjerning av deteksjonsartefakter.

Praktisk implikasjon: akademiske arbeidsflyter som er bekymret for GPT-3.5-era juks kan i stor grad stole på deteksjon alene. Arbeidsflyter som er bekymret for GPT-5 må kombinere deteksjon med kontekstuelt bevis, som beskrevet i vår lærerveiledning om arbeidsflyt.

Temperaturinnstillinger er viktige. Lav-temperatur-utdata (t≤0,5) er enklere å oppdage fordi de konsentrerer sannsynlighetsmasse på et smalere vokabular. De fleste chattegrensesnitt er standard til t≈0,7, noe som plasserer tekst i en moderat detekterbar sone. Motstridende brukere skrur eksplisitt opp temperaturen eller bruker mangfoldig dekoding for å utvide utvalget og unngå deteksjon – ensemblet vårt korrigerer delvis for dette, men ikke fullstendig.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude-familien produserer konsekvent mindre repetitiv, mer stilistisk variert tekst enn GPT-modeller av samme generasjon, noe som gjør den vanskeligere å oppdage via statistiske metoder.

Claudes konstitusjonelle AI-trening retter seg spesifikt mot “maskinmerkene” som den overvåkede klassifikatoren vår lærer fra – forsiktighetsmønstre, overbruk av spesifikke konnektiver, forutsigbar avsnittsstruktur. Dette er et direkte motstridende forhold: generatoren trenes mot funksjoner detektoren er avhengig av.

Claude 4.5 Sonnet og GPT-5.x er nære i vanskelighetsgrad. Scorefordelingene deres overlapper menneskelig referanse mest i valideringsdataene våre. Hvis arbeidsflyten din retter seg mot en av disse modellene, forvent redusert recall ved standardterskelen og vurder å senke til F1-optimal for høy-sensitivitets-screening.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini har vist den mest variable deteksjonsytelsen på tvers av versjoner – noen mellomutgivelser regresserte midlertidig før forbedringer landet.

Geminis multi-modale trening betyr at tekst-eneste-utdata noen ganger bærer vestigiale mønstre fra bilde-tekstdomenet eller kodeforklaringsdomenet. Detektoren vår plukker opp på disse, noe som forklarer Geminis litt høyere detekterbarhet på blandede domene-prompter enn på ren prosa.

For Google Workspace-brukere hvis studenter eller ansatte bruker Gemini gjennom Docs, er deteksjonssignalet likt rå API-utdata. Vi har ikke observert workspace-integrasjonsspesifikke unnvikelsesmønstre som skiller seg fra direkte Gemini API-bruk.

Sjekk en prøve fra hvilken som helst modell

Lim inn utdata fra en hvilken som helst LLM og se dommen per setning. Detektoren vår behandler alle 22 modellfamilier som én enkelt ensemble-sjekk.

Meta og åpenvektsmodeller

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Åpenvektsmodeller spenner over et bredere utvalg enn lukkede – finjusteringsvarianter, kvantiserte distribusjoner og fellesskapsmodifiserte sjekkpunkter produserer alle subtilt forskjellige utdata.

Deteksjon på åpenvekter er strategisk viktig fordi humaniseringsverktøy vanligvis er bygget på åpenvektsmodeller – Llama- og Mistral-derivater kjøres lokalt til lav kostnad, noe som er grunnen til at omskrivings- og stiloverføringstjenester priser dem ut. Hvis bekymringen din er humanisert AI, forsvarer du deg i bunn og grunn mot Llama-familiegenerasjon.

DeepSeek R1 og o3-mini (OpenAI resonnementmodell) fortjener separat omtale. Begge produserer tekst med resonnementskjedeartefakter – eksplisitt trinn-for-trinn-logikk synlig i utdataene – som detektoren vår har lært å gjenkjenne. Resonnementmodeller er for øyeblikket enklere å oppdage enn sine grunnleggende chat-motparter av denne grunn.

Hva disse forskjellene betyr for deg

Hvis du velger en modell å skrive med og deteksjon ikke er bekymringen din, er Claude 4.5 Sonnet og GPT-5 de vanskeligst å oppdage. Hvis du bygger en deteksjonsarbeidsflyt, prioriter for modellene du faktisk ser: de fleste akademiske misbruk kjøres fortsatt på GPT-4/5 gjennom gratis grensesnitt; det meste av innholdsfarming kjøres på Llama-derivat-humaniserere.

En enkelt detektor trent på én enkelt modellfamilie vil prestere dårligst på de andre. Ensemble-tilnærmingen vår trener på prøver fra alle 22 generatorer, noe som er grunnen til at AUC per modell på vanskelige tilfeller (Claude 4.5, GPT-5) fortsatt er over 0,90 mens enhver enkelt-modell-trent detektor ville falt under 0,80.

Den underliggende trenden: deteksjonsvanskelighet stiger raskere enn generatorutgivelseskadensen. Hvert nytt flaggskip er vanskeligere å oppdage enn det forrige, omtrening lukker gapet men ikke fullt ut. Forvent at 2026–2027-referansen er lavere AUC på frontmodeller og omtrent konstant på eldre modeller.

Ofte stilte spørsmål

Hvis noen modeller er vanskeligere å oppdage, bør jeg unngå å bruke detektorer i det hele tatt?

Nei – selv på de vanskeligste modellfamiliene er AUC vår over 0,85, noe som er et sterkt signal. Spørsmålet er hvordan du bruker signalet. For vanskelig-å-oppdage-modeller, kombiner scoren med bekreftende bevis (redigeringshistorikk, in-class-arbeid, studentsamtale). For lettere modeller er scoren alene ofte tilstrekkelig.

Hvilken modell bør jeg bruke hvis jeg vil unngå deteksjon?

Vi svarer ikke på dette spørsmålet direkte – vi driver et deteksjonsverktøy, ikke en unnvikelsesguide. Det vi vil si: detekterbar-kontra-udetekterbar er ikke riktig akse for å velge en modell. Kvalitet, kostnad og egnethet for formålet betyr langt mer enn deteksjonsvanskelighet. Hvis du skriver legitimt med AI-assistanse, betyr avsløring og transparent arbeidsflyt mer enn å skjule verktøyet.

Har åpenvektsmodellvarianter forskjellige deteksjonsprofiler?

Ja, og meningsfullt så. En fellesskaps-finjustert Llama 3.3-variant trent for en spesifikk skrivestil kan produsere tekst som scorer annerledes enn vanlig Llama 3.3. Benchmarken vår dekker standardsjekkpunktet; egendefinerte finjusteringer kan være enklere (hvis de innsnevrer utdatafordelinger) eller vanskeligere (hvis de eksplisitt motstridende-trener mot deteksjon).

Hvordan påvirker temperatur og sampling detekterbarhet?

Høyere temperatur og mer mangfoldig sampling reduserer generelt detekterbarhet fordi de utvider utdatafordelingen. Lav-temperatur grådig dekoding er lettest å oppdage. De fleste produksjonschattegrensesnitt kjøres t≈0,7–1,0 med nucleus-sampling, noe som plasserer dem i et moderat detekterbart regime – ensemblet vårt presterer likt på tvers av standardutvalget.

Når vil GPT-6 eller Claude 5 ankomme og hva bør jeg forvente?

Midten av 2026 er konsensusprognosene for begge. Forvent at deteksjons-AUC på de nye familiene faller til 0,80–0,85-området for de første 4–8 ukene etter lansering mens vi samler prøver og trener om. Historiske versjoner antyder full gjenoppretting innen 8–12 uker hvis modellen er bredt tilgjengelig; lengre for sjeldne eller begrenset-tilgang-modeller.

AUC-tall per modell er avledet fra den interne valideringen vår og generaliserer kanskje ikke. Vanskelighetsnivået for hver modell endres over tid ettersom både generatoren og treningskorpuset vårt utvikler seg. Gjeldende data gjenspeiler benchmark-kjøringen 2026-04.