Kaikki tekoälyteksti ei ole yhtä havaittavissa. Tässä ovat mallikohtaisen vertailutestimme tulokset — mitkä malliperheet tunnistimemme havaitsee lähes täydellisellä tarkkuudella, minkä kanssa se kamppailee ja mitä tämä kertoo tunnistustyönkulun valinnasta.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Järjestetty helpoimmasta vaikeimpaan havaita validointijoukossamme. Hajonta on laaja — AUC joillakin malliperheillä ylittää 0,99, kun taas toisilla se laskee 0,80-lukuihin. Tunnistusvaikeus korreloi mallin koon, ohjeistusvirityksen kehittyneisyyden ja tuotosten varianssin kanssa.
Koko mallikohtaisen erittelymenetelmän osalta katso tarkkuusvertailusivu. Tämä artikkeli tiivistää kyseisen datan käytännön vaikutukset käyttäjille, jotka valitsevat, mihin tunnistimeen luottaa ja mitä mallia käyttää.
GPT-3.5 on helpoin moderni malli havaita — AUC [AUC: ?] joukossamme. Vanhat sukupolven artefaktit (toisto, epäröinti, tylsä rekisteri) ovat selvästi näkyvissä. GPT-4 laskee AUC:hen [AUC: ?], GPT-4o:ssa [AUC: ?], mikä heijastaa asteittain parempaa kalibrointia. GPT-5.x on perheen vaikein — AUC [AUC: ?] — koska ohjeistusviriitystiimi kohdisti nimenomaisesti tunnistusartefaktien poistamisen.
Käytännön vaikutus: akateemiset työnkulut, jotka koskevat GPT-3.5-aikakauden huijaamista, voivat luottaa voimakkaasti pelkkään tunnistukseen. GPT-5:tä koskevat työnkulut tarvitsevat tunnistuksen pariksi kontekstuaaliset todisteet, kuten opettajien työnkulkuoppaassamme kuvataan.
Lämpötila-asetuksilla on merkitystä. Matalat lämpötilatuotokset (t≤0,5) ovat helpommin havaittavissa, koska ne keskittävät todennäköisyysmassan kapeammalle sanastolle. Useimmat chat-käyttöliittymät oletusarvoisesti t≈0,7, asettaen tekstin kohtuullisesti havaittavaan vyöhykkeeseen. Vastustajalliset käyttäjät nostattavat lämpötilaa tai käyttävät monipuolista dekoodausta laajentaakseen aluetta ja kiertääkseen tunnistuksen — ensemblemme korjaa tätä osittain, muttei täysin.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude-perhe tuottaa johdonmukaisesti vähemmän toistavaa, tyylillisesti vaihtelevampaa tekstiä kuin saman sukupolven GPT-mallit, mikä tekee siitä vaikeamman havaita tilastollisin menetelmin.
Clauden perustuslaillinen tekoälykoulutus kohdistuu nimenomaisesti "konemerkkeihin", joita valvottu luokittelijamme oppii — epäröintikuviot, tiettyjen yhdyspartikkelien liiallinen käyttö, ennustettava kappaleen rakenne. Tämä on suora vastustuksellinen suhde: generaattori koulutetaan tunnistimen käyttämiä piirteitä vastaan.
Claude 4.5 Sonnet ja GPT-5.x ovat lähellä toisiaan vaikeudessa. Niiden pisteytysjaukaumat päällekkäistyvät validointidatassamme eniten ihmislähtöaineiston kanssa. Jos työnkulkusi kohdistuu kumpaan tahansa näistä malleista, odota vähentynyttä herkkyyttä oletuskynnyksellä ja harkitse laskemista F1-optimaaliseen korkean herkkyyden seulontaa varten.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini on osoittanut vaihtelevinta tunnistussuorituskykyä versioiden välillä — jotkut välijulkaisut taantuivat väliaikaisesti ennen parannuksia.
Geminin monimoodaalinen koulutus tarkoittaa, että vain tekstiä sisältävissä tuotoksissa on toisinaan jäänneistä kaavoja kuvankuvaus- tai koodinselitysalueista. Tunnistimemme havaitsee nämä, mikä selittää Geminin hieman korkeamman havaittavuuden monialaisten kehotusten osalta verrattuna puhtaaseen proosaan.
Google Workspace -käyttäjille, joiden opiskelijat tai työntekijät käyttävät Geminiyä Docsin kautta, tunnistussignaali on samanlainen kuin raaka API-tuotos. Emme ole havainneet työtila-integraatiokohtaisia kiertokuvioita, jotka eroaisivat suorasta Gemini API -käytöstä.
Liitä tuotos mistä tahansa LLM:stä ja katso lausekohtainen tuomio. Tunnistimemme käsittelee kaikki 22 malliperheettä yhtenä ensembletarkistuksena.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Avoimen painon mallit kattavat laajemman alueen kuin suljetut — hienosäätövariantit, kvantisoitut käyttöönottot ja yhteisön muuttamat tarkistuspisteet tuottavat kaikki hieman erilaisia tuotoksia.
Avoimen painon tunnistus on strategisesti tärkeää, koska inhimillistäjätyökalut perustuvat yleensä avoimen painon malleihin — Llama- ja Mistral-johdannaiset toimivat paikallisesti alhaisin kustannuksin, minkä vuoksi uudelleenmuotoilu- ja tyylisiirtopalvelut hinnoittelevat ne ulos. Jos huolesi on inhimillistetty tekoäly, puolustat viime kädessä Llama-perheen generointia vastaan.
DeepSeek R1 ja o3-mini (OpenAI:n päättelymalli) ansaitsevat erillisen maininnan. Molemmat tuottavat tekstiä päättelyketjun artefakteilla — eksplisiittinen askelittainen logiikka näkyvissä tuotoksessa — minkä tunnistimemme on oppinut tunnistamaan. Päättelymallit ovat tällä hetkellä helpommin havaittavissa kuin niiden peruskeskusteluversiot tästä syystä.
Jos valitset mallin kirjoittamiseen eikä tunnistus ole huolesi, Claude 4.5 Sonnet ja GPT-5 ovat vaikeimmat havaita. Jos rakennat tunnistustyönkulkua, priorisoi mallit, joita tosiasiassa näet: suurin osa akateemisesta väärinkäytöstä tapahtuu edelleen GPT-4/5:lla ilmaisten käyttöliittymien kautta; suurin osa sisällöntuotannosta tapahtuu Llama-johdannaisten inhimillistäjien kautta.
Yksittäinen tunnistin, joka on koulutettu yhdellä malliperhellä, suoriutuu heikoiten muilla. Ensembloidun lähestymistapamme kouluttaa näytteitä kaikilta 22 generaattorilta, minkä vuoksi mallikohtainen AUC vaikeissa tapauksissa (Claude 4.5, GPT-5) on edelleen yli 0,90, kun taas yksittäisellä mallilla koulutettu tunnistin putoaisi alle 0,80:n.
Pohjana oleva trendi: tunnistusvaikeus kasvaa nopeammin kuin generaattorien julkaisutahti. Jokainen uusi lippulaiva on vaikeammin havaittavissa kuin edellinen, uudelleenkoulutus sulkee aukon, muttei täysin. Odota 2026–2027 perustason olevan alhaisempi AUC rajamalleja vastaan ja suunnilleen vakio perinteisillä malleilla.
Mallikohtaiset AUC-luvut on johdettu sisäisestä validointijoukostamme eivätkä ne välttämättä yleisty. Jokaisen mallin vaikeus muuttuu ajan myötä, kun sekä generaattori että koulutusaineistomme kehittyvät. Nykyiset tiedot heijastavat 2026-04 vertailutestiajoa.