Nije сав AI текст подједнако препознатљив. Ево резултата нашег бенчмарка по генератору — koje породице модела наш детектор хвата са скоро савршеном тачношћу, са kojima се бори, и šta nam to говори о избору радног тока детекције.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Поређано од лакших до тежих за откривање на нашем скупу за валидацију. Раширеност је широка — AUC на неким породицама модела прелази 0,99 dok drugi падају у 0,80-е. Тежина детекције корелира са величином модела, sofisticiranim инструктивним подешавањем и варијансом излаза.
За потпуно разлагање методологије по генератору, погледајте нашу страницу бенчмарка тачности. Овај чланак сумира практичне импликације тих података за кориснике koji бирају ком детектору da veruju и koji модел да употребе.
GPT-3.5 је најлакши модерни модел за откривање — AUC [AUC: ?] на нашем скупу. Наслеђени артефакти генерације (понављање, нерешеност, неузбудљив регистар) остају јасно присутни. GPT-4 пада на AUC [AUC: ?], GPT-4o на [AUC: ?], odražavajući progresivno bolju kalibracию. GPT-5.x је најтежи из породице — AUC [AUC: ?] — jer je tim za інструктивно подешавање explicitmно циљао уклањање артефаката детекције.
Практична импликација: академски радни токови koji бринe о преварама у GPT-3.5 ери могу да се ослоне на детекцију alone. Radni tokovi koji brinu о GPT-5 moraju da upare детекцију са контекстуалним доказима, kao što je opisano у нашем водичу радног тока за наставнике.
Температурне поставке су важне. Излази ниске температуре (t≤0,5) су лакши за откривање jер koncentrišu masу вероватноће на ужем вокабулару. Већина chat интерфејса подразумева t≈0,7, stavljajući tekst u umereno detektabilnu зону. Непријатељски корисници explicitmно повећавају температуру или користе разнолико декодирање da bi proširili opseg и izbegли детекцију — наш ансамбл делимично исправља ово али не потпуно.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Породица Claude доследно производи мање понављајући, стилски разноврснији текст него GPT модели исте генерације, što ga čini težim za otkrivanje статистичким методама.
Конституционалне-AI obuka компаније Claude specificno циља “машинске одаје” koje наш надзорни класификатор учи — обрасце усклађивања, прекомерну употребу специфичних конектива, предвидљиву структуру пасуса. Ово је директан непријатељски однос: генератор је обучен против карактеристика на koje се детектор ослања.
Claude 4.5 Sonnet и GPT-5.x блиски су по тежини. Њихове дистрибуције резултата највише се преклапају са људском полазном тачком у нашим подацима валидације. Ако ваш радни ток циља ове моделе, очекујте смањену поузданост откривања на подразумеваном прагу и размотрите спуштање на F1-оптималан за скрининг са вишом осетљивошћу.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini je pokazao najvarijabilniju performansu detektabilnosti kroz verzije — неки привремени releases regresirali su privremeno pre nego što su se poboljšanja sletela.
Мулти-модална obuka компаније Gemini znači da text-only излази понекад носе рудиментарне обрасце из домена image-caption или code-explanation. Наш детектор их примећује, što objašnjava nešto višу detektabilnost Gemini-ja на промешаним доменима upita него на чистој прози.
За кориснике Google Workspace čiji studenti ili zaposleni koriste Gemini кроз Docs, сигнал детекције је сличан необрађеном API излазу. Нисмо приметили workspace-интеграционо-специфичне обрасце избегавања koji se razlikuju od директног Gemini API употребе.
Налепите излаз iz bilo kog LLM-а и погледајте пресуд по реченици. Наш детектор третира свих 22 породице модела kao jedinstven ансамбл pregled.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Модели са отвореним тежинама покривају шири опсег него затворени — варијанти sa finim podešavanjem, квантизоване примене и заједничко-измењени checkpoints сви производе суптилно различите излазе.
Детекција на отвореним тежинама је стратешки важна јер алати за хуманизацију su obično napravljeni na modelima с otvorenim тежинама — Llama и Mistral деривати rade lokalno по ниским ценама, что je zašto parafraziranje i usluge prenosa stila imaju niske cene. Ако је ваша брига хуманизовани AI, на крају крајева бранитесе од Llama-породичне генерације.
DeepSeek R1 и o3-mini (OpenAI reasoning model) заслужују посебну напомену. Оба производе текст са артефактима ланца разлогавања — explicitmna step-by-step логика видљива у излазу — koje је наш детектор научио да препозна. Reasoning modeli su trenutno lakši za otkrivanje nego їхни основни chat counterparts из тог разлога.
Ако бирате модел za писање и детекција вас не брине, Claude 4.5 Sonnet и GPT-5 su najteže za otkrivanje. Ако градите радни ток детекције, priorizujte za моделе koje zapravo viđate: већина академске злоупотребе и даље ради на GPT-4/5 кроз бесплатне интерфејсе; већина content-farminga ради на Llama-деривативним хуманизаторима.
Jedinstven детектор обучен на jednoj породици модела najgore ради на ostalима. Наш ансамбл приступ обучава се на узорцима свих 22 генератора, šta je zašto AUC po modelu na teškim случајевима (Claude 4.5, GPT-5) и dalje је iznad 0,90 dok bi svaki detektor obučen na jednom modelu pao испод 0,80.
Основни тренд: težina detekcije raste brže nego cadence novih izdanja generatora. Svaki novi flagship je teži za otkrivanje nego prethodni, поновно obučavanje смањuje јаз ali не у потпуности. Очекујте да ће полазна тачка 2026–2027 biti niži AUC на граничним моделима и otprilike konstantan на наслеђеним моделима.
AUC бројке по моделу проистичу из наше интерне валидације и можда се не генерализују. Težina svakog modela menja se tokom vremena koji se razvijaju и генератор и наш корпус за обучавање. Тренутни подаци одражавају бенчмарк run 2026-04.