Кућа › Koji AI је најтеже открити? GPT vs Claude vs Gemini | Детектор плагијаризма

Koji AI је најтеже открити? GPT vs Claude vs Gemini vs Llama

Nije сав AI текст подједнако препознатљив. Ево резултата нашег бенчмарка по генератору — koje породице модела наш детектор хвата са скоро савршеном тачношћу, са kojima се бори, и šta nam to говори о избору радног тока детекције.

2026-04-17 · Plagiarism Detector Team

Кратак одговор — Листа поређења

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Поређано од лакших до тежих за откривање на нашем скупу за валидацију. Раширеност је широка — AUC на неким породицама модела прелази 0,99 dok drugi падају у 0,80-е. Тежина детекције корелира са величином модела, sofisticiranim инструктивним подешавањем и варијансом излаза.

За потпуно разлагање методологије по генератору, погледајте нашу страницу бенчмарка тачности. Овај чланак сумира практичне импликације тих података за кориснике koji бирају ком детектору da veruju и koji модел да употребе.

Породица OpenAI — GPT

GPT-3.5 је најлакши модерни модел за откривање — AUC [AUC: ?] на нашем скупу. Наслеђени артефакти генерације (понављање, нерешеност, неузбудљив регистар) остају јасно присутни. GPT-4 пада на AUC [AUC: ?], GPT-4o на [AUC: ?], odražavajući progresivno bolju kalibracию. GPT-5.x је најтежи из породице — AUC [AUC: ?] — jer je tim za інструктивно подешавање explicitmно циљао уклањање артефаката детекције.

Практична импликација: академски радни токови koji бринe о преварама у GPT-3.5 ери могу да се ослоне на детекцију alone. Radni tokovi koji brinu о GPT-5 moraju da upare детекцију са контекстуалним доказима, kao što je opisano у нашем водичу радног тока за наставнике.

Температурне поставке су важне. Излази ниске температуре (t≤0,5) су лакши за откривање jер koncentrišu masу вероватноће на ужем вокабулару. Већина chat интерфејса подразумева t≈0,7, stavljajući tekst u umereno detektabilnu зону. Непријатељски корисници explicitmно повећавају температуру или користе разнолико декодирање da bi proširili opseg и izbegли детекцију — наш ансамбл делимично исправља ово али не потпуно.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Породица Claude доследно производи мање понављајући, стилски разноврснији текст него GPT модели исте генерације, što ga čini težim za otkrivanje статистичким методама.

Конституционалне-AI obuka компаније Claude specificno циља “машинске одаје” koje наш надзорни класификатор учи — обрасце усклађивања, прекомерну употребу специфичних конектива, предвидљиву структуру пасуса. Ово је директан непријатељски однос: генератор је обучен против карактеристика на koje се детектор ослања.

Claude 4.5 Sonnet и GPT-5.x блиски су по тежини. Њихове дистрибуције резултата највише се преклапају са људском полазном тачком у нашим подацима валидације. Ако ваш радни ток циља ове моделе, очекујте смањену поузданост откривања на подразумеваном прагу и размотрите спуштање на F1-оптималан за скрининг са вишом осетљивошћу.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini je pokazao najvarijabilniju performansu detektabilnosti kroz verzije — неки привремени releases regresirali su privremeno pre nego što su se poboljšanja sletela.

Мулти-модална obuka компаније Gemini znači da text-only излази понекад носе рудиментарне обрасце из домена image-caption или code-explanation. Наш детектор их примећује, što objašnjava nešto višу detektabilnost Gemini-ja на промешаним доменима upita него на чистој прози.

За кориснике Google Workspace čiji studenti ili zaposleni koriste Gemini кроз Docs, сигнал детекције је сличан необрађеном API излазу. Нисмо приметили workspace-интеграционо-специфичне обрасце избегавања koji se razlikuju od директног Gemini API употребе.

Проверите узорак из ilo kog модела

Налепите излаз iz bilo kog LLM-а и погледајте пресуд по реченици. Наш детектор третира свих 22 породице модела kao jedinstven ансамбл pregled.

Meta и модели са отвореним тежинама

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Модели са отвореним тежинама покривају шири опсег него затворени — варијанти sa finim podešavanjem, квантизоване примене и заједничко-измењени checkpoints сви производе суптилно различите излазе.

Детекција на отвореним тежинама је стратешки важна јер алати за хуманизацију su obično napravljeni na modelima с otvorenim тежинама — Llama и Mistral деривати rade lokalno по ниским ценама, что je zašto parafraziranje i usluge prenosa stila imaju niske cene. Ако је ваша брига хуманизовани AI, на крају крајева бранитесе од Llama-породичне генерације.

DeepSeek R1 и o3-mini (OpenAI reasoning model) заслужују посебну напомену. Оба производе текст са артефактима ланца разлогавања — explicitmna step-by-step логика видљива у излазу — koje је наш детектор научио да препозна. Reasoning modeli su trenutno lakši za otkrivanje nego їхни основни chat counterparts из тог разлога.

Шта ове разлике значе за вас

Ако бирате модел za писање и детекција вас не брине, Claude 4.5 Sonnet и GPT-5 su najteže za otkrivanje. Ако градите радни ток детекције, priorizujte za моделе koje zapravo viđate: већина академске злоупотребе и даље ради на GPT-4/5 кроз бесплатне интерфејсе; већина content-farminga ради на Llama-деривативним хуманизаторима.

Jedinstven детектор обучен на jednoj породици модела najgore ради на ostalима. Наш ансамбл приступ обучава се на узорцима свих 22 генератора, šta je zašto AUC po modelu na teškim случајевима (Claude 4.5, GPT-5) и dalje је iznad 0,90 dok bi svaki detektor obučen na jednom modelu pao испод 0,80.

Основни тренд: težina detekcije raste brže nego cadence novih izdanja generatora. Svaki novi flagship je teži za otkrivanje nego prethodni, поновно obučavanje смањuje јаз ali не у потпуности. Очекујте да ће полазна тачка 2026–2027 biti niži AUC на граничним моделима и otprilike konstantan на наслеђеним моделима.

Често постављана питања

Ако су неки модели тежи za откривање, да ли бих требало да избегавам коришћење детектора уопште?

Не — чак и на најtežim породицама модела наш AUC је изнад 0,85, što je snažan signal. Pitanje je kako koristite signal. За теже за откривање моделе, упарите резултат са потврђујућим доказима (историја uređivanja, рад у учионици, разговор са студентом). За лакше моделе, резултат сам по sebi je often dovoljno.

Koji модел треба да користим ако желим да избегнем откривање?

Ово питање ne odgovaramo директно — водимо алат за детекцију, а не водич за избегавање. Оно što ćemo reći: detektujuće-vs-nedetektujuće nije прав axis za избор модела. Квалитет, цена и прикладност za намену су много важнији него тежина детекције. Ако легитимно пишете уз AI помоћ, откривање и транспарентни радни ток су важнији него скривање алата.

Да ли варијанти модела са отвореним тежинама имају различите профиле детекције?

Да, и то на значајан начин. Заједнички-финоподешен Llama 3.3 варијант обучен за специфичан стил писања може да производи текст koji добија различит резултат од vanilla Llama 3.3. Наш бенчмарк покрива стандардни checkpoint; custum fine-tunes могу бити лакши (ако суже дистрибуције излаза) или тежи (ако explicitmно непријатељски тренирају против детекције).

Kako температура и узорковање утичу на детектабилност?

Виша температура и разноврсније узорковање generalno smanjuju detektabilnost jер proširuju дистрибуцију излаза. Greedy dekodiranje ниске температуре је najlakše za otkrivanje. Већина производних chat интерфејса ради t≈0,7–1,0 са nucleus узорковањем, što ih stavlja u umereno detektabilan режим — наш ансамбл сличне перформансе на подразумеваном опсегу.

Када ће GPT-6 или Claude 5 стићи и šta podem da očekujem?

Средина 2026. је консензуалнa прогноза za обе. Очекујте да AUC детекције на новим породицама пада у опсег 0,80–0,85 у прва 4–8 недеља после покретања dok нe прикупимо узорке и поново обучимо. Историјске верзије сугеришу потпун опоравак у roku od 8–12 недеља ако je модел широко доступан; duže za rare или моделе са ограниченим приступом.

AUC бројке по моделу проистичу из наше интерне валидације и можда се не генерализују. Težina svakog modela menja se tokom vremena koji se razvijaju и генератор и наш корпус за обучавање. Тренутни подаци одражавају бенчмарк run 2026-04.