Детекција и генерација су у надметању попут мачке и миша. Свако ново издање модела смањује статистички јаз на koji се детектори ослањају — а свако побољшање детекције одговара новим алатом за хуманизацију. Ево шта се заправо дешава испод хаубе.
Сваки детектор AI текста је у суштини статистички дискриминатор — он гледа на карактеристике текста (вероватноће токена, перплексност, пулсирање, синтаксичку правилност) и покушава да пронађе сигнале koji разликују машински генерисано од садржаја написаног од стране човека. Метода Binoculars (ICML 2024) користи однос унакрсне перплексности између два језичка модела као свој сигнал. Надзорни приступ ModernBERT директно учи сигнал из означених примера.
Оба приступа деле основну рањивост: сигнали на koje се ослањају су нус-производи начина на koji модели генеришу текст, а не фундаменталне карактеристике машински написаног. Са побољшањем генератора, ти нус-производи се смањују. Модел обучен да пише више попут човека биће — по дефиницији — теже за откривање.
Ово није научни неуспех. То је структурна чињеница о проблему. Детекција ради на промењивом циљу: свако важно издање LLM-а сужава јаз, сваки алат за хуманизацију се експлицитно обучава против излаза детектора. Питање није ‘можемо ли постићи 100% детекцију заувек’ — не може се — већ ‘можемо ли остати испред тренутне генерације довољно дуго да будемо корисни у пракси.’
Три тренда генерације отежавају детекцију. Величина: већи модели производе статистички разноврснији текст јер имају бogatije interne дистрибуције. Модел са 70 милијарди параметара има шири опсег излаза сличних људском него онај са 7 милијарди параметара. Инструктивно подешавање: RLHF и конституционалне методе уче моделе да избегавају понављајуће, нерешене, незанимљиве обрасце koji су учинили GPT-3 лаким за препознавање. Температура и узорковање: chat интерфејси су прешли на nucleus узорковање и насумичност, koji разбијају неке ниско-варијантне обрасце koje су класични детектори користили као сидра.
GPT-5, Claude 4.5 и Gemini 2.5 су сви приметно тежи за откривање од својих претходника. Наша интерна валидација то потврђује: свака генерација модела снижава наш AUC на тој породици за 5–10 процентних поена у поређењу са претходном генерацијом. Погледајте наш бенчмарк тачности за бројке по моделу.
Алати за хуманизацију — Undetectable AI, StealthWriter, Humanbeing и све дужа листа — су експлицитни противници. Они узимају AI излаз и перефразирају, преписују или врше пренос стила специфично да би надиграли детекторе. Обучавају се против јавних детектора (укључујући наш, иако никада не делимо тежине модела) и постају мерљиво бољи са сваким ажурирањем.
Детектори имају три одговора на трку у наоружању генерације. Ансамблирање: комбиновање вишеструких сигнала детекције тако да ниједна тактика избегавања није довољна сама по себи. Наш ансамбл нула-пуцање Binoculars-а са надзорним ModernBERT-ом ово користи: хуманизатор koji поразит jednu komponentu често не успева против друге, а ансамбл резултат обухвата обе.
Непрекидно поновно обучавање: додајемо узорке из сваког важног новог издања генератора у року од 4 недеље од покретања. Ако GPT-6 буде објављен сутра, наш корпус за обучавање ће га укључити до средине следећег месеца. Ово је скупо — рачунање, анотација, поновна валидација — али је једини начин да детекција остане актуелна. Детектори koji се поново обучавају годишње или ређе су ефективно музејски комади у року од годину дана.
Непријатељско обучавање: намерно обучавамо на хуманизованим AI узорцима и перефразираним излазима, учећи модел да прогледа кроз преносе стила на нивоу површине. Ово подиже под онога что хуманизатор мора да учини да би нас избегао, što zauzvrat usporava trku u naoružanju.
Како алати за хуманизацију заправо раде? Три широке категорије. Перефразирање: преписивање текста реч по реч или реченица по реченица помоћу секундарног LLM-а. Ефективно против наивних детектора koji се ослањају на тачне секвенце токена; умерено ефективно против статистичких метода. Пренос стила: трансформисање текста да опонаша одређеног аутора или регистар. Ефективније — AUC нашег детектора пада за ~8 поена на AI тексту са преносом стила.
Хибридно уређивање човек-AI: аутор пише нацрт, пролази кроз LLM ради поливања, а затим ручно уређује поливену верзију. Ово је најтежи случај — легитимно сарадничко дело koje меша сигнале човека и машине на нивоу реченице. Ниједан детектор, укључујући наш, не може поуздано решити ово без метаподатака историје уређивања koje детектор не може да виде.
Корисни ментални модел: хуманизатор није рушилац детектора, то је мултипликатор цене за избегивача. Потребно је време, понекад новац и увек додаје ризик увођења грешака. Већина покушаја академске преваре не користи хуманизаторе јер трење надмашује корист. Тамо где хуманизатори доминирају јесте професионална фарма садржаја и AI-генерисани SEO нежељени садржај — случајеви употребе где је проток важан и контрола квалитета слаба.
Налепите било koji документ и посматрајте пресуд по реченици у реалном времену. Логика ансамбла описана горе ради на вашем тексту за мање од 30 секунди.
Детектор са једним сигналом има јединствени начин грешке. Ако се ослањате само на перплексност, перефразирани излаз са измењеним вероватноћама токена вас поражава. Ако се ослањате само на надзорни класификатор, текст ван дистрибуције (нова породица модела, нова домена писања) вас поражава. Ансамбл у просеку смањује слабости: перефраза koja поражава перплексност вероватно и даље активира надзорну главу, и обрнуто.
Наш производни детектор је експлицитно ансамблован: 35% Binoculars (нула-пуцање, агностичан према моделу, робустан на текст ван дистрибуције) + 65% ModernBERT (надзорни, специфичан за домену, висока прецизност на тексту у дистрибуцији). Тежине су одабране емпиријски — AUC ансамбла је максимизован када је ModernBERT доминирао али је Binoculars задржао право вета на ивичним случајевима.
Последица: алат за хуманизацију сада мора да победи две суштински различите архитектуре детекције истовремено да би избегао наш пресуд. Јавни хуманизатори су обично обучени против јединственог циљног детектора, što znači da često uspevaju против тог специфичног детектора али не успевају против ансамбла. Ово је примарна структурна предност детекције у тренутној трки у наоружању.
Шта можемо очекивати кроз 2026–2027? GPT-6 и Claude 5 су вероватно издања средином године; оба ће даље сузити јаз. Модели са отвореним тежинама — Llama 4, Qwen 4 — ће наставити да демократизују висококвалитетну генерацију и чине хуманизаторе јефтинијим за покретање у великом обиму. AUC детекције на граничним моделима ће вероватно пасти у опсег 0,80–0,90 прву годину после издања пре него što поновно обучавање то исправи.
На страни одбране: мулти-модални сигнали (динамика куцања, историја уређивања, верификација ауторства у поређењу са познатим корпусом) ће вероватно постати важнији него чиста детекција заснована на тексту у року од 24 месеца. Наш детектор само текста ће остати први филтер али ће све чешће бити гласач у богатијем стогу доказа.
Поштено резиме: чиста детекција заснована на тексту никада неће достићи 100%. Стабилизоваће се негде около 90–95% AUC на тексту у дистрибуцији и 75–85% на граничним моделима. Ако ваш радни ток захтева сигурност, потребни су вам докази изван резултата. Ако ваш радни ток захтева снажан сигнал за приоритизовање људске прегледе, детекција заснована на тексту остаје корисна и мерљиво боља него не радити ништа.
Овај чланак описује структурна својства детекције AI текста. Специфичне бројке односе се на нашу интерну валидацију и можда се не генерализују. Ажурирамо ову страницу јер нова истраживања и издања генератора то налажу.