Bahay › Bakit Mahirap ang AI Text Detection: Ang Attack-Defense Arms Race | Plagiarism Detector

Bakit Mahirap ang AI Text Detection: Sa Loob ng Arms Race

Ang detection at generation ay nakakulong sa isang cat-and-mouse na laro. Ang bawat bagong release ng modelo ay isinasara ang statistical gap na inaasahan ng mga detector — at ang bawat pagpapabuti ng detection ay sinasagot ng isang bagong humaniser tool. Narito ang tunay na nangyayari sa ilalim ng hood.

2026-04-17 · Plagiarism Detector Team

Ang Statistical Basis ng Detection

Ang bawat AI text detector ay sa huli ay isang statistical discriminator — tinitingnan nito ang mga katangian ng teksto (token probability, perplexity, burstiness, syntactic regularity) at sinisikap na mahanap ang mga signal na nagtatangi sa machine-generated mula sa human-written na nilalaman. Ang paraan ng Binoculars (ICML 2024) ay gumagamit ng ratio ng cross-perplexity sa pagitan ng dalawang language model bilang signal nito. Ang ModernBERT supervised na pamamaraan ay natututo ng signal nang direkta mula sa mga may label na halimbawa.

Ang parehong pamamaraan ay may isang pundamental na kahinaan: ang mga signal na inaasahan nila ay mga side-effect ng paraan ng pagbuo ng teksto ng mga modelo, hindi pundamental na katangian ng machine-written-ness. Habang nagpapabuti ang mga generator, lumiit ang mga side-effect na iyon. Ang isang modelong sinanay upang sumulat nang mas katulad ng tao ay — sa kahulugan — magiging mas mahirap matukoy.

Hindi ito kabiguan ng pananaliksik. Ito ay isang istrukturang katotohanan tungkol sa problema. Ang detection ay gumagana sa isang moving target: ang bawat pangunahing LLM release ay nagpapaliit ng agwat, at ang bawat humaniser tool ay tahasan na nagsasanay laban sa mga output ng detector. Ang tanong ay hindi 'kaya ba nating makamit ang 100% detection magpakailanman' — hindi ito magagawa — kundi 'kaya ba nating maging mas mauna kaysa sa kasalukuyang henerasyon nang matagal upang maging kapaki-pakinabang sa praktika.'

Ano ang Ginagawa ng Espada — Nagpapabuti ang Generation

Tatlong trend ng generation ang nagpapahirap ng detection. Ang Laki: ang mas malalaking modelo ay gumagawa ng statistically mas diverse na teksto dahil mas mayaman ang kanilang internal na distribusyon. Ang isang 70-bilyong-parameter na modelo ay may mas malawak na hanay ng human-like na output kaysa sa isang 7-bilyong-parameter. Ang Instruction-tuning: ang RLHF at constitutional na mga pamamaraan ay nagtuturo sa mga modelo na iwasan ang mga paulit-ulit, nag-aatubili, at mababang pattern na nagpapahirap sa GPT-3 na matukoy. Ang Temperature at sampling: ang mga chat interface ay lumipat sa nucleus sampling at randomness, na sinisira ang ilang low-variance pattern na ginamit ng classical na mga detector bilang mga anchor.

Ang GPT-5, Claude 4.5, at Gemini 2.5 ay lahat ay kapansin-pansing mas mahirap matukoy kaysa sa kanilang mga nauna. Kumpirmasyon ng aming internal validation: ang bawat henerasyong modelo ay nagpapababa ng aming AUC sa pamilyang iyon ng 5–10 percentage point kumpara sa nakaraang henerasyong modelo. Tingnan ang aming accuracy benchmark para sa mga numero bawat modelo.

Ang mga humaniser tool — Undetectable AI, StealthWriter, Humanbeing, at isang lumalagong listahan — ang mga tahasang kalaban. Kinukuha nila ang AI output at i-paraphrase, isulat muli, o i-style-transfer ito nang partikular upang talunin ang mga detector. Sila ay sinanay laban sa mga pampublikong detector (kasama ang amin, bagaman hindi namin ibinabahagi ang aming mga timbang ng modelo) at sila ay nababago nang masusukat sa bawat update.

Ano ang Ginagawa ng Kalasag — Sumasagot ang Detection

Ang mga detector ay may tatlong sagot sa generation arms race. Ang Ensembling: pagsasama ng maraming detection signal upang ang anumang iisang evasion tactic ay hindi sapat. Ang aming ensemble ng zero-shot Binoculars na may supervised ModernBERT ay nagsasamantala nito: ang isang humaniser na talunin ang isang component ay madalas na mabibigo laban sa isa pa, at ang ensemble score ay kumukuha ng dalawa.

Ang Continuous retraining: nagdaragdag kami ng mga sample mula sa bawat pangunahing bagong generator release sa loob ng 4 na linggo mula sa paglulunsad. Kung bukas na maidrop ang GPT-6, isasama ng aming training corpus ito sa katanghalian ng susunod na buwan. Ito ay mahal — compute, annotation, re-validation — ngunit ito lamang ang paraan upang panatilihing kasalukuyan ang detection. Ang mga detector na nag-re-retrain nang taunan o mas bihira ay epektibong mga museum piece sa loob ng isang taon.

Ang Adversarial training: sinasaklaw namin nang sinadya ang mga humanised AI sample at paraphrased na output, tinuturuan ang modelo na makita ang kabila ng surface-level na style transfer. Itinatangkilik nito ang sahig ng kung ano ang dapat gawin ng isang humaniser upang maiwasan kami, na nagpapabagal naman ng arms race.

Sa Loob ng Evasion Landscape

Paano talaga gumagana ang mga humaniser tool? Tatlong malawak na kategorya. Ang Paraphrasing: isulat muli ang teksto salita-salita o pangungusap-pangungusap gamit ang isang pangalawang LLM. Epektibo laban sa mga naive na detector na umaasa sa exact na token sequence; katamtamang epektibo laban sa mga statistical na pamamaraan. Ang Style transfer: baguhin ang teksto upang tularan ang isang partikular na may-akda o register. Mas epektibo — ang AUC ng aming detector ay bumababa ng ~8 puntos sa style-transferred na AI text.

Ang Hybrid human-AI editing: ang may-akda ay sumulat ng draft, pinapatakbo ito sa pamamagitan ng isang LLM para sa pagpapahusay, pagkatapos ay manu-manong ine-edit ang pinagandang bersyon. Ito ang pinakamahirap na kaso — tunay na collaborative na trabaho na naghahaluin ang human at machine signal sa antas ng pangungusap. Walang detector, kasama ang aming, ang maaasahang malutas ang mga ito nang wala ang editing-history metadata na hindi makikita ng detector.

Isang kapaki-pakinabang na mental model: ang isang humaniser ay hindi isang detector-breaker, ito ay isang cost multiplier para sa evader. Nangangailangan ito ng oras, minsan pera, at palagi nang nagdaragdag ng panganib ng pagpapakilala ng mga error. Karamihan sa mga pagtatangkang mandaraya sa akademya ay hindi gumagamit ng mga humaniser dahil ang friction ay mas malaki kaysa sa benepisyo. Kung saan nangingibabaw ang mga humaniser ay ang propesyonal na content farming at AI-generated na SEO spam — mga kaso ng paggamit kung saan mahalaga ang throughput at mahina ang quality control.

Tingnan kung paano nag-score ang aming detector ngayon

I-paste ang anumang dokumento at panoorin ang per-sentence verdict sa real time. Ang ensemble logic na inilarawan sa itaas ay tumatakbo sa iyong teksto sa loob ng 30 segundo.

Bakit Mas Mahalaga ang Ensembling Kaysa sa Anumang Iisang Metric

Ang isang single-signal detector ay may isang failure mode. Kung umaasa ka lamang sa perplexity, ang isang paraphrased na output na may binagong token probability ay talunin ka. Kung umaasa ka lamang sa isang supervised classifier, ang out-of-distribution na teksto (isang bagong pamilya ng modelo, isang bagong writing domain) ay talunin ka. Ang ensemble ay ino-average ang mga kahinaan: ang paraphrase na talunin ang perplexity ay malamang na magpa-trigger pa rin ng supervised head, at kabaligtaran.

Ang aming production detector ay tahasan na na-ensemble: 35% Binoculars (zero-shot, model-agnostic, matatag sa out-of-distribution) + 65% ModernBERT (supervised, domain-specific, mataas na precision sa in-distribution na teksto). Ang mga timbang ay pinili nang empirical — na-maximize ang ensemble AUC nang dominante ang ModernBERT ngunit pinanatili ng Binoculars ang veto power sa mga edge case.

Ang resulta: ang isang humaniser tool ay kailangan na ngayong talunin ang dalawang substantially na magkaibang detection architecture nang sabay-sabay upang maiwasan ang aming hatol. Ang mga pampublikong humaniser ay karaniwang sinanay laban sa isang target detector, na nangangahulugang madalas silang magtagumpay laban sa partikular na detector na iyon ngunit mabibigo laban sa isang ensemble. Ito ang pangunahing istrukturang kalamangan ng detection sa kasalukuyang arms race.

Makatotohanang Inaasahan para sa Susunod na 12 Buwan

Ano ang dapat nating asahan sa 2026–2027? Ang GPT-6 at Claude 5 ay malamang na mga release sa kalagitnaan ng taon; pareho silang magpapaliit pa ng agwat. Ang mga open-weights na modelo — Llama 4, Qwen 4 — ay patuloy na magko-commoditize ng mataas na kalidad na generation at magpapamura ng mga humaniser na patakbuhin sa scale. Ang detection AUC sa mga frontier model ay malamang na mabababa sa 0.80–0.90 na banda para sa unang taon pagkatapos ng release bago itama ng retraining ito.

Sa gilid ng depensa: ang mga multi-modal signal (typing dynamics, edit history, authorship verification laban sa isang kilalang corpus) ay malamang na magiging mas mahalaga kaysa sa purong text-based detection sa loob ng 24 na buwan. Ang aming text-only detector ay mananatiling unang filter ngunit unti-unting magiging isang miyembro ng pagboto sa isang mas mayamang evidence stack.

Ang tapat na konklusyon: ang purong text-based detection ay hindi kailanman maaabot ang 100%. Ito ay mag-plaplate sa humigit-kumulang 90–95% AUC sa in-distribution na teksto at 75–85% sa mga frontier model. Kung ang iyong workflow ay nangangailangan ng katiyakan, kailangan mo ng katibayan higit pa sa score. Kung ang iyong workflow ay nangangailangan ng isang matibay na signal upang unahin ang pagsusuri ng tao, ang text-based detection ay nananatiling kapaki-pakinabang at nababago nang mas mabuti kaysa sa hindi paggawa ng anuman.

Mga Madalas Itanong

Kung hindi magiging perpekto ang AI detection, sulit pa rin bang gamitin?

Oo — ang tanong ay hindi 'perpekto ba ito' kundi 'mas mainam ba ito kaysa sa hindi pag-screen?.' Ang isang 90% AUC detector sa iyong workload ay isang napakalaking pagpapabuti ng signal-to-noise. Ang mga taong pinaka-malakas na nagrereklamo sa mga limitasyon ng detector ay madalas na ang mga nagsisikap na talunin ang mga ito; iyon ay hindi argumento para sa pag-alis ng tool.

Maaari bang palitan ng watermarking ang statistical detection?

Ang watermarking ay nag-embed ng isang nakatagong statistical na lagda sa generated na teksto na maaaring makuha ng isang detector mamaya. Gumagana ito kapag ang mga generator ay nagtutulong (inilunsad ito ng OpenAI nang pang-eksperimento) ngunit ganap na nabibigo sa mga open-weights na modelo, na gumagawa nang walang mga watermark. Ang statistical detection ay mananatiling kinakailangan para sa maiunaang kinabukasan dahil gumagana ito kahit na ang generator ay tumatanggi na makipagtulungan.

Ano ang pinaka-mahirap na bagay na matukoy ngayon?

Ang Hybrid human-AI editing — isang AI-drafted, human-polished na text fragment sa antas ng pangungusap. Walang kasalukuyang detector na maaasahang nalulutas ng mga ito nang wala ang access sa edit-history metadata. Kung iyon ang iyong kaso, ang text-based detection ay ang maling tool — kailangan mo ng workflow instrumentation.

Gaano kadalas bawasan ng isang bagong generator ang iyong AUC?

Ang bawat pangunahing release, halos bawat 3–6 buwan, ay nagpapababa ng AUC sa pamilyang iyon ng 5–10 percentage point hanggang sa kami ay mag-retrain. Ang retraining ay tumatagal ng humigit-kumulang 4 na linggo pagkatapos namin magkaroon ng sapat na sample. Ang praktikal na resulta: palagi mayroong isang 2–8 na linggong window pagkatapos ng bagong paglulunsad kung saan ang aming AUC sa pamilyang iyon ay mas mababa kaysa sa average. Inilalahad namin ang mga agwat na ito sa benchmark page.

Tumutulong ba ang ensembling laban sa mga humaniser?

Substantially — ito ang pangunahing istrukturang depensa na mayroon kami. Ang mga humaniser ay nagsasanay laban sa isang target detector. Kapag ang target na iyon ay isang ensemble ng dalawang architecturally na magkaibang detector, ang humaniser ay kailangang talunin ang dalawa nang sabay-sabay, na nangangahulugang mas mahirap kaysa sa talunin ang alinman nang hiwalay. Ito ang dahilan kung bakit gumagamit kami ng ensemble sa produksyon kahit na mas mura ang patakbuhin ang isang single component.

Inilalarawan ng artikulong ito ang mga istrukturang katangian ng AI text detection. Ang mga partikular na numero ay tumutukoy sa aming internal na validation at maaaring hindi mag-generalize. Ina-update namin ang pahinang ito habang nagbibigay ng pahintulot ang bagong pananaliksik at mga release ng generator.