Hindi lahat ng AI text ay pantay na matutukoy. Narito ang mga resulta ng aming per-generator benchmark — kung aling mga pamilya ng modelo ang halos perpektong nahahuli ng aming detector, kung alin ang nahihirapan nito, at kung ano ang sinasabi nito sa iyo tungkol sa pagpili ng detection workflow.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Nakaayos mula sa pinakamadali hanggang sa pinakamahirap matukoy sa aming validation set. Ang spread ay malawak — ang AUC sa ilang pamilya ng modelo ay lumalagpas sa 0.99 habang ang iba ay bumababa sa 0.80s. Ang kahirapan ng detection ay naaayon sa laki ng modelo, sopistikasyon ng instruction-tuning, at output variance.
Para sa buong per-generator breakdown methodology, tingnan ang aming accuracy benchmark page. Ang artikulong ito ay bumabalangkas ng mga praktikal na implikasyon ng data na iyon para sa mga gumagamit na pumipili kung aling detector ang pagtitiwalaan at kung aling modelo ang gagamitin.
Ang GPT-3.5 ay ang pinakamadaling matukoy na modernong modelo — AUC [AUC: ?] sa aming set. Ang mga legacy generation artefact (paulit-ulit, pag-aatubili, bland na register) ay malinaw pa rin. Ang GPT-4 ay bumababa sa AUC [AUC: ?], ang GPT-4o sa [AUC: ?], na sumasalamin sa progresibong mas mahusay na calibration. Ang GPT-5.x ang pinakamahirap sa pamilya — AUC [AUC: ?] — dahil ang instruction-tuning team ay tahasan na nagta-target ng pag-aalis ng detection artefact.
Praktikal na implikasyon: ang mga academic workflow na nag-aalala tungkol sa cheating na GPT-3.5-era ay maaaring mabigat na umasa sa detection lamang. Ang mga workflow na nag-aalala tungkol sa GPT-5 ay kailangang ipares ang detection sa contextual na katibayan, gaya ng inilarawan sa aming gabay sa workflow ng guro.
Mahalaga ang mga setting ng temperature. Ang mga low-temperature output (t≤0.5) ay mas madaling matukoy dahil nagpo-concentrate ng probability mass sa mas makitid na bokabularyo. Karamihan sa mga chat interface ay default sa t≈0.7, na naglalagay ng teksto sa isang katamtamang matutukuyang zone. Ang mga adversarial na gumagamit ay tahasan na pinapataas ang temperature o gumagamit ng diverse decoding upang palawakin ang hanay at maiwasan ang detection — ang aming ensemble ay bahagi na nagtatama nito ngunit hindi ganap.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Ang pamilya ng Claude ay patuloy na gumagawa ng mas hindi paulit-ulit, mas stylistically varied na teksto kaysa sa mga GPT na modelo ng parehong henerasyong modelo, na nagpapahirap sa pagtukoy sa pamamagitan ng mga statistical na pamamaraan.
Ang constitutional-AI training ng Claude ay tahasan na nagta-target ng mga 'machine tell' na natututo ang aming supervised classifier — mga hedging pattern, labis na paggamit ng mga partikular na connective, predictable na istruktura ng talata. Ito ay isang direktang adversarial na relasyon: ang generator ay sinanay laban sa mga katangian na inaasahan ng detector.
Ang Claude 4.5 Sonnet at GPT-5.x ay magkalapit sa kahirapan. Ang kanilang mga score distribution ay pinakamalaki ang pagkakatambal sa human baseline sa aming validation data. Kung ang iyong workflow ay nagta-target sa alinman sa mga modelong ito, asahan ang nabawasang recall sa default threshold at isaalang-alang ang pagbabago sa F1-optimal para sa high-sensitivity screening.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Ang Gemini ay nagpakita ng pinaka-variable na performance ng detection sa mga bersyon — ang ilang intermediate na release ay pansamantalang nag-regress bago dumating ang mga pagpapabuti.
Ang multi-modal na training ng Gemini ay nangangahulugang ang mga text-only na output ay kung minsan ay may natitirang pattern mula sa mga domain ng image-caption o code-explanation. Ang aming detector ay napapansin ito, na nagpapaliwanag kung bakit ang Gemini ay may bahagyang mas mataas na detectability sa mga mixed-domain prompt kaysa sa purong prosa.
Para sa mga gumagamit ng Google Workspace na ang mga estudyante o empleyado ay gumagamit ng Gemini sa pamamagitan ng Docs, ang detection signal ay katulad ng raw API output. Hindi namin naobserbahan ang mga workspace-integration-specific evasion pattern na naiiba sa direktang paggamit ng Gemini API.
I-paste ang output mula sa anumang LLM at tingnan ang per-sentence verdict. Ang aming detector ay tinatrato ang lahat ng 22 pamilya ng modelo bilang isang ensemble check.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Ang mga open-weights na modelo ay sumasaklaw sa mas malawak na hanay kaysa sa mga closed — ang mga fine-tuning variant, quantised deployment, at community-modified checkpoint ay lahat ay gumagawa ng bahagyang magkakaibang output.
Ang detection sa open-weights ay estratehikong mahalaga dahil ang mga humaniser tool ay karaniwang itinayo sa mga open-weights na modelo — ang mga derivative ng Llama at Mistral ay tumatakbo nang lokal sa mababang gastos, kaya naman presyuhan ng mga serbisyo ng paraphrasing at style-transfer ang mga ito. Kung ang iyong alalahanin ay ang humanised AI, sa huli ay nagtatanggol ka laban sa Llama-family generation.
Ang DeepSeek R1 at o3-mini (OpenAI reasoning model) ay nararapat na hiwalay na banggitin. Parehong gumagawa ng teksto na may reasoning-chain artefact — tahasang hakbang-hakbang na lohika na nakikita sa output — na natututo ng aming detector na kilalanin. Ang mga reasoning model ay kasalukuyang mas madaling matukoy kaysa sa kanilang mga base-chat counterpart para sa kadahilanang ito.
Kung pinipili mo ang isang modelo para sumulat at ang detection ay hindi ang iyong alalahanin, ang Claude 4.5 Sonnet at GPT-5 ang pinaka-mahirap matukoy. Kung nagtatayo ka ng detection workflow, unahin ang mga modelong talagang nakikita mo: karamihan sa academic na maling paggamit ay tumatakbo pa rin sa GPT-4/5 sa pamamagitan ng mga libreng interface; karamihan sa content-farming ay tumatakbo sa Llama-derivative na mga humaniser.
Ang isang detector na sinanay sa isang pamilya ng modelo ay magiging pinakamasama sa iba. Ang aming ensemble approach ay nagsasanay sa mga sample mula sa lahat ng 22 generator, kaya naman ang per-model AUC sa mga mahirap na kaso (Claude 4.5, GPT-5) ay nasa itaas pa rin ng 0.90 habang ang anumang single-model-trained na detector ay bababa sa ibaba ng 0.80.
Ang pinagbabatayang trend: ang kahirapan ng detection ay tumataas nang mas mabilis kaysa sa cadence ng release ng generator. Ang bawat bagong flagship ay mas mahirap matukoy kaysa sa nauna, isinasara ng retraining ang agwat ngunit hindi ganap. Asahan na ang baseline ng 2026–2027 ay magiging mas mababang AUC sa mga frontier model at halos pare-pareho sa mga legacy model.
Ang mga numero ng per-model AUC ay nagmumula sa aming internal na validation at maaaring hindi mag-generalize. Ang kahirapan ng bawat modelo ay nagbabago sa paglipas ng panahon habang ang generator at ang aming training corpus ay nagbabago. Ang kasalukuyang data ay sumasalamin sa 2026-04 benchmark run.