Bahay › Aling AI ang Pinakamahirap Matukoy? GPT vs Claude vs Gemini | Plagiarism Detector

Aling AI ang Pinakamahirap Matukoy? GPT vs Claude vs Gemini vs Llama

Hindi lahat ng AI text ay pantay na matutukoy. Narito ang mga resulta ng aming per-generator benchmark — kung aling mga pamilya ng modelo ang halos perpektong nahahuli ng aming detector, kung alin ang nahihirapan nito, at kung ano ang sinasabi nito sa iyo tungkol sa pagpili ng detection workflow.

2026-04-17 · Plagiarism Detector Team

Ang Maikling Sagot — Leaderboard

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Nakaayos mula sa pinakamadali hanggang sa pinakamahirap matukoy sa aming validation set. Ang spread ay malawak — ang AUC sa ilang pamilya ng modelo ay lumalagpas sa 0.99 habang ang iba ay bumababa sa 0.80s. Ang kahirapan ng detection ay naaayon sa laki ng modelo, sopistikasyon ng instruction-tuning, at output variance.

Para sa buong per-generator breakdown methodology, tingnan ang aming accuracy benchmark page. Ang artikulong ito ay bumabalangkas ng mga praktikal na implikasyon ng data na iyon para sa mga gumagamit na pumipili kung aling detector ang pagtitiwalaan at kung aling modelo ang gagamitin.

Pamilya ng OpenAI — GPT

Ang GPT-3.5 ay ang pinakamadaling matukoy na modernong modelo — AUC [AUC: ?] sa aming set. Ang mga legacy generation artefact (paulit-ulit, pag-aatubili, bland na register) ay malinaw pa rin. Ang GPT-4 ay bumababa sa AUC [AUC: ?], ang GPT-4o sa [AUC: ?], na sumasalamin sa progresibong mas mahusay na calibration. Ang GPT-5.x ang pinakamahirap sa pamilya — AUC [AUC: ?] — dahil ang instruction-tuning team ay tahasan na nagta-target ng pag-aalis ng detection artefact.

Praktikal na implikasyon: ang mga academic workflow na nag-aalala tungkol sa cheating na GPT-3.5-era ay maaaring mabigat na umasa sa detection lamang. Ang mga workflow na nag-aalala tungkol sa GPT-5 ay kailangang ipares ang detection sa contextual na katibayan, gaya ng inilarawan sa aming gabay sa workflow ng guro.

Mahalaga ang mga setting ng temperature. Ang mga low-temperature output (t≤0.5) ay mas madaling matukoy dahil nagpo-concentrate ng probability mass sa mas makitid na bokabularyo. Karamihan sa mga chat interface ay default sa t≈0.7, na naglalagay ng teksto sa isang katamtamang matutukuyang zone. Ang mga adversarial na gumagamit ay tahasan na pinapataas ang temperature o gumagamit ng diverse decoding upang palawakin ang hanay at maiwasan ang detection — ang aming ensemble ay bahagi na nagtatama nito ngunit hindi ganap.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Ang pamilya ng Claude ay patuloy na gumagawa ng mas hindi paulit-ulit, mas stylistically varied na teksto kaysa sa mga GPT na modelo ng parehong henerasyong modelo, na nagpapahirap sa pagtukoy sa pamamagitan ng mga statistical na pamamaraan.

Ang constitutional-AI training ng Claude ay tahasan na nagta-target ng mga 'machine tell' na natututo ang aming supervised classifier — mga hedging pattern, labis na paggamit ng mga partikular na connective, predictable na istruktura ng talata. Ito ay isang direktang adversarial na relasyon: ang generator ay sinanay laban sa mga katangian na inaasahan ng detector.

Ang Claude 4.5 Sonnet at GPT-5.x ay magkalapit sa kahirapan. Ang kanilang mga score distribution ay pinakamalaki ang pagkakatambal sa human baseline sa aming validation data. Kung ang iyong workflow ay nagta-target sa alinman sa mga modelong ito, asahan ang nabawasang recall sa default threshold at isaalang-alang ang pagbabago sa F1-optimal para sa high-sensitivity screening.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Ang Gemini ay nagpakita ng pinaka-variable na performance ng detection sa mga bersyon — ang ilang intermediate na release ay pansamantalang nag-regress bago dumating ang mga pagpapabuti.

Ang multi-modal na training ng Gemini ay nangangahulugang ang mga text-only na output ay kung minsan ay may natitirang pattern mula sa mga domain ng image-caption o code-explanation. Ang aming detector ay napapansin ito, na nagpapaliwanag kung bakit ang Gemini ay may bahagyang mas mataas na detectability sa mga mixed-domain prompt kaysa sa purong prosa.

Para sa mga gumagamit ng Google Workspace na ang mga estudyante o empleyado ay gumagamit ng Gemini sa pamamagitan ng Docs, ang detection signal ay katulad ng raw API output. Hindi namin naobserbahan ang mga workspace-integration-specific evasion pattern na naiiba sa direktang paggamit ng Gemini API.

Suriin ang isang sample mula sa anumang modelo

I-paste ang output mula sa anumang LLM at tingnan ang per-sentence verdict. Ang aming detector ay tinatrato ang lahat ng 22 pamilya ng modelo bilang isang ensemble check.

Meta at Mga Open-Weights Model

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Ang mga open-weights na modelo ay sumasaklaw sa mas malawak na hanay kaysa sa mga closed — ang mga fine-tuning variant, quantised deployment, at community-modified checkpoint ay lahat ay gumagawa ng bahagyang magkakaibang output.

Ang detection sa open-weights ay estratehikong mahalaga dahil ang mga humaniser tool ay karaniwang itinayo sa mga open-weights na modelo — ang mga derivative ng Llama at Mistral ay tumatakbo nang lokal sa mababang gastos, kaya naman presyuhan ng mga serbisyo ng paraphrasing at style-transfer ang mga ito. Kung ang iyong alalahanin ay ang humanised AI, sa huli ay nagtatanggol ka laban sa Llama-family generation.

Ang DeepSeek R1 at o3-mini (OpenAI reasoning model) ay nararapat na hiwalay na banggitin. Parehong gumagawa ng teksto na may reasoning-chain artefact — tahasang hakbang-hakbang na lohika na nakikita sa output — na natututo ng aming detector na kilalanin. Ang mga reasoning model ay kasalukuyang mas madaling matukoy kaysa sa kanilang mga base-chat counterpart para sa kadahilanang ito.

Ano ang Ibig Sabihin ng Mga Pagkakaibang Ito para sa Iyo

Kung pinipili mo ang isang modelo para sumulat at ang detection ay hindi ang iyong alalahanin, ang Claude 4.5 Sonnet at GPT-5 ang pinaka-mahirap matukoy. Kung nagtatayo ka ng detection workflow, unahin ang mga modelong talagang nakikita mo: karamihan sa academic na maling paggamit ay tumatakbo pa rin sa GPT-4/5 sa pamamagitan ng mga libreng interface; karamihan sa content-farming ay tumatakbo sa Llama-derivative na mga humaniser.

Ang isang detector na sinanay sa isang pamilya ng modelo ay magiging pinakamasama sa iba. Ang aming ensemble approach ay nagsasanay sa mga sample mula sa lahat ng 22 generator, kaya naman ang per-model AUC sa mga mahirap na kaso (Claude 4.5, GPT-5) ay nasa itaas pa rin ng 0.90 habang ang anumang single-model-trained na detector ay bababa sa ibaba ng 0.80.

Ang pinagbabatayang trend: ang kahirapan ng detection ay tumataas nang mas mabilis kaysa sa cadence ng release ng generator. Ang bawat bagong flagship ay mas mahirap matukoy kaysa sa nauna, isinasara ng retraining ang agwat ngunit hindi ganap. Asahan na ang baseline ng 2026–2027 ay magiging mas mababang AUC sa mga frontier model at halos pare-pareho sa mga legacy model.

Mga Madalas Itanong

Kung ang ilang modelo ay mas mahirap matukoy, dapat ba akong umiwas sa paggamit ng mga detector?

Hindi — kahit sa mga pinakamahirap na pamilya ng modelo ang aming AUC ay nasa itaas ng 0.85, na isang matibay na signal. Ang tanong ay kung paano mo ginagamit ang signal. Para sa mga mahirap matukoy na modelo, ipares ang score sa corroborating na katibayan (edit history, in-class na gawa, pag-uusap ng estudyante). Para sa mga mas madaling modelo, ang score lamang ay madalas na sapat.

Aling modelo ang dapat kong gamitin kung gusto kong maiwasan ang detection?

Hindi namin direktang sinasagot ang tanong na ito — nagpapatakbo kami ng detection tool, hindi gabay sa evasion. Ang masasabi namin: ang matutukoy-vs-hindi matutukoy ay hindi ang tamang axis para sa pagpili ng modelo. Ang kalidad, gastos, at angkop para sa layunin ay mas mahalaga kaysa sa kahirapan ng detection. Kung sumulat ka nang lehitimo gamit ang tulong ng AI, ang pagsisiwalat at transparent na workflow ay mas mahalaga kaysa sa pagtatago ng tool.

Ang mga open-weights na variant ng modelo ba ay may iba't ibang detection profile?

Oo, at nang may kahulugan. Ang isang community-fine-tuned na variant ng Llama 3.3 na sinanay para sa isang partikular na estilo ng pagsulat ay maaaring gumawa ng teksto na nag-score nang iba kaysa sa vanilla Llama 3.3. Ang aming benchmark ay sumasaklaw sa standard na checkpoint; ang mga custom fine-tune ay maaaring mas madali (kung pinipigilan ng mga ito ang mga output distribution) o mas mahirap (kung tahasang nag-adversarial-train sila laban sa detection).

Paano nakaapekto ang temperature at sampling sa detectability?

Ang mas mataas na temperature at mas diverse na sampling ay karaniwang nagpapababa ng detectability dahil pinapalawig nito ang output distribution. Ang low-temperature greedy decoding ay pinakamadaling matukoy. Karamihan sa mga production chat interface ay tumatakbo sa t≈0.7–1.0 na may nucleus sampling, na naglalagay ng mga ito sa isang katamtamang matutukuyang rehiyon — ang aming ensemble ay gumaganap nang katulad sa default na hanay.

Kailan darating ang GPT-6 o Claude 5 at ano ang dapat kong asahan?

Ang consensus forecast para sa dalawa ay kalagitnaan ng 2026. Asahan ang detection AUC sa mga bagong pamilya na bumaba sa 0.80–0.85 na hanay para sa unang 4–8 linggo pagkatapos ng paglulunsad habang nangongolekta kami ng mga sample at nag-re-retrain. Ang mga makasaysayang bersyon ay nagmumungkahi ng buong pagbawi sa loob ng 8–12 linggo kung ang modelo ay malawak na available; mas mahaba para sa mga bihirang o limitadong access na modelo.

Ang mga numero ng per-model AUC ay nagmumula sa aming internal na validation at maaaring hindi mag-generalize. Ang kahirapan ng bawat modelo ay nagbabago sa paglipas ng panahon habang ang generator at ang aming training corpus ay nagbabago. Ang kasalukuyang data ay sumasalamin sa 2026-04 benchmark run.