Bahay › Gaano Katumpak ang AI Detection? Benchmark sa 22 LLMs | Plagiarism Detector

Gaano Katumpak ang AI Detection? Ang Aming Benchmark sa 22 LLMs

Inilalathala namin ang tunay na accuracy ng aming AI detector laban sa 22 generative models, kasama ang GPT-5, Claude 4, Gemini 2, at Llama 3. Per-model na mga talahanayan, tapat na mga limitasyon, at nada-download na dataset para sa mga mananaliksik.

2026-04-17 · Plagiarism Detector Team

Bakit Namin Inilalathala ang Aming Mga Numero ng Katumpakan

Karamihan sa mga AI detection tool ay hinihingi sa iyo na magtiwala sa isang malabong score. Sa tingin namin, nararapat kang magkaroon ng katibayan. Sa pahinang ito, ibinabahagi namin ang buong resulta ng aming internal na validation run — bawat generator na aming nasubukan, ang AUC-ROC score sa bawat isa, ang mga uri ng sanaysay na nagbigay sa amin ng pinaka-problemang sitwasyon, at ang mga decision threshold na ginagamit namin sa produksyon.

Ang ganitong antas ng transparency ay hindi karaniwan sa larangan ng AI detection. Karamihan sa mga kakumpitensya — mga vendor ng plagiarism checker, espesyalistang serbisyo ng AI detection, generic na SaaS tools — nag-uulat alinman ng walang accuracy data o isang cherry-picked na numero. Ang pattern na iyon ay hindi sustainable: ang mga guro, publisher, at mananaliksik ay nangangailangan ng mga nare-reproduce na benchmark bago mapagkatiwalaan ang anumang tool.

Ang aming mga numero ay nagmumula sa isang 1,000-sample na validation split ng calibration corpus na ginamit upang i-train ang aming ModernBERT detector. Ang parehong metodolohiya na nagpapatakbo ng benchmark na ito ay tumatakbo sa bawat dokumento na iyong isusumite sa pamamagitan ng aming tool. Walang anumang naiwanan para sa mga demo.

Ang Test Corpus at Metodolohiya

Ang validation set ay naglalaman ng 1,000 na sanaysay na kinuha mula sa isang 1,200-sample na calibration corpus: 600 na human-written na sanaysay (mula sa PAN25 shared-task data at sa PERSUADE argumentative essays dataset) at 600 na AI-generated na sanaysay (na ginawa ng 22 distinct na malalaking language model sa ilalim ng controlled na prompting). Ang 80/20 na training-validation split ay naayos at nare-reproduce.

Ang bawat sample ay nire-score nang hiwalay, nang walang access sa metadata na maaaring mag-leak ng ground truth. Ang detector ay nagbabalik ng probabilidad sa [0, 100] na kumakatawan sa posibilidad na ang sample ay AI-generated. Pagkatapos ay kinukuwenta namin ang lugar sa ilalim ng receiver-operating-characteristic curve (AUC-ROC) bawat generator at sa antas ng uri ng sanaysay.

Lahat ng mga threshold, training hyperparameter, at raw na probability output ay naka-log. Ang dataset mismo ay available para sa download sa ibaba ng pahinang ito — CSV format, isang row bawat sample, na may generator identity, essay-type label, raw score, at ang panghuling binary verdict.

Mga Pangunahing Resulta

Sa buong 1,000-sample na set, ang aming ensemble detector ay nakamit ang AUC-ROC [AUC: 0.9884]. Sa 50% na decision threshold na ginagamit namin sa produksyon: 0 na false positive sa mga human na sanaysay sa validation set, at 60% recall sa mga AI na sanaysay. Sa F1-optimal na threshold na 26.56%, ang recall ay tumataas sa 90% sa halaga ng 2% na false positive — isang tradeoff na mas angkop para sa mga high-sensitivity screening workflow.

Ang document-level na hatol sa aming pampublikong tool ay gumagamit ng conservative na 50% threshold, na inuuna ang zero false positive kaysa sa maximum recall. Ang mga guro, publisher, at mananaliksik ay maaaring i-override ito sa pamamagitan ng sensitivity slider sa widget kapag gusto nila ng mas agresibong flagging.

Para sa paghahambing, ang Binoculars zero-shot component lamang (isang 2× Llama-3.1-8B setup) ay nag-score ng AUC [AUC: 0.8509] nang nag-iisa. Ang fine-tuned ModernBERT component lamang ay nag-score ng [AUC: 1.0000] sa in-distribution na sanaysay at [AUC: 0.9069] sa out-of-distribution na teksto. Ang ensemble ay nasa pagitan ng dalawa sa anumang iisang axis ngunit mas mahusay kaysa sa dalawa sa average dahil itinatama nito ang kanilang complementary na kahinaan.

Breakdown Bawat Generator

Narito ang per-model na talahanayan ng AUC-ROC. Ang mga modelo ay nakaayos mula sa pinakamadaling matukoy hanggang sa pinakamahirap sa aming validation set. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Mga modelo ng OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Iba pa: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Ang pangunahing pattern: ang mas bago, mas malaki, at instruction-tuned na mga modelo ay may posibilidad na gumawa ng teksto na mukhang mas pang-tao para sa anumang statistical detector, kasama ang aming. Ang Claude 4.5 Sonnet at GPT-5.x ay ang dalawang pamilya kung saan ang aming mga score distribution ay pinakamalaki ang pagkakatambal sa human baseline. Ito ay naaayon sa bawat independyenteng pag-aaral na nailathala noong 2025 — ang arms race ay totoo at ang laki ng modelo ay isang direktang hadlang para sa detection.

Kung Saan Nahihirapan ang Detector

Hindi lahat ng teksto ay pantay na matutukoy. Bina-break down namin ang mga resulta ayon sa uri ng sanaysay — bawat kategorya ng PERSUADE prompt — at ang agwat sa pagitan ng pinakamahusay at pinakamasama ay malawak. [PER-TYPE TABLE]

Mga argumentative, persuasive, at expository na sanaysay: ang pinaka-malakas na domain ng detector. Karaniwang AUC na 0.97–1.00 dahil ang mga training corpus ay sobrang bigat sa mga estilo. Dito nahuhulog ang karamihan ng mga kaso ng academic integrity.

Creative writing at literary analysis: ang aming pinakamahina na domain. Para sa literary_analysis ang AUC ay bumababa sa 0.69 — ang human na estilo sa fiction ay nagtatambal sa mga LLM output at ni ang aming supervised ni zero-shot component ay hindi maaasahang makilala ang mga ito. Tratuhin ang mataas na AI score sa fiction nang may pag-aalinlangan.

Subukan ang detector sa iyong sariling teksto

I-paste ang anumang dokumento at tingnan ang parehong per-sentence verdict at mga decision threshold na ginagamit namin para sa mga numerong ito ng benchmark. Libre, walang signup.

Mga Limitasyon at Failure Mode

Tatlong klase ng teksto ang lumalabas sa aming detector nang mas madalas kaysa iminumungkahi ng aming validation set. Ang Humanised AI text — output na pinasa sa pamamagitan ng isang adversarial paraphrasing o style-transfer tool — ay madalas na nagre-score bilang pang-tao kahit na ang pinagbabatayang teksto ay ganap na na-generate. Ang Maikling teksto (wala pang 100 salita) ay mahirap uriin dahil kulang ang statistical signal. Ang Hindi-katutubong English na pagsulat ay maaaring mag-score bilang AI-generated dahil ang mga LLM at ESL writer ay may ilang paboritong lexical at syntactic.

Ang aming detector ay probabilistic, hindi evidentiary. Ang mataas na AI score ay isang signal para siyasatin pa, hindi patunay ng maling gawa. Lubos naming inirerekomenda ang pagsasama ng score sa konteksto: kamakailang edit history, mga draft ng bersyon, mga halimbawa ng pagsulat mula sa parehong may-akda, at — kung pinahintulutan — isang maikling follow-up na pag-uusap sa may-akda.

Patuloy kaming nag-re-retrain sa pinakabagong mga generator output, ngunit palagi may lag: ang isang modelong inilabas noong nakaraang linggo ay maaaring hindi maayos na kinakatawan sa training data. Kung ang iyong workflow ay nakasalalay sa paghuli ng mga pinakabagong modelo, muling suriin ang aming benchmark page bawat quarter para sa mga na-update na numero.

I-download ang Buong Dataset

Inilalathala namin ang mga raw validation result para ang mga mananaliksik, mamamahayag, at guro ay maaaring independyenteng i-verify ang aming mga pahayag. Ang CSV ay naglalaman ng: sample ID, generator identity (o 'human'), essay-type label, raw probability output, binary verdict sa 50% threshold, binary verdict sa 26.56% threshold.

I-download: ai-detector-benchmark-2026-04.csv (ina-update bawat quarter). Ang paggamit sa akademya ay walang paghihigpit; ang komersyal na muling-paglalathala ay nangangailangan ng attribution: "Plagiarism Detector — AI Detection Benchmark 2026-04".

Para sa isang interactive na bersyon ng parehong metodolohiya sa iyong sariling teksto, subukan ang aming AI & Plagiarism Checker tool — i-paste ang anumang dokumento at tingnan ang per-sentence verdict, ang parehong mga decision threshold, at ang parehong confidence interval na ginagamit namin para sa mga na-publish na numerong ito.

Mga Madalas Itanong

Gaano kadalas ina-update ang benchmark na ito?

Bawat quarter. Kapag naglunsad ang isang pangunahing generator (GPT-6, Claude 5, Gemini 3), idinaragdag namin ito sa test corpus sa loob ng 4 na linggo at muling inilalathala ang na-update na talahanayan. Ang mga makasaysayang bersyon ay naka-archive na may mga may-petsang filename — ang edisyon ng 2026-04 ay ang kasalukuyang stable release.

Bakit hindi kayo naglalathala ng per-sample probability output?

Ginagawa namin — ang nada-download na CSV ay naglalaman ng mga raw probability. Ang hindi namin inilalathala ay ang orihinal na teksto ng sanaysay, dahil ang PAN25 corpus at PERSUADE dataset ay may mga paghihigpit sa redistribution. Kung gusto mo ang teksto, kunin ang mga dataset na iyon nang direkta mula sa kanilang pinagmulan (mga link sa CSV documentation).

Maaari bang pagkatiwalaan ang isang detector kung ang AUC ay nasa ibaba ng 1.0?

Walang detector ang nakakamit ng AUC 1.0 sa bawat generator, kaya ang tanong ay hindi 'perpekto ba ito' kundi 'transparent ba ito.' Ang isang detector na naglalathala ng AUC 0.95 at nagsasabi sa iyo kung saan ito nahihirapan ay mas mapagkakatiwalaan kaysa sa isa na naglalathala ng 'industry-leading accuracy' nang walang numero. Ang aming AUC [AUC: 0.9884] ay tapat na average performance; ang mga breakdown bawat generator at bawat uri ng sanaysay ay kung saan mo dapat gawin ang iyong desisyon sa pagbili.

Handa ba ang inyong AI detector para sa academic na paglalathala?

Ang pinagbabatayang metodolohiya ay handa — ang Binoculars (ICML 2024) at ModernBERT ay parehong peer-reviewed na arkitektura. Ang aming partikular na fine-tuning corpus at mga threshold ay proprietary ngunit ang benchmark methodology ay ganap na nare-reproduce.

Paano naghahambing ang libreng online tool sa desktop product?

Parehong engine, parehong mga numero ng katumpakan, parehong per-sentence verdict logic. Ang desktop product ay nagdaragdag ng walang limitasyong haba ng dokumento, offline scanning, integrated plagiarism matching laban sa 4 bilyong pahina ng web, at batch processing ng buong mga folder. Para sa one-off na pagsuri, sapat ang online tool; para sa araw-araw na workflow, ang desktop ang tamang tool.

Ang mga resulta ng benchmark ay nagmumula sa aming internal na validation set at maaaring hindi mag-generalize sa out-of-distribution na teksto. Ang mga na-publish na numero ay kumakatawan sa average na performance sa 1,000 na sample; ang iyong dokumento ay maaaring mag-score nang iba. Gamitin ang mga resulta ng AI detection bilang isa sa maraming input, hindi bilang tanging katibayan ng pagka-may-akda.