บ้าน › การตรวจจับ AI แม่นยำแค่ไหน? เกณฑ์มาตรฐานจาก 22 LLM | เครื่องตรวจจับการลอกเลียน

การตรวจจับ AI แม่นยำแค่ไหน? เกณฑ์มาตรฐานของเราจาก 22 LLM

เราเผยแพร่ความแม่นยำของเครื่องตรวจจับ AI ในโลกจริงเทียบกับ 22 โมเดลสร้างข้อความ รวมถึง GPT-5, Claude 4, Gemini 2 และ Llama 3 ตารางแยกตามโมเดล ข้อจำกัดที่ตรงไปตรงมา และชุดข้อมูลที่ดาวน์โหลดได้สำหรับนักวิจัย

2026-04-17 · Plagiarism Detector Team

เหตุใดเราจึงเผยแพร่ตัวเลขความแม่นยำ

เครื่องมือตรวจจับ AI ส่วนใหญ่ขอให้คุณเชื่อคะแนนที่ไม่โปร่งใสเพียงตัวเดียว เราคิดว่าคุณสมควรได้รับหลักฐาน บนหน้านี้เราแบ่งปันผลลัพธ์ทั้งหมดจากการทดสอบตรวจสอบภายในของเรา ทุกโมเดลที่เราทดสอบ คะแนน AUC-ROC ของแต่ละโมเดล ประเภทเรียงความที่ให้ปัญหาเราที่สุด และเกณฑ์การตัดสินใจที่เราใช้ในการผลิต

ระดับความโปร่งใสนี้ผิดปกติในพื้นที่การตรวจจับ AI คู่แข่งส่วนใหญ่ ไม่ว่าจะเป็นผู้ให้บริการตรวจการลอกเลียน บริการตรวจจับ AI เฉพาะทาง เครื่องมือ SaaS ทั่วไป ต่างก็เผยแพร่ข้อมูลความแม่นยำไม่ครบถ้วนหรือเพียงตัวเลขเดียวที่เลือกมาเฉพาะ รูปแบบนั้นไม่ยั่งยืน นักการศึกษา สำนักพิมพ์ และนักวิจัยต้องการเกณฑ์มาตรฐานที่ทำซ้ำได้ก่อนที่จะพึ่งพาเครื่องมือใดก็ตาม

ตัวเลขของเรามาจากชุดตรวจสอบ 1,000 ตัวอย่างที่แยกจากคลังปรับเทียบที่ใช้ฝึกModernBERTของเรา วิธีการเดียวกันที่ขับเคลื่อนเกณฑ์มาตรฐานนี้ใช้กับทุกเอกสารที่คุณส่งผ่านเครื่องมือของเรา ไม่มีอะไรถูกสงวนไว้สำหรับการสาธิต

คลังข้อมูลทดสอบและวิธีการ

ชุดตรวจสอบประกอบด้วยเรียงความ 1,000 ชิ้นที่นำมาจากคลังปรับเทียบ 1,200 ตัวอย่าง ได้แก่ เรียงความที่มนุษย์เขียน 600 ชิ้น (จากข้อมูลงาน PAN25 และชุดข้อมูลเรียงความเชิงโต้แย้ง PERSUADE) และเรียงความที่ AI สร้าง 600 ชิ้น (ผลิตโดย 22 โมเดลภาษาขนาดใหญ่ที่แตกต่างกันภายใต้การป้อนคำสั่งที่ควบคุม) การแยกการฝึก-ตรวจสอบ 80/20 ถูกกำหนดและทำซ้ำได้

แต่ละตัวอย่างได้รับการให้คะแนนอย่างอิสระ โดยไม่มีการเข้าถึงข้อมูลเมตาที่อาจเปิดเผยข้อมูลจริง เครื่องตรวจจับส่งคืนความน่าจะเป็นใน [0, 100] แทนความน่าจะเป็นที่ตัวอย่างถูก AI สร้างขึ้น จากนั้นเราคำนวณพื้นที่ใต้เส้นโค้งลักษณะการดำเนินงานของผู้รับ (AUC-ROC) ต่อโมเดลและในระดับประเภทเรียงความ

เกณฑ์ พารามิเตอร์การฝึก และผลลัพธ์ความน่าจะเป็นดิบทั้งหมดได้รับการบันทึก ชุดข้อมูลเองมีให้ดาวน์โหลดที่ด้านล่างของหน้านี้ในรูปแบบ CSV หนึ่งแถวต่อตัวอย่าง พร้อมด้วยตัวระบุโมเดล ป้ายกำกับประเภทเรียงความ คะแนนดิบ และคำตัดสินไบนารีสุดท้าย

ผลลัพธ์หลัก

ในชุดตัวอย่าง 1,000 ชิ้นทั้งหมด เครื่องตรวจจับแบบรวมของเราทำได้ AUC-ROC [AUC: 0.9884] ที่เกณฑ์การตัดสินใจ 50% ที่เราใช้ในการผลิต: 0 ผลบวกเท็จบนเรียงความมนุษย์ในชุดตรวจสอบ และ การจำได้ 60%บนเรียงความ AI ที่เกณฑ์ที่เหมาะสมสำหรับ F1 ที่ 26.56% การจำได้เพิ่มขึ้นเป็น 90% โดยแลกกับผลบวกเท็จ 2% ซึ่งเป็นการแลกเปลี่ยนที่เหมาะสมกว่าสำหรับเวิร์กโฟลว์การตรวจสอบความไวสูง

คำตัดสินระดับเอกสารบนเครื่องมือสาธารณะของเราใช้เกณฑ์ 50% แบบอนุรักษ์นิยม โดยให้ความสำคัญกับผลบวกเท็จเป็นศูนย์มากกว่าการจำได้สูงสุด ครู สำนักพิมพ์ และนักวิจัยสามารถแทนที่ได้ผ่านแถบเลื่อนความไวในวิดเจ็ตเมื่อต้องการการตั้งค่าสถานะที่แอคทีฟมากขึ้น

สำหรับการเปรียบเทียบ ส่วนประกอบ Binoculars แบบ zero-shot เพียงอย่างเดียว (การตั้งค่า Llama-3.1-8B 2×) ได้คะแนน AUC [AUC: 0.8509] แบบเดี่ยว ส่วนประกอบ ModernBERT ที่ผ่านการปรับแต่งเพียงอย่างเดียวได้คะแนน [AUC: 1.0000] บนเรียงความในการกระจาย และ [AUC: 0.9069] บนข้อความนอกการกระจาย การรวมกลุ่มอยู่ระหว่างกันบนแกนเดียว แต่มีประสิทธิภาพดีกว่าทั้งสองโดยเฉลี่ยเพราะแก้ไขจุดอ่อนที่เสริมกันได้

รายละเอียดแยกตามโมเดล

นี่คือตาราง AUC-ROC แยกตามโมเดล โมเดลเรียงลำดับจากตรวจจับได้ง่ายที่สุดไปยากที่สุดในชุดตรวจสอบของเรา [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

โมเดล OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. อื่นๆ: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

รูปแบบหลัก: โมเดลที่ใหม่กว่า ขนาดใหญ่กว่า และผ่านการปรับแต่งตามคำสั่งมักผลิตข้อความที่ดูเหมือนมนุษย์มากขึ้นสำหรับเครื่องตรวจจับทางสถิติใดๆ รวมถึงของเรา Claude 4.5 Sonnet และ GPT-5.x เป็นสองตระกูลที่การกระจายคะแนนของเราทับซ้อนกับข้อมูลพื้นฐานมนุษย์มากที่สุด ซึ่งตรงกับการศึกษาอิสระทุกชิ้นที่เผยแพร่ในปี 2025 การแข่งขันเป็นเรื่องจริงและขนาดโมเดลเป็นอุปสรรคโดยตรงต่อการตรวจจับ

จุดที่เครื่องตรวจจับมีปัญหา

ข้อความไม่ใช่ทุกประเภทที่ตรวจจับได้เท่ากัน เราแจกแจงผลลัพธ์ตามประเภทเรียงความ ซึ่งก็คือแต่ละหมวดหมู่คำสั่ง PERSUADE และช่องว่างระหว่างดีที่สุดและแย่ที่สุดมีความกว้างมาก [PER-TYPE TABLE]

เรียงความเชิงโต้แย้ง เชิงโน้มน้าว และเชิงอธิบาย: โดเมนที่แข็งแกร่งที่สุดของเครื่องตรวจจับ AUC มักอยู่ที่ 0.97–1.00 เนื่องจากคลังข้อมูลการฝึกให้น้ำหนักกับรูปแบบเหล่านี้มาก นี่คือที่ที่กรณีการใช้งานส่วนใหญ่ด้านความซื่อสัตย์ทางวิชาการอยู่

การเขียนเชิงสร้างสรรค์และการวิเคราะห์วรรณกรรม: โดเมนที่อ่อนแอที่สุดของเรา สำหรับ literary_analysis AUC ลดลงเหลือ 0.69 รูปแบบมนุษย์ในนิยายมาบรรจบกับผลลัพธ์ LLM และทั้งส่วนประกอบที่ควบคุมดูแลและ zero-shot ของเราไม่สามารถแยกแยะได้อย่างน่าเชื่อถือ ปฏิบัติต่อคะแนน AI สูงในงานนิยายด้วยความสงสัย

ลองใช้เครื่องตรวจจับบนข้อความของคุณเอง

วางเอกสารใดก็ได้และดูคำตัดสินแยกตามประโยคและเกณฑ์การตัดสินใจเดียวกันที่เราใช้สำหรับตัวเลขเกณฑ์มาตรฐานเหล่านี้ ฟรี ไม่ต้องสมัครสมาชิก

ข้อจำกัดและรูปแบบความล้มเหลว

ข้อความสามประเภทหลบหนีเครื่องตรวจจับของเราบ่อยกว่าที่ชุดตรวจสอบแนะนำ ข้อความ AI ที่ถูกทำให้เป็นมนุษย์ ซึ่งเป็นผลลัพธ์ที่ผ่านเครื่องมือถอดความหรือถ่ายโอนรูปแบบแบบปฏิปักษ์ มักได้คะแนนว่าเป็นมนุษย์แม้ว่าข้อความพื้นฐานจะถูกสร้างขึ้นทั้งหมด ข้อความสั้น (น้อยกว่า 100 คำ) ยากต่อการจำแนกทั้งหมดเพราะมีสัญญาณทางสถิติไม่เพียงพอ การเขียนภาษาอังกฤษของผู้ที่ไม่ใช่เจ้าของภาษา อาจได้คะแนนว่า AI สร้าง เนื่องจาก LLM และผู้เรียน ESL มีความชอบทางคำศัพท์และวากยสัมพันธ์บางอย่างที่เหมือนกัน

เครื่องตรวจจับของเราเป็นแบบน่าจะเป็น ไม่ใช่หลักฐาน คะแนน AI สูงเป็นสัญญาณให้สอบสวนเพิ่มเติม ไม่ใช่หลักฐานการประพฤติผิด เราแนะนำอย่างยิ่งให้จับคู่คะแนนกับบริบท: ประวัติการแก้ไขล่าสุด ร่างเวอร์ชัน ตัวอย่างการเขียนจากผู้เขียนคนเดียวกัน และเมื่อได้รับอนุญาต การสนทนาติดตามสั้นๆ กับผู้เขียน

เราฝึกใหม่อย่างต่อเนื่องบนผลลัพธ์โมเดลล่าสุด แต่มีความล่าช้าเสมอ: โมเดลที่เปิดตัวสัปดาห์ที่แล้วอาจไม่ได้รับการแสดงในข้อมูลการฝึกอย่างเพียงพอ หากเวิร์กโฟลว์ของคุณขึ้นอยู่กับการจับโมเดลล่าสุด ให้ตรวจสอบหน้าเกณฑ์มาตรฐานของเราทุกไตรมาสสำหรับตัวเลขที่อัปเดต

ดาวน์โหลดชุดข้อมูลทั้งหมด

เราเผยแพร่ผลการตรวจสอบดิบเพื่อให้นักวิจัย นักข่าว และนักการศึกษาสามารถตรวจสอบข้อเรียกร้องของเราได้อย่างอิสระ CSV ประกอบด้วย: ID ตัวอย่าง ตัวระบุโมเดล (หรือ ‘human’) ป้ายกำกับประเภทเรียงความ ผลลัพธ์ความน่าจะเป็นดิบ คำตัดสินไบนารีที่เกณฑ์ 50% คำตัดสินไบนารีที่เกณฑ์ 26.56%

ดาวน์โหลด: ai-detector-benchmark-2026-04.csv (อัปเดตทุกไตรมาส) การใช้งานเชิงวิชาการไม่มีข้อจำกัด การเผยแพร่ซ้ำเชิงพาณิชย์ต้องระบุแหล่งที่มา: “Plagiarism Detector — AI Detection Benchmark 2026-04”

สำหรับเวอร์ชันโต้ตอบของวิธีการเดียวกันบนข้อความของคุณเอง ลองใช้เครื่องมือตรวจสอบ AI & การลอกเลียนของเรา วางเอกสารใดก็ได้และดูคำตัดสินแยกตามประโยค เกณฑ์การตัดสินใจเดียวกัน และช่วงความเชื่อมั่นเดียวกันที่เราใช้สำหรับตัวเลขที่เผยแพร่เหล่านี้

คำถามที่พบบ่อย

เกณฑ์มาตรฐานนี้อัปเดตบ่อยแค่ไหน?

ทุกไตรมาส เมื่อโมเดลหลักที่สำคัญ (GPT-6, Claude 5, Gemini 3) เปิดตัว เราจะเพิ่มในคลังข้อมูลทดสอบภายใน 4 สัปดาห์และเผยแพร่ตารางที่อัปเดต เวอร์ชันประวัติจะถูกเก็บถาวรด้วยชื่อไฟล์ที่มีวันที่ รุ่น 2026-04 เป็นการเผยแพร่ที่เสถียรในปัจจุบัน

ทำไมคุณไม่เผยแพร่ผลลัพธ์ความน่าจะเป็นแยกตามตัวอย่าง?

เราทำ — CSV ที่ดาวน์โหลดได้ประกอบด้วยความน่าจะเป็นดิบ สิ่งที่เราไม่เผยแพร่คือข้อความเรียงความต้นฉบับ เนื่องจากคลัง PAN25 และชุดข้อมูล PERSUADE มีข้อจำกัดในการเผยแพร่ซ้ำ หากคุณต้องการข้อความ ให้ดึงชุดข้อมูลเหล่านั้นโดยตรงจากแหล่งที่มา (ลิงก์ในเอกสาร CSV)

ฉันสามารถเชื่อถือเครื่องตรวจจับได้ไหมหาก AUC ต่ำกว่า 1.0?

ไม่มีเครื่องตรวจจับใดที่ได้ AUC 1.0 บนทุกโมเดล ดังนั้นคำถามไม่ใช่ ‘มันสมบูรณ์แบบไหม’ แต่ ‘มันโปร่งใสไหม’ เครื่องตรวจจับที่เผยแพร่ AUC 0.95 และบอกคุณว่ามีปัญหาตรงไหนน่าเชื่อถือกว่าเครื่องที่เผยแพร่ ‘ความแม่นยำระดับอุตสาหกรรม’ โดยไม่มีตัวเลข AUC ของเรา [AUC: 0.9884] คือประสิทธิภาพเฉลี่ยที่ตรงไปตรงมา การแจกแจงแยกตามโมเดลและประเภทเรียงความคือที่ที่คุณควรทำการตัดสินใจซื้อ

เครื่องตรวจจับ AI ของคุณพร้อมสำหรับการตีพิมพ์ทางวิชาการหรือไม่?

วิธีการพื้นฐานพร้อมแล้ว Binoculars (ICML 2024) และ ModernBERT ล้วนเป็นสถาปัตยกรรมที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ คลังข้อมูลการปรับแต่งเฉพาะและเกณฑ์ของเราเป็นกรรมสิทธิ์ แต่วิธีการเกณฑ์มาตรฐานสามารถทำซ้ำได้อย่างสมบูรณ์

เครื่องมือออนไลน์ฟรีเปรียบเทียบกับผลิตภัณฑ์เดสก์ท็อปอย่างไร?

เครื่องมือเดียวกัน ตัวเลขความแม่นยำเดียวกัน ลอจิกคำตัดสินแยกตามประโยคเดียวกัน ผลิตภัณฑ์เดสก์ท็อปเพิ่มความยาวเอกสารไม่จำกัด การสแกนออฟไลน์ การจับคู่การลอกเลียนแบบบูรณาการกับเว็บเพจ 4 พันล้านหน้า และการประมวลผลแบบแบทช์ของโฟลเดอร์ทั้งหมด สำหรับการตรวจสอบครั้งเดียว เครื่องมือออนไลน์เพียงพอ สำหรับเวิร์กโฟลว์รายวัน เดสก์ท็อปคือเครื่องมือที่เหมาะสม

ผลเกณฑ์มาตรฐานมาจากชุดตรวจสอบภายในของเราและอาจไม่ครอบคลุมข้อความนอกการกระจาย ตัวเลขที่เผยแพร่แสดงถึงประสิทธิภาพเฉลี่ยใน 1,000 ตัวอย่าง เอกสารของคุณอาจได้คะแนนแตกต่างกัน ใช้ผลการตรวจจับ AI เป็นข้อมูลหนึ่งในหลายอย่าง ไม่ใช่หลักฐานเดียวของการประพันธ์