เราเผยแพร่ความแม่นยำของเครื่องตรวจจับ AI ในโลกจริงเทียบกับ 22 โมเดลสร้างข้อความ รวมถึง GPT-5, Claude 4, Gemini 2 และ Llama 3 ตารางแยกตามโมเดล ข้อจำกัดที่ตรงไปตรงมา และชุดข้อมูลที่ดาวน์โหลดได้สำหรับนักวิจัย
เครื่องมือตรวจจับ AI ส่วนใหญ่ขอให้คุณเชื่อคะแนนที่ไม่โปร่งใสเพียงตัวเดียว เราคิดว่าคุณสมควรได้รับหลักฐาน บนหน้านี้เราแบ่งปันผลลัพธ์ทั้งหมดจากการทดสอบตรวจสอบภายในของเรา ทุกโมเดลที่เราทดสอบ คะแนน AUC-ROC ของแต่ละโมเดล ประเภทเรียงความที่ให้ปัญหาเราที่สุด และเกณฑ์การตัดสินใจที่เราใช้ในการผลิต
ระดับความโปร่งใสนี้ผิดปกติในพื้นที่การตรวจจับ AI คู่แข่งส่วนใหญ่ ไม่ว่าจะเป็นผู้ให้บริการตรวจการลอกเลียน บริการตรวจจับ AI เฉพาะทาง เครื่องมือ SaaS ทั่วไป ต่างก็เผยแพร่ข้อมูลความแม่นยำไม่ครบถ้วนหรือเพียงตัวเลขเดียวที่เลือกมาเฉพาะ รูปแบบนั้นไม่ยั่งยืน นักการศึกษา สำนักพิมพ์ และนักวิจัยต้องการเกณฑ์มาตรฐานที่ทำซ้ำได้ก่อนที่จะพึ่งพาเครื่องมือใดก็ตาม
ตัวเลขของเรามาจากชุดตรวจสอบ 1,000 ตัวอย่างที่แยกจากคลังปรับเทียบที่ใช้ฝึกModernBERTของเรา วิธีการเดียวกันที่ขับเคลื่อนเกณฑ์มาตรฐานนี้ใช้กับทุกเอกสารที่คุณส่งผ่านเครื่องมือของเรา ไม่มีอะไรถูกสงวนไว้สำหรับการสาธิต
ชุดตรวจสอบประกอบด้วยเรียงความ 1,000 ชิ้นที่นำมาจากคลังปรับเทียบ 1,200 ตัวอย่าง ได้แก่ เรียงความที่มนุษย์เขียน 600 ชิ้น (จากข้อมูลงาน PAN25 และชุดข้อมูลเรียงความเชิงโต้แย้ง PERSUADE) และเรียงความที่ AI สร้าง 600 ชิ้น (ผลิตโดย 22 โมเดลภาษาขนาดใหญ่ที่แตกต่างกันภายใต้การป้อนคำสั่งที่ควบคุม) การแยกการฝึก-ตรวจสอบ 80/20 ถูกกำหนดและทำซ้ำได้
แต่ละตัวอย่างได้รับการให้คะแนนอย่างอิสระ โดยไม่มีการเข้าถึงข้อมูลเมตาที่อาจเปิดเผยข้อมูลจริง เครื่องตรวจจับส่งคืนความน่าจะเป็นใน [0, 100] แทนความน่าจะเป็นที่ตัวอย่างถูก AI สร้างขึ้น จากนั้นเราคำนวณพื้นที่ใต้เส้นโค้งลักษณะการดำเนินงานของผู้รับ (AUC-ROC) ต่อโมเดลและในระดับประเภทเรียงความ
เกณฑ์ พารามิเตอร์การฝึก และผลลัพธ์ความน่าจะเป็นดิบทั้งหมดได้รับการบันทึก ชุดข้อมูลเองมีให้ดาวน์โหลดที่ด้านล่างของหน้านี้ในรูปแบบ CSV หนึ่งแถวต่อตัวอย่าง พร้อมด้วยตัวระบุโมเดล ป้ายกำกับประเภทเรียงความ คะแนนดิบ และคำตัดสินไบนารีสุดท้าย
ในชุดตัวอย่าง 1,000 ชิ้นทั้งหมด เครื่องตรวจจับแบบรวมของเราทำได้ AUC-ROC [AUC: 0.9884] ที่เกณฑ์การตัดสินใจ 50% ที่เราใช้ในการผลิต: 0 ผลบวกเท็จบนเรียงความมนุษย์ในชุดตรวจสอบ และ การจำได้ 60%บนเรียงความ AI ที่เกณฑ์ที่เหมาะสมสำหรับ F1 ที่ 26.56% การจำได้เพิ่มขึ้นเป็น 90% โดยแลกกับผลบวกเท็จ 2% ซึ่งเป็นการแลกเปลี่ยนที่เหมาะสมกว่าสำหรับเวิร์กโฟลว์การตรวจสอบความไวสูง
คำตัดสินระดับเอกสารบนเครื่องมือสาธารณะของเราใช้เกณฑ์ 50% แบบอนุรักษ์นิยม โดยให้ความสำคัญกับผลบวกเท็จเป็นศูนย์มากกว่าการจำได้สูงสุด ครู สำนักพิมพ์ และนักวิจัยสามารถแทนที่ได้ผ่านแถบเลื่อนความไวในวิดเจ็ตเมื่อต้องการการตั้งค่าสถานะที่แอคทีฟมากขึ้น
สำหรับการเปรียบเทียบ ส่วนประกอบ Binoculars แบบ zero-shot เพียงอย่างเดียว (การตั้งค่า Llama-3.1-8B 2×) ได้คะแนน AUC [AUC: 0.8509] แบบเดี่ยว ส่วนประกอบ ModernBERT ที่ผ่านการปรับแต่งเพียงอย่างเดียวได้คะแนน [AUC: 1.0000] บนเรียงความในการกระจาย และ [AUC: 0.9069] บนข้อความนอกการกระจาย การรวมกลุ่มอยู่ระหว่างกันบนแกนเดียว แต่มีประสิทธิภาพดีกว่าทั้งสองโดยเฉลี่ยเพราะแก้ไขจุดอ่อนที่เสริมกันได้
นี่คือตาราง AUC-ROC แยกตามโมเดล โมเดลเรียงลำดับจากตรวจจับได้ง่ายที่สุดไปยากที่สุดในชุดตรวจสอบของเรา [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
โมเดล OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. อื่นๆ: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
รูปแบบหลัก: โมเดลที่ใหม่กว่า ขนาดใหญ่กว่า และผ่านการปรับแต่งตามคำสั่งมักผลิตข้อความที่ดูเหมือนมนุษย์มากขึ้นสำหรับเครื่องตรวจจับทางสถิติใดๆ รวมถึงของเรา Claude 4.5 Sonnet และ GPT-5.x เป็นสองตระกูลที่การกระจายคะแนนของเราทับซ้อนกับข้อมูลพื้นฐานมนุษย์มากที่สุด ซึ่งตรงกับการศึกษาอิสระทุกชิ้นที่เผยแพร่ในปี 2025 การแข่งขันเป็นเรื่องจริงและขนาดโมเดลเป็นอุปสรรคโดยตรงต่อการตรวจจับ
ข้อความไม่ใช่ทุกประเภทที่ตรวจจับได้เท่ากัน เราแจกแจงผลลัพธ์ตามประเภทเรียงความ ซึ่งก็คือแต่ละหมวดหมู่คำสั่ง PERSUADE และช่องว่างระหว่างดีที่สุดและแย่ที่สุดมีความกว้างมาก [PER-TYPE TABLE]
เรียงความเชิงโต้แย้ง เชิงโน้มน้าว และเชิงอธิบาย: โดเมนที่แข็งแกร่งที่สุดของเครื่องตรวจจับ AUC มักอยู่ที่ 0.97–1.00 เนื่องจากคลังข้อมูลการฝึกให้น้ำหนักกับรูปแบบเหล่านี้มาก นี่คือที่ที่กรณีการใช้งานส่วนใหญ่ด้านความซื่อสัตย์ทางวิชาการอยู่
การเขียนเชิงสร้างสรรค์และการวิเคราะห์วรรณกรรม: โดเมนที่อ่อนแอที่สุดของเรา สำหรับ literary_analysis AUC ลดลงเหลือ 0.69 รูปแบบมนุษย์ในนิยายมาบรรจบกับผลลัพธ์ LLM และทั้งส่วนประกอบที่ควบคุมดูแลและ zero-shot ของเราไม่สามารถแยกแยะได้อย่างน่าเชื่อถือ ปฏิบัติต่อคะแนน AI สูงในงานนิยายด้วยความสงสัย
วางเอกสารใดก็ได้และดูคำตัดสินแยกตามประโยคและเกณฑ์การตัดสินใจเดียวกันที่เราใช้สำหรับตัวเลขเกณฑ์มาตรฐานเหล่านี้ ฟรี ไม่ต้องสมัครสมาชิก
ข้อความสามประเภทหลบหนีเครื่องตรวจจับของเราบ่อยกว่าที่ชุดตรวจสอบแนะนำ ข้อความ AI ที่ถูกทำให้เป็นมนุษย์ ซึ่งเป็นผลลัพธ์ที่ผ่านเครื่องมือถอดความหรือถ่ายโอนรูปแบบแบบปฏิปักษ์ มักได้คะแนนว่าเป็นมนุษย์แม้ว่าข้อความพื้นฐานจะถูกสร้างขึ้นทั้งหมด ข้อความสั้น (น้อยกว่า 100 คำ) ยากต่อการจำแนกทั้งหมดเพราะมีสัญญาณทางสถิติไม่เพียงพอ การเขียนภาษาอังกฤษของผู้ที่ไม่ใช่เจ้าของภาษา อาจได้คะแนนว่า AI สร้าง เนื่องจาก LLM และผู้เรียน ESL มีความชอบทางคำศัพท์และวากยสัมพันธ์บางอย่างที่เหมือนกัน
เครื่องตรวจจับของเราเป็นแบบน่าจะเป็น ไม่ใช่หลักฐาน คะแนน AI สูงเป็นสัญญาณให้สอบสวนเพิ่มเติม ไม่ใช่หลักฐานการประพฤติผิด เราแนะนำอย่างยิ่งให้จับคู่คะแนนกับบริบท: ประวัติการแก้ไขล่าสุด ร่างเวอร์ชัน ตัวอย่างการเขียนจากผู้เขียนคนเดียวกัน และเมื่อได้รับอนุญาต การสนทนาติดตามสั้นๆ กับผู้เขียน
เราฝึกใหม่อย่างต่อเนื่องบนผลลัพธ์โมเดลล่าสุด แต่มีความล่าช้าเสมอ: โมเดลที่เปิดตัวสัปดาห์ที่แล้วอาจไม่ได้รับการแสดงในข้อมูลการฝึกอย่างเพียงพอ หากเวิร์กโฟลว์ของคุณขึ้นอยู่กับการจับโมเดลล่าสุด ให้ตรวจสอบหน้าเกณฑ์มาตรฐานของเราทุกไตรมาสสำหรับตัวเลขที่อัปเดต
เราเผยแพร่ผลการตรวจสอบดิบเพื่อให้นักวิจัย นักข่าว และนักการศึกษาสามารถตรวจสอบข้อเรียกร้องของเราได้อย่างอิสระ CSV ประกอบด้วย: ID ตัวอย่าง ตัวระบุโมเดล (หรือ ‘human’) ป้ายกำกับประเภทเรียงความ ผลลัพธ์ความน่าจะเป็นดิบ คำตัดสินไบนารีที่เกณฑ์ 50% คำตัดสินไบนารีที่เกณฑ์ 26.56%
ดาวน์โหลด: ai-detector-benchmark-2026-04.csv (อัปเดตทุกไตรมาส) การใช้งานเชิงวิชาการไม่มีข้อจำกัด การเผยแพร่ซ้ำเชิงพาณิชย์ต้องระบุแหล่งที่มา: “Plagiarism Detector — AI Detection Benchmark 2026-04”
สำหรับเวอร์ชันโต้ตอบของวิธีการเดียวกันบนข้อความของคุณเอง ลองใช้เครื่องมือตรวจสอบ AI & การลอกเลียนของเรา วางเอกสารใดก็ได้และดูคำตัดสินแยกตามประโยค เกณฑ์การตัดสินใจเดียวกัน และช่วงความเชื่อมั่นเดียวกันที่เราใช้สำหรับตัวเลขที่เผยแพร่เหล่านี้
ผลเกณฑ์มาตรฐานมาจากชุดตรวจสอบภายในของเราและอาจไม่ครอบคลุมข้อความนอกการกระจาย ตัวเลขที่เผยแพร่แสดงถึงประสิทธิภาพเฉลี่ยใน 1,000 ตัวอย่าง เอกสารของคุณอาจได้คะแนนแตกต่างกัน ใช้ผลการตรวจจับ AI เป็นข้อมูลหนึ่งในหลายอย่าง ไม่ใช่หลักฐานเดียวของการประพันธ์