นำทางไปด้านบน
บ้าน การตรวจจับข้อความ AI ยากแค่ไหน: การแข่งขันโจมตี-ป้องกัน | เครื่องตรวจจับการลอกเลียน

การตรวจจับข้อความ AI ยากแค่ไหน: ภายในการแข่งขัน

การตรวจจับและการสร้างล็อคอยู่ในการแข่งขันแบบแมวไล่จับหนู การออกโมเดลใหม่แต่ละครั้งปิดช่องว่างทางสถิติที่เครื่องตรวจจับพึ่งพา และการปรับปรุงการตรวจจับแต่ละครั้งได้รับการตอบโต้ด้วยเครื่องมือทำให้เป็นมนุษย์ใหม่ นี่คือสิ่งที่เกิดขึ้นจริงภายใต้ฝากระโปรง

2026-04-17 · Plagiarism Detector Team

พื้นฐานทางสถิติของการตรวจจับ

เครื่องตรวจจับข้อความ AI ทุกตัวในที่สุดคือตัวแยกแยะทางสถิติ มันมองที่คุณลักษณะของข้อความ (ความน่าจะเป็นของโทเค็น ความงงงวย ความพุ่ง ความสม่ำเสมอของวากยสัมพันธ์) และพยายามหาสัญญาณที่แยกแยะเนื้อหาที่เครื่องสร้างจากเนื้อหาที่มนุษย์เขียน วิธี Binoculars (ICML 2024) ใช้อัตราส่วนของ cross-perplexity ระหว่างสองโมเดลภาษาเป็นสัญญาณ แนวทางการดูแล ModernBERT เรียนรู้สัญญาณโดยตรงจากตัวอย่างที่ติดป้ายกำกับ

ทั้งสองแนวทางมีช่องโหว่พื้นฐานร่วมกัน: สัญญาณที่พวกเขาพึ่งพาเป็นผลข้างเคียงของวิธีที่โมเดลสร้างข้อความ ไม่ใช่คุณลักษณะพื้นฐานของความเป็นข้อความที่เครื่องเขียน เมื่อโมเดลสร้างดีขึ้น ผลข้างเคียงเหล่านั้นก็หดตัวลง โมเดลที่ฝึกให้เขียนเหมือนมนุษย์มากขึ้นจะยากต่อการตรวจจับตามนิยาม

นี่ไม่ใช่ความล้มเหลวในการวิจัย มันเป็นข้อเท็จจริงเชิงโครงสร้างเกี่ยวกับปัญหา การตรวจจับทำงานบนเป้าหมายที่เคลื่อนที่: การออกโมเดล LLM ขนาดใหญ่ทุกครั้งทำให้ช่องว่างแคบลง เครื่องมือทำให้เป็นมนุษย์ทุกตัวฝึกอย่างชัดเจนต่อต้านผลลัพธ์ของเครื่องตรวจจับ คำถามไม่ใช่ ‘เราสามารถบรรลุการตรวจจับ 100% ตลอดไป’ ซึ่งทำไม่ได้ แต่ ‘เราสามารถนำหน้ารุ่นปัจจุบันได้นานพอที่จะเป็นประโยชน์ในทางปฏิบัติหรือไม่’

ดาบทำอะไร — การสร้างดีขึ้น

สามแนวโน้มการสร้างทำให้การตรวจจับยากขึ้น ขนาด: โมเดลขนาดใหญ่กว่าผลิตข้อความที่หลากหลายทางสถิติมากขึ้นเพราะมีการกระจายภายในที่หลากหลายกว่า โมเดลพารามิเตอร์ 70 พันล้านมีช่วงผลลัพธ์ที่เหมือนมนุษย์กว้างกว่าโมเดลพารามิเตอร์ 7 พันล้าน การปรับแต่งตามคำสั่ง: RLHF และวิธีการตามรัฐธรรมนูญสอนโมเดลให้หลีกเลี่ยงรูปแบบซ้ำซาก อ้อมค้อม และน่าเบื่อที่ทำให้ GPT-3 ตรวจจับได้ง่าย อุณหภูมิและการสุ่มตัวอย่าง: อินเทอร์เฟซแชทได้เปลี่ยนไปใช้การสุ่มตัวอย่างแบบนิวเคลียสและความสุ่ม ซึ่งทำลายรูปแบบความแปรปรวนต่ำบางรูปแบบที่เครื่องตรวจจับคลาสสิกใช้เป็นหลักยึด

GPT-5, Claude 4.5 และ Gemini 2.5 ล้วนตรวจจับได้ยากกว่ารุ่นก่อนอย่างเห็นได้ชัด การตรวจสอบภายในของเรายืนยัน: แต่ละรุ่นโมเดลทำให้ AUC ของเราในตระกูลนั้นลดลง 5–10 เปอร์เซ็นต์เมื่อเทียบกับรุ่นก่อน ดูที่เกณฑ์มาตรฐานความแม่นยำของเราสำหรับตัวเลขแยกตามโมเดล

เครื่องมือทำให้เป็นมนุษย์ — Undetectable AI, StealthWriter, Humanbeing และรายการที่เพิ่มขึ้น — คือปฏิปักษ์ที่ชัดเจน พวกมันรับผลลัพธ์ AI และถอดความ เขียนใหม่ หรือถ่ายโอนรูปแบบโดยเฉพาะเพื่อเอาชนะเครื่องตรวจจับ พวกมันฝึกต่อต้านเครื่องตรวจจับสาธารณะ (รวมถึงของเรา แม้ว่าเราจะไม่เคยแบ่งปันน้ำหนักโมเดล) และดีขึ้นอย่างเห็นได้ชัดในแต่ละการอัปเดต

โล่ทำอะไร — การตรวจจับตอบสนอง

เครื่องตรวจจับมีสามการตอบสนองต่อการแข่งขันอาวุธการสร้าง การรวมกลุ่ม: การรวมสัญญาณการตรวจจับหลายตัวเพื่อให้กลยุทธ์การหลบเลี่ยงเดียวใดก็ตามไม่เพียงพอ กลุ่มของเรา ได้แก่ Binoculars แบบ zero-shot กับ ModernBERT ที่ดูแล ใช้ประโยชน์จากสิ่งนี้: เครื่องมือทำให้เป็นมนุษย์ที่เอาชนะส่วนประกอบหนึ่งมักล้มเหลวต่ออีกส่วนประกอบ และคะแนนกลุ่มจับได้ทั้งสอง

การฝึกใหม่อย่างต่อเนื่อง: เราเพิ่มตัวอย่างจากการออกโมเดลหลักใหม่ทุกตัวภายใน 4 สัปดาห์หลังการเปิดตัว หาก GPT-6 ออกพรุ่งนี้ คลังข้อมูลการฝึกของเราจะรวมไว้ภายในกลางเดือนหน้า สิ่งนี้มีค่าใช้จ่ายสูง ไม่ว่าจะเป็นการคำนวณ การระบุป้ายกำกับ การตรวจสอบซ้ำ แต่มันเป็นวิธีเดียวที่จะทำให้การตรวจจับเป็นปัจจุบัน เครื่องตรวจจับที่ฝึกใหม่ทุกปีหรือน้อยกว่านั้นถือว่าเป็นสิ่งโบราณภายในหนึ่งปีอย่างแท้จริง

การฝึกแบบปฏิปักษ์: เราจงใจฝึกบนตัวอย่าง AI ที่ถูกทำให้เป็นมนุษย์และผลลัพธ์ที่ถอดความ สอนโมเดลให้มองเห็นผ่านการถ่ายโอนรูปแบบระดับพื้นผิว สิ่งนี้ยกระดับพื้นของสิ่งที่เครื่องมือทำให้เป็นมนุษย์ต้องทำเพื่อหลบเลี่ยงเรา ซึ่งในทางกลับกันทำให้การแข่งขันอาวุธช้าลง

ภายในภูมิทัศน์การหลบเลี่ยง

เครื่องมือทำให้เป็นมนุษย์ทำงานอย่างไรจริงๆ? สามประเภทหลัก การถอดความ: เขียนข้อความใหม่คำต่อคำหรือประโยคต่อประโยคโดยใช้ LLM รองได้ผลต่อเครื่องตรวจจับไร้เดียงสาที่พึ่งพาลำดับโทเค็นที่แน่นอน ได้ผลพอสมควรต่อวิธีทางสถิติ การถ่ายโอนรูปแบบ: แปลงข้อความเพื่อเลียนแบบผู้เขียนหรือการลงทะเบียนเฉพาะ ได้ผลมากกว่า AUC ของเครื่องตรวจจับลดลง ~8 จุดบนข้อความ AI ที่ถ่ายโอนรูปแบบ

การแก้ไขไฮบริดมนุษย์-AI: ผู้เขียนเขียนร่าง รันผ่าน LLM เพื่อขัดเกลา จากนั้นแก้ไขเวอร์ชันที่ขัดเกลาด้วยตนเอง นี่คือกรณีที่ยากที่สุด ซึ่งเป็นงานความร่วมมือที่ถูกต้องตามกฎหมายที่ผสมสัญญาณมนุษย์และเครื่องในระดับประโยค ไม่มีเครื่องตรวจจับใด รวมถึงของเรา ที่สามารถแก้ไขสิ่งเหล่านี้ได้อย่างน่าเชื่อถือโดยไม่มีข้อมูลเมตาประวัติการแก้ไขที่เครื่องตรวจจับไม่สามารถเห็นได้

แบบจำลองทางจิตที่มีประโยชน์: เครื่องมือทำให้เป็นมนุษย์ไม่ใช่ตัวทำลายเครื่องตรวจจับ มันคือตัวคูณต้นทุนสำหรับผู้หลบเลี่ยง มันใช้เวลา บางครั้งเงิน และเพิ่มความเสี่ยงในการนำข้อผิดพลาดเข้ามาเสมอ ความพยายามโกงทางวิชาการส่วนใหญ่ไม่ใช้เครื่องมือทำให้เป็นมนุษย์เพราะแรงเสียดทานมากกว่าผลประโยชน์ ที่ที่เครื่องมือทำให้เป็นมนุษย์ครอบงำคือการผลิตเนื้อหามืออาชีพและสแปม SEO ที่ AI สร้าง ซึ่งเป็นกรณีการใช้งานที่ปริมาณงานสำคัญและการควบคุมคุณภาพอ่อนแอ

ดูว่าเครื่องตรวจจับของเราให้คะแนนอะไรในตอนนี้

วางเอกสารใดก็ได้และดูคำตัดสินแยกตามประโยคในเวลาจริง ตรรกะกลุ่มที่อธิบายข้างต้นทำงานบนข้อความของคุณในเวลาน้อยกว่า 30 วินาที

ทำไมการรวมกลุ่มสำคัญกว่าตัวชี้วัดเดียวใดก็ตาม

เครื่องตรวจจับสัญญาณเดียวมีรูปแบบความล้มเหลวเดียว หากคุณพึ่งพาเพียง perplexity ผลลัพธ์ที่ถอดความด้วยความน่าจะเป็นโทเค็นที่เปลี่ยนแปลงจะเอาชนะคุณ หากคุณพึ่งพาเพียงตัวแยกแยะที่ดูแล ข้อความนอกการกระจาย (ตระกูลโมเดลใหม่ โดเมนการเขียนใหม่) จะเอาชนะคุณ การรวมกลุ่มเฉลี่ยจุดอ่อน: การถอดความที่เอาชนะ perplexity อาจยังกระตุ้นหัวที่ดูแล และในทางกลับกัน

เครื่องตรวจจับในการผลิตของเราถูกรวมกลุ่มอย่างชัดเจน: Binoculars 35% (zero-shot แบบไม่ขึ้นกับโมเดล แข็งแกร่งต่อการกระจายนอก) + ModernBERT 65% (ดูแล เฉพาะโดเมน ความแม่นยำสูงบนข้อความในการกระจาย) น้ำหนักถูกเลือกโดยเชิงประจักษ์ AUC กลุ่มถูกขยายสูงสุดเมื่อ ModernBERT ครอบงำแต่ Binoculars ยังคงอำนาจยับยั้งบนกรณีขอบเขต

ผลที่ตามมา: เครื่องมือทำให้เป็นมนุษย์ตอนนี้ต้องเอาชนะสถาปัตยกรรมการตรวจจับที่แตกต่างกันอย่างมากสองตัวพร้อมกันเพื่อหลบเลี่ยงคำตัดสินของเรา เครื่องมือทำให้เป็นมนุษย์สาธารณะมักถูกฝึกต่อต้านเครื่องตรวจจับเป้าหมายเดียว ซึ่งหมายความว่ามักประสบความสำเร็จต่อเครื่องตรวจจับเฉพาะนั้นแต่ล้มเหลวต่อกลุ่ม นี่คือข้อได้เปรียบเชิงโครงสร้างหลักของการตรวจจับในการแข่งขันอาวุธปัจจุบัน

ความคาดหวังที่เป็นจริงสำหรับ 12 เดือนข้างหน้า

เราควรคาดหวังอะไรในปี 2026–2027? GPT-6 และ Claude 5 น่าจะเป็นการออกช่วงกลางปี ทั้งคู่จะทำให้ช่องว่างแคบลงต่อไป โมเดลน้ำหนักเปิด — Llama 4, Qwen 4 — จะยังคงทำให้การสร้างคุณภาพสูงเป็นสินค้าโภคภัณฑ์และทำให้เครื่องมือทำให้เป็นมนุษย์ราคาถูกกว่าในการรันในระดับใหญ่ AUC การตรวจจับบนโมเดลชั้นนำน่าจะลดลงสู่ช่วง 0.80–0.90 ในปีแรกหลังการออกก่อนที่การฝึกใหม่จะแก้ไข

ในด้านการป้องกัน: สัญญาณหลายโหมด (พลวัตการพิมพ์ ประวัติการแก้ไข การตรวจสอบการประพันธ์กับคลังที่ทราบ) น่าจะมีความสำคัญมากกว่าการตรวจจับแบบข้อความบริสุทธิ์ภายใน 24 เดือน เครื่องตรวจจับข้อความเท่านั้นของเราจะยังคงเป็นตัวกรองแรกแต่จะเพิ่มขึ้นเรื่อยๆ ในฐานะสมาชิกผู้ลงคะแนนในกองหลักฐานที่สมบูรณ์กว่า

บทสรุปที่ตรงไปตรงมา: การตรวจจับข้อความบริสุทธิ์จะไม่มีวันถึง 100% มันจะคงที่ที่ประมาณ 90–95% AUC บนข้อความในการกระจายและ 75–85% บนโมเดลชั้นนำ หากเวิร์กโฟลว์ของคุณต้องการความแน่นอน คุณต้องการหลักฐานนอกเหนือจากคะแนน หากเวิร์กโฟลว์ของคุณต้องการสัญญาณแข็งแกร่งเพื่อจัดลำดับความสำคัญการตรวจสอบของมนุษย์ การตรวจจับข้อความยังคงมีประโยชน์และดีกว่าการไม่ทำอะไรอย่างวัดได้

คำถามที่พบบ่อย

หากการตรวจจับ AI จะไม่สมบูรณ์แบบ มันคุ้มค่าที่จะใช้เลยไหม?
ใช่ คำถามไม่ใช่ ‘มันสมบูรณ์แบบไหม’ แต่ ‘มันดีกว่าการไม่ตรวจกรองเลยไหม’ เครื่องตรวจจับ AUC 90% บนภาระงานของคุณคือการปรับปรุงอัตราส่วนสัญญาณต่อสัญญาณรบกวนอย่างมหาศาล คนที่พูดดังที่สุดเกี่ยวกับข้อจำกัดของเครื่องตรวจจับมักเป็นผู้ที่พยายามเอาชนะพวกเขา ซึ่งนั่นไม่ใช่ข้อโต้แย้งสำหรับการละทิ้งเครื่องมือ
การใส่ลายน้ำสามารถแทนที่การตรวจจับทางสถิติได้ไหม?
การใส่ลายน้ำฝังลายเซ็นทางสถิติที่ซ่อนอยู่ในข้อความที่สร้างซึ่งเครื่องตรวจจับสามารถดึงออกมาในภายหลัง มันทำงานได้เมื่อโมเดลสร้างให้ความร่วมมือ (OpenAI ได้นำไปใช้งานในเชิงทดลอง) แต่ล้มเหลวโดยสมบูรณ์บนโมเดลน้ำหนักเปิดที่สร้างโดยไม่มีลายน้ำ การตรวจจับทางสถิติจะยังคงจำเป็นสำหรับอนาคตที่คาดการณ์ได้เพราะมันทำงานได้แม้เมื่อโมเดลสร้างปฏิเสธที่จะให้ความร่วมมือ
สิ่งที่ยากที่สุดในการตรวจจับในปัจจุบันคืออะไร?
การแก้ไขไฮบริดมนุษย์-AI ซึ่งเป็นข้อความที่ AI ร่างและมนุษย์ขัดเกลาในระดับประโยค ไม่มีเครื่องตรวจจับในปัจจุบันที่แก้ไขสิ่งเหล่านี้ได้อย่างน่าเชื่อถือโดยไม่มีการเข้าถึงข้อมูลเมตาประวัติการแก้ไข หากนั่นคือกรณีการใช้งานของคุณ การตรวจจับแบบข้อความคือเครื่องมือที่ผิด คุณต้องการเครื่องมือวัดเวิร์กโฟลว์
โมเดลใหม่ลด AUC ของคุณบ่อยแค่ไหนจริงๆ?
ทุกการออกหลักประมาณทุก 3–6 เดือน ลด AUC บนตระกูลนั้น 5–10 เปอร์เซ็นต์จนกว่าเราจะฝึกใหม่ การฝึกใหม่ใช้เวลาประมาณ 4 สัปดาห์หลังจากที่เรามีตัวอย่างเพียงพอ ผลลัพธ์จริง: มีช่องเวลา 2–8 สัปดาห์เสมอหลังการออกใหม่ที่ AUC ของเราบนตระกูลนั้นต่ำกว่าค่าเฉลี่ย เราเปิดเผยช่องว่างเหล่านี้บนหน้าเกณฑ์มาตรฐาน
การรวมกลุ่มช่วยต่อต้านเครื่องมือทำให้เป็นมนุษย์ไหม?
อย่างมีนัยสำคัญ มันคือการป้องกันเชิงโครงสร้างหลักที่เรามี เครื่องมือทำให้เป็นมนุษย์ฝึกต่อต้านเครื่องตรวจจับเป้าหมาย เมื่อเป้าหมายนั้นคือกลุ่มของเครื่องตรวจจับที่แตกต่างกันทางสถาปัตยกรรมสองตัว เครื่องมือทำให้เป็นมนุษย์ต้องเอาชนะทั้งสองพร้อมกัน ซึ่งยากกว่าการเอาชนะแต่ละตัวอย่างมีความหมาย นี่คือเหตุผลที่เราใช้กลุ่มในการผลิตแม้ว่าส่วนประกอบเดียวจะถูกกว่าในการรัน

บทความนี้อธิบายคุณสมบัติเชิงโครงสร้างของการตรวจจับข้อความ AI ตัวเลขเฉพาะอ้างถึงการตรวจสอบภายในของเราและอาจไม่ครอบคลุม เราอัปเดตหน้านี้เมื่อการวิจัยใหม่และการออกโมเดลต้องการ