ก่อนที่การวิเคราะห์การลอกเลียนแบบจะเริ่มต้นได้ ซอฟต์แวร์ต้องดึงข้อความที่สะอาดและค้นหาได้จากเอกสารที่ส่งมา นี่เป็นปัญหาที่ซับซ้อนกว่าที่ดูเหมือน เพราะเอกสารมาในรูปแบบที่หลากหลาย แต่ละรูปแบบมีโครงสร้างภายในของตนเอง: DOCX ใช้ XML ที่บีบอัด PDF เข้ารหัสข้อความในหลายชั้น และไฟล์ที่เสียหายหรือถูกสแกนอาจไม่มีข้อความที่สกัดได้เลย
เครื่องตรวจจับการลอกเลียนแบบใช้ สถาปัตยกรรมการดึงข้อความ 5 ชั้นเพื่อเพิ่มความน่าเชื่อถือสูงสุด สำหรับไฟล์ DOCX ชั้นแรกแยกวิเคราะห์โครงสร้าง DocX XML ดั้งเดิมโดยตรง หากล้มเหลว (เนื่องจากความเสียหายหรือการรูปแบบที่ไม่มาตรฐาน) ชั้นที่สองและถัดไปจะดำเนินการสกัดผ่าน iFilter, OpenXML SDK, การสกัดไบนารี และในที่สุดสำหรับไฟล์ DOC รุ่นเก่าจะมีชั้นสำรองเพิ่มเติม
กระบวนการสกัดยังจัดการกับการทำให้การเข้ารหัสเป็นมาตรฐาน — การแปลงข้อความจากการเข้ารหัสอักขระต่างๆ (UTF-8, UTF-16, Windows-1252, ตัวแปร ISO-8859) ให้เป็นการแสดงภายในแบบรวม วิธีนี้ทำให้มั่นใจได้ว่าข้อความภาษาที่ไม่ใช่ละตินทั้งหมด รวมถึงอักขระพิเศษ ถูกแสดงอย่างถูกต้องก่อนการเปรียบเทียบ
เมื่อดึงข้อความที่สะอาดแล้ว เครื่องมือตรวจจับจะแบ่งออกเป็นหน่วยที่วิเคราะห์ได้ผ่านกระบวนการที่เรียกว่า การสร้างลายนิ้วมือข้อความ เอกสารถูกแบ่งออกเป็นลำดับที่ทับซ้อนกันของคำ (เรียกว่า n-gram) ซึ่งแต่ละลำดับสร้างลายนิ้วมือที่ไม่ซ้ำกัน n-gram เหล่านี้สามารถเปรียบเทียบกับแหล่งที่มาที่มีอยู่ได้อย่างมีประสิทธิภาพ โดยระบุการจับคู่แม้ในกรณีที่มีการเปลี่ยนแปลงบางอย่าง
อัลกอริทึมการสร้างลายนิ้วมือต้องสร้างสมดุลระหว่างความไวต่อการตรวจจับและประสิทธิภาพ n-gram สั้น (3-4 คำ) จับคู่ได้มากขึ้นแต่สร้างผลบวกเท็จมากเกินไปจากวลีทั่วไป n-gram ยาวกว่า (8-10 คำ) แม่นยำกว่า แต่อาจพลาดการเปลี่ยนแปลงเล็กน้อยที่นักลอกเลียนแบบใช้ เครื่องมือที่ซับซ้อนใช้ขนาด n-gram แบบปรับตัวตามเนื้อหาเอกสาร
เมื่อสร้างลายนิ้วมือเอกสารแล้ว เครื่องมือตรวจจับต้องเปรียบเทียบลายนิ้วมือเหล่านั้นกับเนื้อหาที่มีอยู่ทั่วอินเทอร์เน็ต เครื่องตรวจจับการลอกเลียนแบบใช้แนวทางที่โดดเด่น: แทนที่จะพึ่งพาฐานข้อมูลที่ครอบตัดเองเพียงอย่างเดียว มันส่งคำค้นหาไปยัง Google, Bing, Yahoo และ DuckDuckGo พร้อมกัน มอบการเข้าถึงเนื้อหาอินเดกซ์ที่กว้างที่สุดที่มีอยู่
กระบวนการค้นหาใช้การหมุนเวียนและการเลือกส่วนข้อความอย่างชาญฉลาดเพื่อส่งเป็นคำค้นหา ไม่ใช่ทุกลายนิ้วมือจะถูกค้นหา — เครื่องมือเลือกข้อความที่โดดเด่นที่สุดจากเอกสาร ข้ามวลีทั่วไปที่จะให้ผลลัพธ์คำค้นหาที่ไม่มีประโยชน์ เพื่อให้ API ของเครื่องมือค้นหามีประสิทธิภาพสูงสุด
เมื่อการค้นหาผ่านเครื่องมือค้นหาส่งคืน URL ที่อาจตรงกัน เครื่องมือตรวจจับจะเข้าสู่ขั้นตอน การดึงแหล่งที่มาและการเปรียบเทียบ แต่ละหน้าแหล่งที่มาที่เป็นไปได้จะถูกดึงข้อมูล เนื้อหาถูกดึงออกและทำให้เป็นมาตรฐาน จากนั้นนำไปเปรียบเทียบกับเอกสารที่ส่งมาโดยตรงเพื่อหาส่วนที่ตรงกัน
การเปรียบเทียบไม่จำกัดเพียงการจับคู่แบบตรงทั้งหมด เครื่องมือทำ การจับคู่แบบฟัซซีเพื่อระบุข้อความที่แต่ละคำถูกแทนที่ด้วยคำพ้องความหมาย ลำดับประโยคมีการเปลี่ยนแปลง หรือมีการแทรกหรือลบข้อความบางส่วน ระดับความซับซ้อนนี้ทำให้สามารถตรวจจับการถอดความที่หลีกเลี่ยงการจับคู่แบบตรงทั้งหมดแต่ยังคงแสดงถึงเนื้อหาที่ลอกเลียนมาได้
หลังจากดึงแหล่งที่มาทั้งหมดและเปรียบเทียบแล้ว เครื่องมือจะคำนวณ คะแนนความคล้ายคลึง — เปอร์เซ็นต์ที่แสดงว่าเนื้อหาที่ส่งมาตรงกับแหล่งที่มาภายนอกมากน้อยเพียงใด คะแนนนี้ไม่ใช่การตัดสินใจแบบไบนารี: ข้อความที่ตรงกันสูงไม่จำเป็นต้องหมายถึงการลอกเลียนแบบ เนื่องจากอาจรวมถึงคำพูดที่ระบุแหล่งที่มาและเนื้อหาที่อ้างอิงอย่างถูกต้อง
ระบบ การตรวจจับการอ้างอิงของเครื่องตรวจจับการลอกเลียนแบบจะระบุการอ้างอิง เครื่องหมายคำพูด และการอ้างถึงบรรณานุกรมในเอกสารโดยอัตโนมัติ และปฏิบัติต่อสิ่งเหล่านั้นแตกต่างจากการจับคู่ที่ไม่ได้อ้างอิง สิ่งนี้ป้องกันผลบวกเท็จที่จะระบุว่าทุกประโยคที่อ้างอิงอย่างถูกต้องเป็นการลอกเลียนแบบ
เมื่อข้อความที่สร้างโดย AI แพร่หลายมากขึ้น การตรวจจับการลอกเลียนแบบต้องจัดการกับเนื้อหาที่ไม่ได้คัดลอกมาจากแหล่งที่มีอยู่ใด แต่ก็ไม่ใช่งานต้นฉบับของมนุษย์เช่นกัน เครื่องตรวจจับการลอกเลียนแบบรวมโมดูลการตรวจจับ AI ที่วิเคราะห์คุณสมบัติทางสถิติของข้อความเพื่อประเมินว่ามีแนวโน้มมากน้อยเพียงใดที่จะถูกสร้างโดยโมเดลภาษาขนาดใหญ่
การเขียนของมนุษย์มักแสดงความแปรปรวนที่มากขึ้นในความยาวประโยค การเลือกคำที่คาดเดาได้น้อยกว่า และรูปแบบที่ไม่สม่ำเสมอของความซับซ้อน ในทางกลับกัน ข้อความที่สร้างโดย AI มักโน้มเอียงไปทางการแจกแจงทางสถิติที่ราบรื่นกว่า ซึ่งแสดงเป็นคะแนน perplexity ต่ำและ burstiness ต่ำในการวิเคราะห์
ผู้ใช้ที่ซับซ้อนพยายามเอาชนะการตรวจจับการลอกเลียนแบบด้วยเทคนิคทางเทคนิคต่างๆ เทคนิคการหลีกเลี่ยงที่พบบ่อยที่สุดคือ การแทนที่อักขระ Unicode — การแทนตัวอักษรละตินด้วยอักขระที่มีลักษณะเหมือนกันทุกประการจากสคริปต์ Unicode อื่นๆ ตัวอย่างเช่น ตัวอักษร Cyrillic หลายตัวมีลักษณะที่เหมือนกับตัวอักษรละตินทุกประการ แต่มีค่า Unicode ที่แตกต่างกัน
เครื่องตรวจจับการลอกเลียนแบบจัดการกับสิ่งนี้ด้วย Unicode Anti-Cheating Engine (UACE) ก่อนการเปรียบเทียบ UACE จะทำให้ข้อความทั้งหมดเป็นมาตรฐานโดยการแมปอักขระที่เทียบเท่ากันด้านภาพข้ามบล็อก Unicode กลับไปสู่ตัวแทนมาตรฐาน สิ่งนี้ทำให้การแทนที่อักขระแทบจะตรวจจับไม่ได้โดยสิ้นเชิง
นอกเหนือจากการแทนที่อักขระ UACE ยังตรวจจับวิธีการหลีกเลี่ยงอื่นๆ รวมถึงการแทรกอักขระ Unicode ที่มองไม่เห็น (zero-width spaces, zero-width joiners, soft hyphens) ระหว่างคำหรือตัวอักษร รวมถึงเทคนิคการซ่อนข้อความทางการจัดรูปแบบอื่นๆ ที่ออกแบบมาเพื่อเอาชนะเครื่องมือตรวจสอบพื้นฐาน
ดาวน์โหลดเดโมฟรีหรือซื้อใบอนุญาตเพื่อเริ่มตรวจสอบการลอกเลียนแบบและเนื้อหาที่สร้างโดย AI
จุดสูงสุดของกระบวนการตรวจจับคือ รายงานความเป็นต้นฉบับ — เอกสารโดยละเอียดที่นำเสนอการค้นพบทั้งหมดในรูปแบบที่จัดระเบียบและตรวจสอบได้ รายงานเน้นข้อความที่ตรงกัน เชื่อมโยงไปยังแหล่งที่มา แสดงเปอร์เซ็นต์ความคล้ายคลึง และรวมผลการตรวจจับเนื้อหา AI สำหรับทุกส่วนที่วิเคราะห์
สำหรับสถาบัน รายงานความเป็นต้นฉบับสามารถปรับแต่งด้วยโลโก้ขององค์กร มอบรูปแบบมาตรฐานระดับมืออาชีพสำหรับบันทึกความซื่อสัตย์ทางวิชาการ รายงานได้รับการออกแบบให้เป็นหลักฐานเพื่อสนับสนุนกระบวนการทางวินัย — แสดงแหล่งที่มา เปอร์เซ็นต์ความคล้ายคลึง และผลการตรวจจับที่ชัดเจน
ทางเลือกทางสถาปัตยกรรมพื้นฐานในการตรวจจับการลอกเลียนแบบคือว่าเอกสารถูกประมวลผลในเครื่องของผู้ใช้หรืออัปโหลดไปยังเซิร์ฟเวอร์คลาวด์ระยะไกล เครื่องตรวจสอบการลอกเลียนแบบบนคลาวด์ส่งเอกสารทั้งหมดของคุณไปยังเซิร์ฟเวอร์ของผู้ให้บริการ ซึ่งก่อให้เกิดความกังวลด้านความเป็นส่วนตัว โดยเฉพาะสำหรับงานวิจัยที่ยังไม่ได้ตีพิมพ์ บทความที่เป็นความลับ หรือเอกสารที่มีข้อมูลละเอียดอ่อน
เครื่องตรวจจับการลอกเลียนแบบทำงานบนเดสก์ท็อปทั้งหมด เอกสารถูกเปิด แยกวิเคราะห์ และวิเคราะห์ในเครื่อง — ข้อความทั้งหมดจะไม่ถูกส่งไปยังเซิร์ฟเวอร์ภายนอกใดๆ มีเพียงส่วนข้อความที่เลือกเท่านั้นที่ถูกส่งเป็นคำค้นหาไปยังเครื่องมือค้นหา — เหมือนกับที่คุณค้นหาวลีใน Google ด้วยตนเอง สิ่งนี้รับประกันว่าเอกสารของคุณยังคงเป็นความลับอย่างสมบูรณ์