Trước khi bất kỳ phân tích đạo văn nào có thể bắt đầu, phần mềm phải trích xuất văn bản có thể tìm kiếm sạch từ tài liệu đã nộp. Đây là vấn đề phức tạp hơn vẻ ngoài, vì tài liệu đến với nhiều định dạng khác nhau — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT và HTML, cùng nhiều định dạng khác — mỗi định dạng có cấu trúc nội bộ riêng về định dạng, siêu dữ liệu, đối tượng nhúng và mã hóa. Một quy trình trích xuất văn bản đáng tin cậy phải xử lý tất cả các định dạng này một cách nhất quán, tạo ra văn bản thuần túy được chuẩn hóa phù hợp để so sánh.
Máy phát hiện đạo văn sử dụng kiến trúc trích xuất văn bản 5 tầng để tối đa hóa độ tin cậy. Đối với tệp DOCX, tầng đầu tiên phân tích trực tiếp cấu trúc XML DocX gốc. Nếu thất bại (do hỏng hoặc định dạng không chuẩn), hệ thống chuyển sang giao diện iFilter của Microsoft, sau đó là phân tích OpenXML thô, và cuối cùng là Apache Tika như một công cụ trích xuất đa năng cuối cùng. Cách tiếp cận bậc thang này có nghĩa là ngay cả các tài liệu bị hỏng hoặc không chuẩn cũng tạo ra văn bản có thể sử dụng được. Nguyên tắc đa tầng tương tự áp dụng cho tất cả 12+ định dạng được hỗ trợ, đảm bảo không có tài liệu nào bị bỏ qua.
Quá trình trích xuất cũng xử lý chuẩn hóa mã hóa — chuyển đổi văn bản từ các mã hóa ký tự khác nhau (UTF-8, UTF-16, Windows-1252, các biến thể ISO-8859) thành một biểu diễn nội bộ thống nhất. Điều này rất quan trọng vì sự không khớp mã hóa có thể khiến văn bản giống hệt nhau trông khác nhau ở cấp độ byte, dẫn đến bỏ sót các kết quả khớp đạo văn. Trích xuất đúng đắn đặt nền tảng cho mọi giai đoạn phát hiện tiếp theo.
Sau khi văn bản sạch được trích xuất, công cụ phát hiện chia nhỏ nó thành các đơn vị có thể phân tích thông qua một quá trình gọi là nhận dạng vân tay văn bản. Tài liệu được phân đoạn thành các chuỗi từ chồng nhau (n-gram), và mỗi chuỗi được chuyển đổi thành một mã băm số nhỏ gọn — một vân tay. Các vân tay này phục vụ như các định danh hiệu quả có thể được so sánh nhanh chóng với vân tay từ các nguồn khác mà không cần thực hiện các so sánh toàn văn bản tốn kém mỗi lần.
Thuật toán nhận dạng vân tay phải cân bằng độ nhạy với hiệu quả. N-gram ngắn (3-4 từ) phát hiện nhiều kết quả khớp hơn nhưng tạo ra quá nhiều kết quả dương tính giả từ các cụm từ phổ biến. N-gram dài hơn (8-10 từ) cụ thể hơn nhưng có thể bỏ sót đạo văn khi một vài từ đã thay đổi. Các hệ thống nâng cao sử dụng nhận dạng vân tay độ dài biến đổi kết hợp với các thuật toán winnowing chọn một tập con đại diện của các vân tay, duy trì độ chính xác phát hiện trong khi giữ không gian so sánh có thể quản lý được cho các tài liệu ở bất kỳ kích thước nào.
Với tài liệu đã được nhận dạng vân tay, công cụ phát hiện phải so sánh các vân tay đó với nội dung hiện có trên Internet. Máy phát hiện đạo văn có cách tiếp cận độc đáo: thay vì dựa vào một cơ sở dữ liệu độc quyền duy nhất, nó truy vấn bốn công cụ tìm kiếm lớn đồng thời — Google, Bing, Yahoo và DuckDuckGo — truy cập chỉ mục kết hợp của hơn 4 tỷ trang web. Chiến lược đa công cụ này tăng đáng kể phạm vi bao phủ nguồn, vì mỗi công cụ tìm kiếm lập chỉ mục các phần khác nhau của web và xếp hạng kết quả khác nhau.
Quá trình truy vấn sử dụng xoay vòng thông minh và lựa chọn các đoạn văn bản để gửi làm truy vấn tìm kiếm. Không phải mỗi vân tay đều được truy vấn — công cụ chọn các đoạn đặc trưng nhất từ tài liệu, những đoạn có khả năng trả về kết quả khớp có ý nghĩa hơn là các cụm từ chung. Lên lịch truy vấn quản lý giới hạn tốc độ và phân phối yêu cầu qua các công cụ để duy trì thông lượng. Kết quả là một cuộc quét toàn diện về nội dung Internet có thể truy cập công khai mà không có cách tiếp cận đơn công cụ nào có thể sao chép được, bao gồm các kho học thuật, lưu trữ tin tức, trang trại nội dung, xưởng bài luận và các trang web thông thường.
Khi các truy vấn công cụ tìm kiếm trả về các URL có thể khớp, công cụ phát hiện bước vào giai đoạn truy xuất và so sánh nguồn. Mỗi trang nguồn ứng viên được tải về, nội dung của nó được trích xuất và chuẩn hóa (loại bỏ thẻ HTML, phần điều hướng, tiêu đề và chân trang để cô lập văn bản bài viết thực tế), sau đó được căn chỉnh với tài liệu đã nộp. Việc căn chỉnh này sử dụng các thuật toán khớp chuỗi xác định các chuỗi con chung dài nhất giữa hai văn bản, tính đến các biến thể nhỏ về dấu câu, khoảng trắng và định dạng.
So sánh không chỉ giới hạn ở các kết quả khớp chính xác. Công cụ thực hiện khớp mờ để xác định các đoạn mà từng từ đã được thay thế bằng từ đồng nghĩa, thứ tự câu đã được sắp xếp lại, hoặc các cụm từ kết nối đã được thêm hoặc xóa. Điều này phát hiện kỹ thuật né tránh phổ biến nhất: viết lại bề mặt bảo tồn ý nghĩa và cấu trúc gốc. Mỗi đoạn khớp được ghi lại với URL nguồn, tỷ lệ chồng lặp và các đoạn văn bản cụ thể tương ứng, xây dựng dữ liệu thô cho báo cáo tính nguyên bản.
Sau khi tất cả nguồn đã được truy xuất và so sánh, công cụ tính toán điểm tương đồng — một tỷ lệ phần trăm đại diện cho bao nhiêu tài liệu đã nộp khớp với nguồn bên ngoài. Phép tính này tinh tế hơn một tỷ lệ đơn giản. Công cụ phân biệt giữa các loại khớp khác nhau: bản sao chính xác, gần khớp (đoạn diễn giải), tài liệu được trích dẫn và ghi nguồn đúng cách, và các cụm từ phổ biến hoặc văn bản mẫu không chỉ ra đạo văn.
Hệ thống phát hiện tài liệu tham khảo của Máy phát hiện đạo văn tự động xác định các trích dẫn, trích dẫn và tài liệu tham khảo thư mục trong tài liệu và xử lý chúng khác với các kết quả khớp không ghi nguồn. Một khối văn bản được đặt trong dấu ngoặc kép và tiếp theo là trích dẫn được đánh dấu là tài liệu tham khảo hợp lệ, không phải đạo văn. Điều này ngăn điểm tương đồng bị thổi phồng không cần thiết gây bất lợi cho các bài nghiên cứu tốt vì việc sử dụng nguồn đúng cách. Điểm cuối cùng phản ánh các mối quan tâm tính nguyên bản thực sự, mang lại cho người đánh giá một số liệu có ý nghĩa và có thể hành động.
Khi văn bản do AI tạo ra trở nên phổ biến hơn, phát hiện đạo văn phải xử lý nội dung không được sao chép từ bất kỳ nguồn hiện có nào nhưng vẫn không phải là tác phẩm gốc của con người. Máy phát hiện đạo văn bao gồm mô-đun phát hiện nội dung AI tích hợp với độ nhạy 0,98, có khả năng xác định văn bản được tạo ra bởi các mô hình ngôn ngữ lớn bao gồm ChatGPT, Gemini và HuggingChat. Phát hiện hoạt động bằng cách phân tích các thuộc tính thống kê của văn bản — phân phối tần suất từ, độ phức tạp cấp câu, các mẫu bùng nổ và chuỗi xác suất token — khác nhau một cách có hệ thống giữa viết của con người và máy móc.
Viết của con người có xu hướng thể hiện sự biến đổi lớn hơn về độ dài câu, lựa chọn từ ngữ khó đoán hơn và các mẫu độ phức tạp bất thường. Văn bản do AI tạo ra, ngược lại, hướng tới các chuỗi từ có xác suất thống kê với cấu trúc câu đồng đều hơn và sự "trơn tru" đặc trưng trong phân phối xác suất. Mô hình phát hiện được đào tạo trên các kho ngữ liệu lớn của cả văn bản con người và AI, và hoạt động ở cấp đoạn để cung cấp kết quả chi tiết. Phân tích này chạy song song với phát hiện đạo văn truyền thống trong một lần quét duy nhất, vì vậy người đánh giá nhận được báo cáo thống nhất bao gồm cả nội dung sao chép và các đoạn do AI tạo ra mà không cần các công cụ hay quy trình riêng biệt.
Những người dùng tinh vi cố gắng đánh bại phát hiện đạo văn thông qua các thủ thuật kỹ thuật khác nhau. Kỹ thuật né tránh phổ biến nhất là thay thế ký tự Unicode — thay thế các ký tự Latin bằng các ký tự trông giống hệt từ các bảng chữ cái Unicode khác. Ví dụ, chữ "a" Cyrillic (U+0430) trông giống hệt chữ "a" Latin (U+0061) trên màn hình, nhưng chúng là các ký tự khác nhau ở cấp độ điểm mã. Một so sánh văn bản đơn giản sẽ coi "academic" được viết bằng chữ "a" Cyrillic là một từ hoàn toàn khác, khiến đoạn đạo văn hoàn toàn né tránh phát hiện.
Máy phát hiện đạo văn giải quyết vấn đề này với Unicode Anti-Cheating Engine (UACE). Trước khi so sánh, UACE chuẩn hóa tất cả văn bản bằng cách ánh xạ các ký tự tương đương về mặt thị giác trên các khối Unicode — Cyrillic, Greek, Armenian và các bảng chữ cái khác chứa các ký tự trông giống — về tương đương Latin của chúng. Công cụ duy trì một bảng thay thế toàn diện bao gồm hàng trăm cặp ký tự. Việc chuẩn hóa này xảy ra minh bạch trong giai đoạn trích xuất văn bản, vì vậy mỗi giai đoạn phát hiện tiếp theo hoạt động trên văn bản sạch, chuẩn bất kể các thủ thuật ký tự nào được áp dụng cho tài liệu nguồn.
Ngoài thay thế ký tự, UACE cũng phát hiện các phương pháp né tránh khác bao gồm chèn các ký tự Unicode vô hình (không gian không chiều rộng, bộ nối không chiều rộng, dấu gạch nối mềm) giữa các từ hoặc chữ cái, văn bản màu trắng trên nền trắng ẩn trong tài liệu, và văn bản cỡ chữ siêu nhỏ được chèn để phá vỡ các cụm từ có thể nhận ra. Các kỹ thuật này được đánh dấu trong báo cáo tính nguyên bản như các nỗ lực thao túng cố ý, cảnh báo người đánh giá rằng tác giả đã cố gắng vượt qua phát hiện — đây bản thân là bằng chứng mạnh mẽ về ý định đạo văn.
Tải bản dùng thử miễn phí hoặc mua giấy phép để bắt đầu kiểm tra đạo văn và nội dung do AI tạo ra.
Đỉnh điểm của quá trình phát hiện là Báo cáo tính nguyên bản — một tài liệu chi tiết trình bày tất cả các phát hiện theo định dạng có tổ chức, có thể xem lại. Báo cáo nêu bật các đoạn khớp trong văn bản đã nộp, được mã hóa màu theo nguồn, với mỗi kết quả khớp được liên kết đến URL hoặc mục nhập cơ sở dữ liệu tương ứng. Phần tóm tắt hiển thị điểm tương đồng tổng thể, số nguồn khớp, tỷ lệ phần trăm nội dung do AI tạo ra được phát hiện và phân tích các loại kết quả khớp (chính xác, diễn giải, được trích dẫn).
Đối với các cơ sở, Báo cáo tính nguyên bản có thể được đặt thương hiệu với logo của tổ chức, cung cấp định dạng chuyên nghiệp, chuẩn hóa cho hồ sơ liêm chính học thuật. Các báo cáo được thiết kế để ở cấp độ bằng chứng — phù hợp để sử dụng trong các thủ tục xem xét chính thức, phiên điều trần về liêm chính học thuật hoặc bối cảnh pháp lý. Mỗi tuyên bố trong báo cáo có thể được xác minh độc lập: người đánh giá có thể nhấp đến nguồn gốc để tự mình xác nhận kết quả khớp. Tính minh bạch này đảm bảo rằng các phát hiện đạo văn có thể bảo vệ được và công bằng, bảo vệ cả tính liêm chính của quá trình xem xét lẫn quyền của người có tác phẩm được đánh giá.
Một lựa chọn kiến trúc cơ bản trong phát hiện đạo văn là liệu tài liệu được xử lý cục bộ trên máy của người dùng hay được tải lên máy chủ đám mây từ xa. Công cụ kiểm tra đạo văn dựa trên đám mây yêu cầu người dùng tải lên tài liệu lên máy chủ của nhà cung cấp, nơi văn bản được trích xuất, phân tích và thường được lưu trữ trong cơ sở dữ liệu. Điều này đặt ra các mối quan tâm đáng kể về quyền riêng tư và bảo mật — đặc biệt đối với nghiên cứu học thuật nhạy cảm, bản thảo chưa xuất bản, tài liệu pháp lý và tài liệu doanh nghiệp. Tài liệu được tải lên các dịch vụ đám mây có thể được lưu giữ, lập chỉ mục hoặc được sử dụng để đào tạo các mô hình AI, và vi phạm dữ liệu có thể tiết lộ nội dung bí mật.
Máy phát hiện đạo văn hoạt động hoàn toàn trên máy tính để bàn. Tài liệu được mở, phân tích và xử lý cục bộ — toàn bộ văn bản không bao giờ được truyền đến bất kỳ máy chủ bên ngoài nào. Chỉ có các đoạn văn bản được chọn (truy vấn tìm kiếm) được gửi đến các công cụ tìm kiếm để so sánh, giống như cách một người sẽ tìm kiếm thủ công một cụm từ trong trình duyệt. Kiến trúc này cung cấp một đảm bảo quyền riêng tư cơ bản: tài liệu hoàn chỉnh không bao giờ rời khỏi máy của người dùng. Đối với các cơ sở xử lý tài liệu nhạy cảm — văn phòng luật kiểm tra hồ sơ, nhà nghiên cứu y tế xem xét bài báo, cơ quan chính phủ kiểm toán báo cáo — cách tiếp cận ưu tiên máy tính để bàn này không chỉ là sở thích mà là yêu cầu tuân thủ. Kết hợp với mô hình mua một lần (không có đăng ký định kỳ), nó cung cấp cả quyền riêng tư lẫn khả năng dự đoán chi phí.