在任何抄襲分析開始之前,軟體必須從提交的文件中擷取乾淨、可搜尋的文字。這是一個比表面看起來更複雜的問題,因為文件以多種格式提交——DOC、DOCX、PDF、RTF、PPT、PPTX、TXT、ODT和HTML等——每種格式都有其自身的格式化、元資料、嵌入物件和編碼的內部結構。可靠的文字擷取管線必須一致地處理所有這些格式,生成適合比較的規範化純文字。
抄襲偵測器使用五層文字擷取架構以最大化可靠性。對於DOCX檔案,第一層直接解析原生DocX XML結構。如果失敗(由於損壞或非標準格式),系統會降級到Microsoft的iFilter介面,然後是原始OpenXML解析,最後是Apache Tika作為最後手段的通用擷取器。這種級聯方法意味著即使是損壞或非標準的文件也能產生可用的文字。同樣的多層原則適用於所有12種以上的支援格式,確保沒有任何文件無法處理。
擷取過程還處理編碼規範化——將各種字元編碼(UTF-8、UTF-16、Windows-1252、ISO-8859變體)的文字轉換為統一的內部表示。這是至關重要的,因為編碼不匹配可能導致相同的文字在位元組層級看起來不同,從而導致遺漏抄襲比對。適當的擷取為每個後續偵測階段奠定基礎。
一旦擷取乾淨的文字,偵測引擎通過稱為文字指紋識別的過程將其分解為可分析的單元。文件被分割成重疊的詞語序列(n元組),每個序列被轉換為緊湊的數值雜湊值——即指紋。這些指紋作為高效識別符,可以快速與其他來源的指紋進行比較,而無需每次都執行昂貴的全文比較。
指紋識別演算法必須在靈敏度和效率之間取得平衡。短n元組(3-4個詞)能捕捉更多比對,但對常見片語會產生過多誤報。較長的n元組(8-10個詞)更為具體,但在幾個詞已被更改時可能遺漏抄襲。進階系統使用可變長度指紋識別與精選演算法相結合,選擇具代表性的指紋子集,在保持偵測準確性的同時,將任何大小文件的比較空間保持在可管理的範圍內。
完成文件指紋識別後,偵測引擎必須將這些指紋與網際網路上的現有內容進行比較。抄襲偵測器採取了一種獨特的方法:不依賴單一的專有資料庫,而是同時查詢四個主要搜尋引擎——Google、Bing、Yahoo和DuckDuckGo——存取其超過40億個網頁的綜合索引。這種多引擎策略大幅提高了來源覆蓋範圍,因為每個搜尋引擎索引了不同部分的網路,並以不同方式對結果進行排名。
查詢過程使用智能的文字片段選擇和輪換,作為搜尋查詢提交。並非每個指紋都被查詢——引擎從文件中選擇最具特色的段落,那些最可能返回有意義比對而非通用片語的內容。查詢排程管理速率限制,並在各引擎之間分配請求,以保持吞吐量。結果是對公開可用的網際網路內容進行了全面掃描,任何單一引擎方法都無法複製,覆蓋學術庫、新聞檔案、內容農場、論文機構和一般網頁。
當搜尋引擎查詢返回潛在比對的URL時,偵測引擎進入來源擷取與比較階段。每個候選來源頁面被取回,其內容被擷取和規範化(剝離HTML標籤、導覽元素、頁首和頁尾,以隔離實際文章文字),然後與提交的文件進行對齊。這種對齊使用序列比對演算法,識別兩個文字之間最長的公共子序列,考慮標點符號、空白和格式中的細微差異。
比較不限於精確比對。引擎執行模糊比對,以識別個別詞語已被同義詞替換、句子順序已被重排或連接詞語已被添加或刪除的段落。這能捕捉最常見的規避技巧:保留原始含義和結構的表面改寫。每個比對的段落都記錄了其來源URL、重疊百分比以及相對應的具體文字片段,為原創性報告建立原始資料。
在所有來源被擷取和比較後,引擎計算相似性評分——一個百分比,代表提交文件中有多少內容與外部來源相符。這個計算比簡單的比例更為精細。引擎區分不同類型的比對:精確複製、近似比對(改述的段落)、已適當引用的材料,以及不表示抄襲的常見片語或樣板文字。
抄襲偵測器的參考文獻偵測系統自動識別文件中的引用、引文和書目參考,並以不同方式處理它們,而非視為未歸因的比對。一段用引號括起來並附有引用的文字被標記為合法引用,而非抄襲。這防止了相似性評分虛高,否則對使用適當來源的嚴謹論文造成不公平。最終評分反映了真正的原創性問題,為審閱者提供有意義且可操作的指標。
隨著AI生成文字越來越普遍,抄襲偵測必須解決不是從任何現有來源複製的內容,但它仍然不是原創的人類作品。抄襲偵測器包含靈敏度為0.98的整合AI內容偵測模組,能夠識別ChatGPT、Gemini和HuggingChat等大型語言模型生成的文字。偵測透過分析文字的統計屬性——詞頻分佈、句子層面困惑度、爆發性模式和詞元概率序列——這些屬性在人類和機器寫作之間系統性地不同。
人類寫作傾向於在句子長度上表現出更大的變異性、更不可預測的詞語選擇,以及不規則的複雜性模式。相比之下,AI生成的文字傾向於具有更均勻句子結構的統計上可能的詞語序列,以及其概率分佈中特有的「平滑性」。偵測模型在人類和AI文字的大型語料庫上訓練,並在段落層面運作以提供精確的結果。這種分析與傳統抄襲偵測在單次掃描中並行進行,因此審閱者無需單獨的工具或工作流程,就能收到涵蓋複製內容和AI生成段落的統一報告。
複雜的用戶試圖通過各種技術手段挫敗抄襲偵測。最常見的規避技術是Unicode字元替換——用其他Unicode文字中視覺上相同的字元替換拉丁字元。例如,西里爾字母「a」(U+0430)在螢幕上看起來與拉丁字母「a」(U+0061)相同,但它們在代碼點層面是不同的字元。樸素的文字比較會將用西里爾字母「a」拼寫的「academic」視為完全不同的詞語,導致抄襲的段落完全逃脫偵測。
抄襲偵測器通過其Unicode反作弊引擎(UACE)解決了這個問題。在比較之前,UACE透過將Unicode區塊——西里爾文、希臘文、亞美尼亞文和其他包含相似字元的文字——中視覺上等效的字元映射回其拉丁文等效字元,來規範化所有文字。引擎維護了一個涵蓋數百個字元對的全面替換表。這種規範化在文字擷取階段透明地進行,因此每個後續的偵測階段都在乾淨、規範的文字上運行,無論對來源文件應用了什麼字元技巧。
除了字元替換之外,UACE還偵測其他規避方法,包括在詞語或字母之間插入不可見的Unicode字元(零寬空格、零寬連接符、軟連字號)、文件中的白底白字,以及用於分解可識別片語的微小字體文字。這些技術在原創性報告中被標記為故意操縱行為,提醒審閱者作者積極嘗試規避偵測——這本身就是意圖抄襲的有力證據。
下載免費試用版或購買授權,立即開始檢查抄襲與AI生成內容。
偵測過程的高潮是原創性報告——一份詳細文件,以有組織、可審閱的格式呈現所有發現。報告在提交的文字中以顏色標記比對的段落,每個比對均與其對應的URL或資料庫條目相連結。摘要部分顯示整體相似性評分、比對來源數量、偵測到的AI生成內容百分比,以及比對類型的分類(精確、改述、引用)。
對於機構而言,原創性報告可以冠以組織的標誌,提供適合學術誠信記錄的專業、標準化格式。報告設計為具有證據品質——適合在正式審查程序、學術誠信聽證會或法律情境中使用。報告中的每個聲明都可以獨立驗證:審閱者可以點擊連結到原始來源,用自己的眼睛確認比對結果。這種透明度確保抄襲發現是可辯護的且公平的,既保護了審查過程的完整性,也保護了被評估作品人員的權利。
抄襲偵測的一個基本架構選擇是文件是在用戶的本機上本地處理,還是上傳到遠端雲端伺服器。基於雲端的抄襲偵測工具要求用戶將文件上傳到提供商的伺服器,在那裡文字被擷取、分析,通常還會儲存在資料庫中。這引發了重大的隱私和保密性問題——特別是對於敏感的學術研究、未發表的手稿、法律文件和企業材料。上傳到雲端服務的文件可能被保留、索引,甚至用於訓練AI模型,資料洩露可能暴露機密內容。
抄襲偵測器完全在桌面上運行。文件在本地開啟、解析和分析——完整的文字從不傳輸到任何外部伺服器。只有選定的文字片段(搜尋查詢)被發送到搜尋引擎進行比較,方式與人工在瀏覽器中手動搜尋片語完全相同。這種架構提供了基本的隱私保證:完整文件從不離開用戶的機器。對於處理敏感材料的機構——法律事務所檢查訴狀、醫學研究人員審查論文、政府機構審計報告——這種桌面優先的方法不僅僅是偏好,而是合規要求。結合一次性購買模式(無循環訂閱),它提供了隱私和成本可預測性。