導航至頂部
AI 偵測有多準確?22 款大型語言模型基準測試 | 抄襲偵測器

AI 偵測有多準確?我們對 22 款大型語言模型的基準測試

我們公布 AI 偵測器針對 22 款生成模型的真實準確率,包括 GPT-5、Claude 4、Gemini 2 和 Llama 3。提供逐模型數據表、誠實的局限性說明,以及可供研究人員下載的資料集。

2026-04-17 · Plagiarism Detector Team

為何我們公布準確率數據

大多數 AI 偵測工具只要求你信任一個不透明的單一分數。我們認為你有權看到證據。本頁面呈現我們內部驗證運行的完整結果——我們測試的每款生成模型、各模型的 AUC-ROC 分數、最困擾我們的文章類型,以及我們在生產環境中使用的判斷閾值。

這種透明程度在 AI 偵測領域實屬罕見。大多數競爭對手——抄襲檢查工具廠商、專業 AI 偵測服務、通用 SaaS 工具——要麼不公布任何準確率數據,要麼只公布單一精心挑選的數字。這種做法難以為繼:教育工作者、出版商和研究人員在依賴任何工具之前,都需要可重現的基準測試。

我們的數據來自用於訓練 ModernBERT 偵測器的校準語料庫中 1,000 樣本的驗證分割。驅動此基準測試的相同方法論,也運行在你透過我們工具提交的每份文件上。沒有任何數據是為了示範而保留的。

測試語料庫與方法論

驗證集包含從 1,200 樣本校準語料庫中抽取的 1,000 篇文章:600 篇人工撰寫文章(來自 PAN25 共享任務數據和 PERSUADE 議論文資料集)和 600 篇 AI 生成文章(由 22 款不同的大型語言模型在受控提示下產生)。80/20 訓練-驗證分割是固定且可重現的。

每個樣本均獨立評分,不使用任何可能洩漏真實標籤的元資料。偵測器返回 [0, 100] 範圍內的概率,表示樣本為 AI 生成的可能性。然後我們計算每個生成器和每種文章類型的接收者操作特徵曲線下面積(AUC-ROC)。

所有閾值、訓練超參數和原始概率輸出均有記錄。資料集本身可在本頁底部下載——CSV 格式,每行一個樣本,包含生成器身份、文章類型標籤、原始分數和最終二元判定。

主要結果

在完整的 1,000 樣本集上,我們的整合偵測器達到 AUC-ROC [AUC: 0.9884]。在我們生產環境使用的 50% 判斷閾值下:驗證集中人工文章的誤報率為 0,AI 文章的召回率為 60%。在 26.56% 的 F1 最優閾值下,召回率提升至 90%,代價是 2% 的誤報——這種權衡更適合高靈敏度篩查工作流程。

我們公共工具上的文件級判定使用保守的 50% 閾值,優先確保零誤報而非最大召回率。教師、出版商和研究人員可以在需要更積極標記時,透過小工具中的靈敏度滑桿覆蓋此設定。

作為比較,Binoculars 零樣本元件單獨(2× Llama-3.1-8B 設置)獨立評分為 AUC [AUC: 0.8509]。微調的 ModernBERT 元件單獨在分佈內文章上評分為 [AUC: 1.0000],在分佈外文本上為 [AUC: 0.9069]。整合模型在任何單一軸上都介於兩者之間,但平均而言優於兩者,因為它糾正了各自的互補弱點。

逐生成器分析

以下是逐模型 AUC-ROC 數據表。模型按在我們驗證集上從最易偵測到最難偵測排序。[PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI 模型:GPT-3.5 [AUC: ?]、GPT-4 [AUC: ?]、GPT-4 Turbo [AUC: ?]、GPT-4o [AUC: ?]、GPT-5.0 [AUC: ?]、GPT-5.3 [AUC: ?]、GPT-5.4 [AUC: ?]。Anthropic:Claude 3 Opus [AUC: ?]、Claude 3.5 Sonnet [AUC: ?]、Claude 4 Opus [AUC: ?]、Claude 4.5 Sonnet [AUC: ?]。Google:Gemini 1.5 Pro [AUC: ?]、Gemini 2.0 [AUC: ?]、Gemini 2.5 [AUC: ?]。Meta:Llama 3.1 [AUC: ?]、Llama 3.3 [AUC: ?]。其他:Qwen 2.5 [AUC: ?]、Qwen 3 [AUC: ?]、DeepSeek R1 [AUC: ?]、Mistral Large [AUC: ?]、o3-mini [AUC: ?]。

主要規律:較新、較大、經過指令微調的模型傾向於生成對任何統計偵測器(包括我們的)看起來更像人工撰寫的文本。Claude 4.5 Sonnet 和 GPT-5.x 是我們的分數分佈與人工基準線重疊最多的兩個模型族。這與 2025 年發表的每項獨立研究結果一致——軍備競賽是真實存在的,模型規模是偵測工作的直接阻力。

偵測器的困難之處

並非所有文本都同樣可偵測。我們按文章類型——每個 PERSUADE 提示類別——細分結果,最佳和最差之間的差距很大。[PER-TYPE TABLE]

議論文、說服性文章和說明文:偵測器最強的領域。AUC 通常為 0.97–1.00,因為訓練語料庫對這些風格有過高權重。大多數學術誠信使用案例屬於此類。

創意寫作和文學分析:我們最薄弱的領域。文學分析的 AUC 下降至 0.69——小說中的人類風格與大型語言模型輸出趨於一致,我們的監督式和零樣本元件都無法可靠地區分它們。對虛構作品中的高 AI 分數請持審慎態度。

在你自己的文本上試用偵測器

貼上任意文件,查看我們用於這些基準數字的相同逐句判定和決策閾值。免費,無需註冊。

局限性與失效模式

有三類文本比我們的驗證集所示更頻繁地逃脫偵測。人工化 AI 文本——經過對抗性改寫或風格遷移工具處理的輸出——即使底層文本完全由 AI 生成,也常被判定為人工撰寫。短文本(不足 100 字)由於統計信號不足而難以分類。非英語母語者寫作可能被判定為 AI 生成,因為大型語言模型和英語學習者在某些詞彙和句法偏好上存在共性。

我們的偵測器是概率性的,而非證據性的。高 AI 分數是進一步調查的信號,而非不當行為的證明。我們強烈建議將分數與背景結合:近期編輯記錄、版本草稿、同一作者的寫作樣本,以及——在許可的情況下——與作者的簡短後續對話。

我們持續針對最新的生成器輸出進行再訓練,但始終存在滯後:上周發布的模型可能在訓練數據中代表性不足。如果你的工作流程依賴於捕捉最新模型,請每季度重新查看我們的基準頁面以獲取更新數據。

下載完整資料集

我們公布原始驗證結果,以便研究人員、記者和教育工作者獨立驗證我們的聲明。CSV 包含:樣本 ID、生成器身份(或「human」)、文章類型標籤、原始概率輸出、50% 閾值下的二元判定、26.56% 閾值下的二元判定。

下載:ai-detector-benchmark-2026-04.csv(每季更新)。學術用途不受限制;商業再發布需註明出處:“Plagiarism Detector — AI Detection Benchmark 2026-04”。

如需對你自己的文本使用相同方法論的互動版本,請試用我們的 AI & 抄襲檢查工具——貼上任意文件,即可看到逐句判定、相同的決策閾值,以及我們用於這些已發布數字的相同置信區間。

常見問題

此基準測試多久更新一次?
每季一次。當重要生成模型(GPT-6、Claude 5、Gemini 3)發布時,我們會在 4 週內將其加入測試語料庫並重新發布更新表格。歷史版本以帶日期的文件名存檔——2026-04 版本是目前的穩定版本。
為何不公布逐樣本概率輸出?
我們確實公布了——可下載的 CSV 包含原始概率。我們不公布的是原始文章文本,因為 PAN25 語料庫和 PERSUADE 資料集有再分發限制。如果你需要文本,請直接從其來源提取這些資料集(連結在 CSV 文件說明中)。
如果 AUC 低於 1.0,我能信任偵測器嗎?
沒有偵測器能在所有生成模型上達到 AUC 1.0,所以問題不是「它是否完美」,而是「它是否透明」。一個公布 AUC 0.95 並告知你其不足之處的偵測器,比一個宣稱「業界領先準確率」卻沒有數字的偵測器更值得信賴。我們的 AUC [AUC: 0.9884] 是誠實的平均表現;逐生成器和逐文章類型的細分才是你做出購買決策的依據。
你們的 AI 偵測器達到學術發表標準了嗎?
底層方法論達到了——Binoculars(ICML 2024)和 ModernBERT 都是經過同行評審的架構。我們特定的微調語料庫和閾值是專有的,但基準測試方法論完全可重現。
免費線上工具與桌面產品相比如何?
引擎相同、準確率數字相同、逐句判定邏輯相同。桌面產品增加了無限文件長度、離線掃描、針對 40 億網頁的整合抄襲匹配,以及整個資料夾的批次處理。一次性檢查使用線上工具即可;日常工作流程則桌面版是正確選擇。

基準測試結果源自我們的內部驗證集,可能無法推廣到分佈外文本。已發布數字代表 1,000 個樣本的平均表現;你的文件可能得到不同分數。請將 AI 偵測結果作為多項輸入之一,而非著作權歸屬的唯一證據。