並非所有 AI 文本都同樣可偵測。以下是我們逐生成器基準測試的結果——我們的偵測器能以接近完美的準確率捕捉哪些模型族,哪些讓我們感到吃力,以及這對選擇偵測工作流程意味著什麼。
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
按在我們驗證集上從最易偵測到最難偵測排序。差距很大——某些模型族的 AUC 超過 0.99,而其他模型則降至 0.80 多。偵測難度與模型規模、指令微調複雜程度和輸出方差相關。
有關完整逐生成器分析方法論,請參見我們的準確率基準頁面。本文總結了這些數據對選擇信任哪個偵測器、使用哪個模型的用戶的實際影響。
GPT-3.5 是最容易偵測的現代模型——在我們的集合上 AUC [AUC: ?]。傳統的生成假象(重複、過度謹慎、平淡的語域)仍然清晰可見。GPT-4 降至 AUC [AUC: ?],GPT-4o 降至 [AUC: ?],反映出逐漸改善的校準。GPT-5.x 是該模型族中最難偵測的——AUC [AUC: ?]——因為指令微調團隊明確針對去除偵測假象。
實際影響:關注 GPT-3.5 時代作弊的學術工作流程可以高度依賴偵測。關注 GPT-5 的工作流程需要將偵測與背景證據結合,如我們的教師工作流程指南所述。
溫度設定很重要。低溫輸出(t≤0.5)更容易偵測,因為它們將概率質量集中在較窄的詞彙表上。大多數聊天介面預設 t≈0.7,使文本處於中等可偵測區域。對抗性用戶會明確提高溫度或使用多樣化解碼來擴大範圍以規避偵測——我們的整合部分糾正了這一點,但並非完全。
Claude 3 Opus:AUC [AUC: ?]。Claude 3.5 Sonnet:[AUC: ?]。Claude 4 Opus:[AUC: ?]。Claude 4.5 Sonnet:[AUC: ?]。Claude 模型族始終比同世代的 GPT 模型產生更少重複性、更多風格多樣性的文本,這使得通過統計方法更難偵測。
Claude 的憲法 AI 訓練特別針對我們監督式分類器學習的「機器特徵」——過度謹慎的模式、特定連接詞的過度使用、可預測的段落結構。這是直接的對抗關係:生成器被訓練來對抗偵測器所依賴的特徵。
Claude 4.5 Sonnet 和 GPT-5.x 的難度相近。它們的分數分佈在我們的驗證數據中與人工基準線的重疊最多。如果你的工作流程針對這兩個模型中的任一個,請期待在預設閾值下召回率降低,並考慮降至 F1 最優以進行高靈敏度篩查。
Gemini 1.5 Pro:AUC [AUC: ?]。Gemini 2.0:[AUC: ?]。Gemini 2.5:[AUC: ?]。Gemini 在各版本之間的偵測表現最為多變——一些中間版本在改進落地之前暫時出現了倒退。
Gemini 的多模態訓練意味著純文本輸出有時帶有來自圖像描述或程式碼解釋領域的殘留模式。我們的偵測器能識別這些模式,這解釋了為什麼 Gemini 在混合領域提示上比純散文上有稍高的可偵測性。
對於學生或員工通過 Docs 使用 Gemini 的 Google Workspace 用戶,偵測信號與原始 API 輸出相似。我們沒有觀察到與直接 Gemini API 使用不同的工作空間整合特定規避模式。
貼上任何大型語言模型的輸出,查看逐句判定。我們的偵測器將所有 22 個模型族作為單一整合進行檢查。
Llama 3.1:AUC [AUC: ?]。Llama 3.3:[AUC: ?]。Qwen 2.5:[AUC: ?]。Qwen 3:[AUC: ?]。DeepSeek R1:[AUC: ?]。Mistral Large:[AUC: ?]。開放權重模型的範圍比封閉模型更廣——微調變體、量化部署和社群修改的檢查點都會產生細微不同的輸出。
對開放權重的偵測在策略上很重要,因為人工化工具通常建立在開放權重模型上——Llama 和 Mistral 的衍生品在本地以低成本運行,這就是改寫和風格遷移服務能以低價格提供的原因。如果你擔心的是人工化 AI,你最終是在防禦 Llama 模型族的生成。
DeepSeek R1 和 o3-mini(OpenAI 推理模型)值得單獨提及。兩者都產生帶有推理鏈假象的文本——輸出中可見的明確逐步邏輯——我們的偵測器已學會識別這些。出於這個原因,推理模型目前比它們的基礎聊天版本更容易偵測。
如果你在選擇用於寫作的模型且不擔心偵測,Claude 4.5 Sonnet 和 GPT-5 是最難被偵測的。如果你在建立偵測工作流程,請優先針對你實際見到的模型:大多數學術不當行為仍通過免費介面在 GPT-4/5 上運行;大多數內容農場在 Llama 衍生人工化工具上運行。
針對單一模型族訓練的單一偵測器在其他模型上表現最差。我們的整合方法在所有 22 款生成器的樣本上進行訓練,這就是為什麼在困難案例(Claude 4.5、GPT-5)上的逐模型 AUC 仍高於 0.90,而任何單模型訓練的偵測器都會降至 0.80 以下。
基本趨勢:偵測難度的上升速度快於生成模型的發布節奏。每款新旗艦比前一款更難偵測,再訓練縮小差距但不能完全彌合。預計 2026–2027 年的基準線對前沿模型的 AUC 更低,對舊有模型大致不變。
逐模型 AUC 數字源自我們的內部驗證,可能無法推廣。隨著生成器和我們的訓練語料庫不斷演進,每個模型的難度也會隨時間變化。當前數據反映 2026-04 基準測試運行的結果。