并非所有 AI 文本都具有同等的可检测性。以下是我们逐模型基准测试的结果——我们的检测器对哪些模型家族能实现近乎完美的检出率,哪些模型让它举步维艰,以及这对您选择检测工作流程意味着什么。
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
按验证集上从最易到最难检测的顺序排列。差距相当悬殊——某些模型家族的 AUC 超过 0.99,而另一些则降至 0.80 区间。检测难度与模型规模、指令微调复杂度及输出方差正相关。
完整的逐模型细分方法论,请参见我们的精准度基准测试页面。本文总结了这些数据对于用户选择可信检测器和模型的实践意义。
GPT-3.5 是最容易检测的现代模型——在我们的验证集上 AUC [AUC: ?]。遗留的生成特征(重复、含糊、平淡的语域)仍然清晰可辨。GPT-4 降至 AUC [AUC: ?],GPT-4o 降至 [AUC: ?],反映出逐步改善的校准能力。GPT-5.x 是该家族中最难检测的——AUC [AUC: ?]——因为指令微调团队明确将去除检测特征作为优化目标。
实践意义:关注 GPT-3.5 时代作弊的学术工作流,可以主要依赖检测。关注 GPT-5 的工作流,则需要将检测与上下文证据相结合,详见我们的教师工作流指南。
温度设置很重要。低温输出(t≤0.5)更易检测,因为概率质量集中在较窄的词汇上。大多数聊天界面默认 t≈0.7,使文本处于中等可检测区间。对抗性用户会刻意调高温度或使用多样化解码来扩大范围以规避检测——我们的集成部分纠正了这一点,但并非完全。
Claude 3 Opus:AUC [AUC: ?]。Claude 3.5 Sonnet:[AUC: ?]。Claude 4 Opus:[AUC: ?]。Claude 4.5 Sonnet:[AUC: ?]。Claude 家族始终比同代 GPT 模型产生更少重复、风格更多样的文本,这使其更难通过统计方法检测。
Claude 的宪法 AI 训练专门针对我们监督分类器所学习的「机器特征」——含糊模式、特定连接词的过度使用、可预测的段落结构。这是一种直接的对抗关系:生成器正在针对检测器所依赖的特征进行训练。
Claude 4.5 Sonnet 和 GPT-5.x 的难度相近。在我们的验证数据中,它们的分数分布与人类基线的重叠最多。如果您的工作流程针对这两个模型之一,请预期在默认阈值下召回率会降低,并考虑针对高灵敏度筛查降至 F1 最优阈值。
Gemini 1.5 Pro:AUC [AUC: ?]。Gemini 2.0:[AUC: ?]。Gemini 2.5:[AUC: ?]。Gemini 在不同版本间的检测表现最为波动——某些中间版本在改进落地前曾出现短暂回退。
Gemini 的多模态训练意味着纯文本输出有时携带来自图像说明或代码解释领域的残留模式。我们的检测器能捕捉到这些模式,这解释了为何 Gemini 在混合领域提示上的可检测性略高于纯散文。
对于学生或员工通过 Google Docs 中的 Gemini 使用该模型的 Google Workspace 用户,检测信号与原始 API 输出相似。我们尚未观察到区别于直接 Gemini API 使用的工作区集成特定规避模式。
粘贴任意大语言模型的输出,查看逐句判决。我们的检测器将所有 22 款模型家族作为单一集成进行检测。
Llama 3.1:AUC [AUC: ?]。Llama 3.3:[AUC: ?]。Qwen 2.5:[AUC: ?]。Qwen 3:[AUC: ?]。DeepSeek R1:[AUC: ?]。Mistral Large:[AUC: ?]。开放权重模型的范围比闭源模型更广——微调变体、量化部署和社区修改的检查点,各自产生细微不同的输出。
对开放权重模型的检测具有战略重要性,因为人工化工具通常建立在开放权重模型之上——Llama 和 Mistral 衍生模型本地运行成本低廉,这正是改写和风格迁移服务能以每千词计价的原因。如果您担忧的是人工化的 AI 内容,您最终面对的是 Llama 家族生成的文本。
DeepSeek R1 和 o3-mini(OpenAI 推理模型)值得单独提及。两者都产生带有推理链特征的文本——输出中可见的逐步逻辑——我们的检测器已学会识别这些特征。推理模型目前比其基础对话版本更容易检测,原因正在于此。
如果您在用模型写作且不担心被检测,Claude 4.5 Sonnet 和 GPT-5 是最难被检测的。如果您在构建检测工作流,应优先针对您实际遇到的模型:大多数学术滥用仍通过免费界面运行在 GPT-4/5 上;大多数内容农场运行在 Llama 衍生的人工化工具上。
针对单一模型家族训练的单一检测器,在其他模型上表现最差。我们的集成方法在 22 款生成模型的所有样本上进行训练,这就是为什么在难检测的案例(Claude 4.5、GPT-5)上,逐模型 AUC 仍在 0.90 以上,而任何单模型训练的检测器都会降至 0.80 以下。
底层趋势:检测难度的上升速度快于模型发布节奏。每款新旗舰都比上一代更难检测,再训练能缩小差距但无法完全弥合。预期 2026-2027 年基线将是前沿模型 AUC 更低,旧版模型大致不变。
逐模型 AUC 数据源自我们的内部验证,可能不适用于所有情况。每款模型的检测难度随时间变化,因为生成器和我们的训练语料库都在演进。当前数据反映 2026-04 基准测试的结果。