我们公布了 AI 检测器在 22 款生成模型上的真实精准度,涵盖 GPT-5、Claude 4、Gemini 2 及 Llama 3。附逐模型数据表、诚实的局限性说明,以及供研究者下载的数据集。
大多数 AI 检测工具要求您信任一个不透明的单一分数。我们认为您理应看到证据。本页面分享了我们内部验证运行的完整结果——我们测试的每款生成模型、各模型的 AUC-ROC 分数、让我们最感棘手的作文类型,以及我们在生产环境中使用的决策阈值。
这种透明度在 AI 检测领域实属罕见。大多数竞争者——抄袭检测服务商、专业 AI 检测服务、通用 SaaS 工具——要么不发布精准度数据,要么只公布一个经过精心挑选的数字。这种做法难以为继:教育工作者、出版商和研究者在依赖任何工具之前,都需要可重复验证的基准测试数据。
我们的数据来自用于训练 ModernBERT 检测器的校准语料库中 1,000 个样本的验证集。驱动本基准测试的方法论,与您通过我们工具提交每份文档时所用的方法论完全相同。没有任何内容被保留用于演示。
验证集包含从 1,200 样本校准语料库中抽取的 1,000 篇作文:600 篇人工撰写的作文(来自 PAN25 共享任务数据和 PERSUADE 议论文数据集),以及 600 篇 AI 生成的作文(由 22 款不同的大型语言模型在受控提示下生成)。80/20 训练-验证划分为固定且可重复的。
每个样本均独立评分,不访问可能泄露真实标签的元数据。检测器返回 [0, 100] 区间内的概率值,代表该样本为 AI 生成的可能性。随后,我们按生成模型及作文类型分别计算接收者操作特征曲线下面积(AUC-ROC)。
所有阈值、训练超参数及原始概率输出均已记录。数据集本身可在本页底部下载——CSV 格式,每行一个样本,包含生成模型标识、作文类型标签、原始分数及最终二值判决。
在完整的 1,000 样本集上,我们的集成检测器实现了 AUC-ROC [AUC: 0.9884]。在生产环境所用的 50% 决策阈值下:验证集中人工作文的误报率为 0,AI 作文的召回率为 60%。在 F1 最优阈值 26.56% 下,召回率提升至 90%,代价是 2% 的误报率——这一权衡更适合高灵敏度的筛查工作流。
我们公共工具的文档级判决采用保守的 50% 阈值,优先确保零误报,而非追求最大召回率。教师、出版商和研究者可在需要更积极标记时,通过小工具中的灵敏度滑块自行调整。
作为对比,仅 Binoculars 零样本组件(双 Llama-3.1-8B 架构)独立得分为 AUC [AUC: 0.8509]。经过微调的 ModernBERT 组件单独在分布内作文上得分 [AUC: 1.0000],在分布外文本上得分 [AUC: 0.9069]。集成模型在任意单一轴上介于两者之间,但因其纠正了两者互补的弱点,综合表现优于两者。
以下为逐模型 AUC-ROC 数据表,按验证集上从最易到最难检测的顺序排列。[PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI 模型:GPT-3.5 [AUC: ?]、GPT-4 [AUC: ?]、GPT-4 Turbo [AUC: ?]、GPT-4o [AUC: ?]、GPT-5.0 [AUC: ?]、GPT-5.3 [AUC: ?]、GPT-5.4 [AUC: ?]。Anthropic:Claude 3 Opus [AUC: ?]、Claude 3.5 Sonnet [AUC: ?]、Claude 4 Opus [AUC: ?]、Claude 4.5 Sonnet [AUC: ?]。Google:Gemini 1.5 Pro [AUC: ?]、Gemini 2.0 [AUC: ?]、Gemini 2.5 [AUC: ?]。Meta:Llama 3.1 [AUC: ?]、Llama 3.3 [AUC: ?]。其他:Qwen 2.5 [AUC: ?]、Qwen 3 [AUC: ?]、DeepSeek R1 [AUC: ?]、Mistral Large [AUC: ?]、o3-mini [AUC: ?]。
核心规律:更新、更大、经过指令微调的模型,往往能生成在统计上更接近人类的文本——包括对我们的检测器而言。Claude 4.5 Sonnet 和 GPT-5.x 是我们分数分布与人类基线重叠最多的两个模型家族。这与 2025 年发布的所有独立研究结论一致——检测与生成的军备竞赛是真实存在的,模型规模的增大直接加大了检测难度。
并非所有文本的可检测性都相同。我们按作文类型(即 PERSUADE 每个提示类别)细分结果,最佳与最差之间的差距悬殊。[PER-TYPE TABLE]
议论文、劝说文和说明文:检测器最擅长的领域。AUC 通常在 0.97–1.00 之间,因为训练语料库对这些文体权重较高。这也是大多数学术诚信使用场景所属的类型。
创意写作和文学分析:我们最薄弱的领域。在 literary_analysis 类型上,AUC 降至 0.69——人类在虚构作品中的写作风格与大语言模型的输出趋于一致,我们的监督式和零样本组件均无法可靠区分。对虚构文本中较高的 AI 分数应持审慎态度。
粘贴任意文档,即可查看与本基准数据相同的逐句判决和决策阈值。免费,无需注册。
有三类文本比我们验证集所示的频率更高地逃脱检测器。人工化的 AI 文本——经过对抗性改写或风格迁移工具处理的输出——即便底层文本完全由 AI 生成,也往往被评为人工撰写。短文本(不足 100 词)因统计信号不足,极难分类。非母语英语写作可能被识别为 AI 生成,因为大语言模型与 ESL 写作者在某些词汇和句法偏好上存在共性。
我们的检测器基于概率,而非证据性工具。AI 高分是进一步调查的信号,而非不端行为的证据。我们强烈建议将分数与上下文结合:近期编辑历史、版本草稿、同一作者的其他写作样本——以及在许可的情况下与作者进行简短的后续交流。
我们持续针对最新生成模型的输出进行再训练,但始终存在滞后期:上周发布的模型可能在训练数据中尚未得到充分体现。如果您的工作流程需要检测最新模型,请每季度重新查看我们的基准测试页面以获取更新数据。
我们发布原始验证结果,供研究者、记者和教育工作者独立核实我们的结论。CSV 文件包含:样本 ID、生成模型标识(或'human')、作文类型标签、原始概率输出、50% 阈值下的二值判决、26.56% 阈值下的二值判决。
下载:ai-detector-benchmark-2026-04.csv(每季度更新)。学术用途不受限制;商业转载须注明来源:“Plagiarism Detector — AI Detection Benchmark 2026-04”。
如需对您自己的文本使用同一方法论的交互版本,欢迎试用我们的AI & 抄袭检测器工具——粘贴任意文档,即可查看逐句判决、与本发布数据所用相同的决策阈值及置信区间。
基准测试结果源自我们的内部验证集,可能不适用于分布外文本。所发布数字代表 1,000 个样本的平均表现;您的文档得分可能有所不同。请将 AI 检测结果作为众多参考之一,而非判断作者身份的唯一证据。