导航至顶部
AI 检测精准度如何?22 款大语言模型基准测试 | 抄袭检测

AI 检测精准度如何?我们对 22 款大语言模型的基准测试

我们公布了 AI 检测器在 22 款生成模型上的真实精准度,涵盖 GPT-5、Claude 4、Gemini 2 及 Llama 3。附逐模型数据表、诚实的局限性说明,以及供研究者下载的数据集。

2026-04-17 · Plagiarism Detector Team

我们为何公开精准度数据

大多数 AI 检测工具要求您信任一个不透明的单一分数。我们认为您理应看到证据。本页面分享了我们内部验证运行的完整结果——我们测试的每款生成模型、各模型的 AUC-ROC 分数、让我们最感棘手的作文类型,以及我们在生产环境中使用的决策阈值。

这种透明度在 AI 检测领域实属罕见。大多数竞争者——抄袭检测服务商、专业 AI 检测服务、通用 SaaS 工具——要么不发布精准度数据,要么只公布一个经过精心挑选的数字。这种做法难以为继:教育工作者、出版商和研究者在依赖任何工具之前,都需要可重复验证的基准测试数据。

我们的数据来自用于训练 ModernBERT 检测器的校准语料库中 1,000 个样本的验证集。驱动本基准测试的方法论,与您通过我们工具提交每份文档时所用的方法论完全相同。没有任何内容被保留用于演示。

测试语料库与方法论

验证集包含从 1,200 样本校准语料库中抽取的 1,000 篇作文:600 篇人工撰写的作文(来自 PAN25 共享任务数据和 PERSUADE 议论文数据集),以及 600 篇 AI 生成的作文(由 22 款不同的大型语言模型在受控提示下生成)。80/20 训练-验证划分为固定且可重复的。

每个样本均独立评分,不访问可能泄露真实标签的元数据。检测器返回 [0, 100] 区间内的概率值,代表该样本为 AI 生成的可能性。随后,我们按生成模型及作文类型分别计算接收者操作特征曲线下面积(AUC-ROC)。

所有阈值、训练超参数及原始概率输出均已记录。数据集本身可在本页底部下载——CSV 格式,每行一个样本,包含生成模型标识、作文类型标签、原始分数及最终二值判决。

核心结论

在完整的 1,000 样本集上,我们的集成检测器实现了 AUC-ROC [AUC: 0.9884]。在生产环境所用的 50% 决策阈值下:验证集中人工作文的误报率为 0,AI 作文的召回率为 60%。在 F1 最优阈值 26.56% 下,召回率提升至 90%,代价是 2% 的误报率——这一权衡更适合高灵敏度的筛查工作流。

我们公共工具的文档级判决采用保守的 50% 阈值,优先确保零误报,而非追求最大召回率。教师、出版商和研究者可在需要更积极标记时,通过小工具中的灵敏度滑块自行调整。

作为对比,仅 Binoculars 零样本组件(双 Llama-3.1-8B 架构)独立得分为 AUC [AUC: 0.8509]。经过微调的 ModernBERT 组件单独在分布内作文上得分 [AUC: 1.0000],在分布外文本上得分 [AUC: 0.9069]。集成模型在任意单一轴上介于两者之间,但因其纠正了两者互补的弱点,综合表现优于两者。

逐模型精准度细分

以下为逐模型 AUC-ROC 数据表,按验证集上从最易到最难检测的顺序排列。[PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI 模型:GPT-3.5 [AUC: ?]、GPT-4 [AUC: ?]、GPT-4 Turbo [AUC: ?]、GPT-4o [AUC: ?]、GPT-5.0 [AUC: ?]、GPT-5.3 [AUC: ?]、GPT-5.4 [AUC: ?]。Anthropic:Claude 3 Opus [AUC: ?]、Claude 3.5 Sonnet [AUC: ?]、Claude 4 Opus [AUC: ?]、Claude 4.5 Sonnet [AUC: ?]。Google:Gemini 1.5 Pro [AUC: ?]、Gemini 2.0 [AUC: ?]、Gemini 2.5 [AUC: ?]。Meta:Llama 3.1 [AUC: ?]、Llama 3.3 [AUC: ?]。其他:Qwen 2.5 [AUC: ?]、Qwen 3 [AUC: ?]、DeepSeek R1 [AUC: ?]、Mistral Large [AUC: ?]、o3-mini [AUC: ?]。

核心规律:更新、更大、经过指令微调的模型,往往能生成在统计上更接近人类的文本——包括对我们的检测器而言。Claude 4.5 Sonnet 和 GPT-5.x 是我们分数分布与人类基线重叠最多的两个模型家族。这与 2025 年发布的所有独立研究结论一致——检测与生成的军备竞赛是真实存在的,模型规模的增大直接加大了检测难度。

检测器的薄弱环节

并非所有文本的可检测性都相同。我们按作文类型(即 PERSUADE 每个提示类别)细分结果,最佳与最差之间的差距悬殊。[PER-TYPE TABLE]

议论文、劝说文和说明文:检测器最擅长的领域。AUC 通常在 0.97–1.00 之间,因为训练语料库对这些文体权重较高。这也是大多数学术诚信使用场景所属的类型。

创意写作和文学分析:我们最薄弱的领域。在 literary_analysis 类型上,AUC 降至 0.69——人类在虚构作品中的写作风格与大语言模型的输出趋于一致,我们的监督式和零样本组件均无法可靠区分。对虚构文本中较高的 AI 分数应持审慎态度。

在您自己的文本上试用检测器

粘贴任意文档,即可查看与本基准数据相同的逐句判决和决策阈值。免费,无需注册。

局限性与失效模式

有三类文本比我们验证集所示的频率更高地逃脱检测器。人工化的 AI 文本——经过对抗性改写或风格迁移工具处理的输出——即便底层文本完全由 AI 生成,也往往被评为人工撰写。短文本(不足 100 词)因统计信号不足,极难分类。非母语英语写作可能被识别为 AI 生成,因为大语言模型与 ESL 写作者在某些词汇和句法偏好上存在共性。

我们的检测器基于概率,而非证据性工具。AI 高分是进一步调查的信号,而非不端行为的证据。我们强烈建议将分数与上下文结合:近期编辑历史、版本草稿、同一作者的其他写作样本——以及在许可的情况下与作者进行简短的后续交流。

我们持续针对最新生成模型的输出进行再训练,但始终存在滞后期:上周发布的模型可能在训练数据中尚未得到充分体现。如果您的工作流程需要检测最新模型,请每季度重新查看我们的基准测试页面以获取更新数据。

下载完整数据集

我们发布原始验证结果,供研究者、记者和教育工作者独立核实我们的结论。CSV 文件包含:样本 ID、生成模型标识(或'human')、作文类型标签、原始概率输出、50% 阈值下的二值判决、26.56% 阈值下的二值判决。

下载:ai-detector-benchmark-2026-04.csv(每季度更新)。学术用途不受限制;商业转载须注明来源:“Plagiarism Detector — AI Detection Benchmark 2026-04”。

如需对您自己的文本使用同一方法论的交互版本,欢迎试用我们的AI & 抄袭检测器工具——粘贴任意文档,即可查看逐句判决、与本发布数据所用相同的决策阈值及置信区间。

常见问题

本基准测试多久更新一次?
每季度一次。当重要生成模型(GPT-6、Claude 5、Gemini 3)发布时,我们会在 4 周内将其加入测试语料库并重新发布更新后的数据表。历史版本以带日期的文件名存档——2026-04 版为当前稳定版本。
为何不发布逐样本概率输出?
我们确实发布了——可下载的 CSV 包含原始概率。我们未发布的是原始作文文本,因为 PAN25 语料库和 PERSUADE 数据集附有再发布限制。如需文本,请直接从其来源获取(链接见 CSV 文档)。
如果 AUC 低于 1.0,我还能信任检测器吗?
没有任何检测器能在所有生成模型上实现 AUC 1.0,因此问题不是「是否完美」,而是「是否透明」。一个公布 AUC 0.95 并说明薄弱环节的检测器,比一个仅声称「行业领先精准度」却不给出数字的检测器更值得信赖。我们的 AUC [AUC: 0.9884] 是诚实的平均表现;逐模型和逐作文类型的细分数据,才是您做出选择的真正依据。
你们的 AI 检测器是否适合学术发表?
底层方法论是适合的——Binoculars(ICML 2024)和 ModernBERT 均为经过同行评审的架构。我们的具体微调语料库和阈值属于专有信息,但基准测试方法论完全可重复。
免费在线工具与桌面产品相比如何?
同一引擎、同一精准度数字、同一逐句判决逻辑。桌面产品额外提供无限文档长度、离线扫描、与 40 亿网页的集成抄袭匹配,以及整个文件夹的批量处理。一次性检查使用在线工具即可;日常工作流程则推荐桌面版。

基准测试结果源自我们的内部验证集,可能不适用于分布外文本。所发布数字代表 1,000 个样本的平均表现;您的文档得分可能有所不同。请将 AI 检测结果作为众多参考之一,而非判断作者身份的唯一证据。