家 › AI 检测精准度如何？22 款大语言模型基准测试 | 抄袭检测

AI 检测精准度如何？我们对 22 款大语言模型的基准测试

我们公布了 AI 检测器在 22 款生成模型上的真实精准度，涵盖 GPT-5、Claude 4、Gemini 2 及 Llama 3。附逐模型数据表、诚实的局限性说明，以及供研究者下载的数据集。

2026-04-17 · Plagiarism Detector Team

我们为何公开精准度数据

大多数 AI 检测工具要求您信任一个不透明的单一分数。我们认为您理应看到证据。本页面分享了我们内部验证运行的完整结果——我们测试的每款生成模型、各模型的 AUC-ROC 分数、让我们最感棘手的作文类型，以及我们在生产环境中使用的决策阈值。

这种透明度在 AI 检测领域实属罕见。大多数竞争者——抄袭检测服务商、专业 AI 检测服务、通用 SaaS 工具——要么不发布精准度数据，要么只公布一个经过精心挑选的数字。这种做法难以为继：教育工作者、出版商和研究者在依赖任何工具之前，都需要可重复验证的基准测试数据。

我们的数据来自用于训练 ModernBERT 检测器的校准语料库中 1,000 个样本的验证集。驱动本基准测试的方法论，与您通过我们工具提交每份文档时所用的方法论完全相同。没有任何内容被保留用于演示。

测试语料库与方法论

验证集包含从 1,200 样本校准语料库中抽取的 1,000 篇作文：600 篇人工撰写的作文（来自 PAN25 共享任务数据和 PERSUADE 议论文数据集），以及 600 篇 AI 生成的作文（由 22 款不同的大型语言模型在受控提示下生成）。80/20 训练-验证划分为固定且可重复的。

每个样本均独立评分，不访问可能泄露真实标签的元数据。检测器返回 [0, 100] 区间内的概率值，代表该样本为 AI 生成的可能性。随后，我们按生成模型及作文类型分别计算接收者操作特征曲线下面积（AUC-ROC）。

所有阈值、训练超参数及原始概率输出均已记录。数据集本身可在本页底部下载——CSV 格式，每行一个样本，包含生成模型标识、作文类型标签、原始分数及最终二值判决。

核心结论

在完整的 1,000 样本集上，我们的集成检测器实现了 AUC-ROC [AUC: 0.9884]。在生产环境所用的 50% 决策阈值下：验证集中人工作文的误报率为 0，AI 作文的召回率为 60%。在 F1 最优阈值 26.56% 下，召回率提升至 90%，代价是 2% 的误报率——这一权衡更适合高灵敏度的筛查工作流。

我们公共工具的文档级判决采用保守的 50% 阈值，优先确保零误报，而非追求最大召回率。教师、出版商和研究者可在需要更积极标记时，通过小工具中的灵敏度滑块自行调整。

作为对比，仅 Binoculars 零样本组件（双 Llama-3.1-8B 架构）独立得分为 AUC [AUC: 0.8509]。经过微调的 ModernBERT 组件单独在分布内作文上得分 [AUC: 1.0000]，在分布外文本上得分 [AUC: 0.9069]。集成模型在任意单一轴上介于两者之间，但因其纠正了两者互补的弱点，综合表现优于两者。

逐模型精准度细分

以下为逐模型 AUC-ROC 数据表，按验证集上从最易到最难检测的顺序排列。[PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI 模型：GPT-3.5 [AUC: ?]、GPT-4 [AUC: ?]、GPT-4 Turbo [AUC: ?]、GPT-4o [AUC: ?]、GPT-5.0 [AUC: ?]、GPT-5.3 [AUC: ?]、GPT-5.4 [AUC: ?]。Anthropic：Claude 3 Opus [AUC: ?]、Claude 3.5 Sonnet [AUC: ?]、Claude 4 Opus [AUC: ?]、Claude 4.5 Sonnet [AUC: ?]。Google：Gemini 1.5 Pro [AUC: ?]、Gemini 2.0 [AUC: ?]、Gemini 2.5 [AUC: ?]。Meta：Llama 3.1 [AUC: ?]、Llama 3.3 [AUC: ?]。其他：Qwen 2.5 [AUC: ?]、Qwen 3 [AUC: ?]、DeepSeek R1 [AUC: ?]、Mistral Large [AUC: ?]、o3-mini [AUC: ?]。

核心规律：更新、更大、经过指令微调的模型，往往能生成在统计上更接近人类的文本——包括对我们的检测器而言。Claude 4.5 Sonnet 和 GPT-5.x 是我们分数分布与人类基线重叠最多的两个模型家族。这与 2025 年发布的所有独立研究结论一致——检测与生成的军备竞赛是真实存在的，模型规模的增大直接加大了检测难度。

检测器的薄弱环节

并非所有文本的可检测性都相同。我们按作文类型（即 PERSUADE 每个提示类别）细分结果，最佳与最差之间的差距悬殊。[PER-TYPE TABLE]

议论文、劝说文和说明文：检测器最擅长的领域。AUC 通常在 0.97–1.00 之间，因为训练语料库对这些文体权重较高。这也是大多数学术诚信使用场景所属的类型。

创意写作和文学分析：我们最薄弱的领域。在 literary_analysis 类型上，AUC 降至 0.69——人类在虚构作品中的写作风格与大语言模型的输出趋于一致，我们的监督式和零样本组件均无法可靠区分。对虚构文本中较高的 AI 分数应持审慎态度。

在您自己的文本上试用检测器

粘贴任意文档，即可查看与本基准数据相同的逐句判决和决策阈值。免费，无需注册。

局限性与失效模式

有三类文本比我们验证集所示的频率更高地逃脱检测器。人工化的 AI 文本——经过对抗性改写或风格迁移工具处理的输出——即便底层文本完全由 AI 生成，也往往被评为人工撰写。短文本（不足 100 词）因统计信号不足，极难分类。非母语英语写作可能被识别为 AI 生成，因为大语言模型与 ESL 写作者在某些词汇和句法偏好上存在共性。

我们的检测器基于概率，而非证据性工具。AI 高分是进一步调查的信号，而非不端行为的证据。我们强烈建议将分数与上下文结合：近期编辑历史、版本草稿、同一作者的其他写作样本——以及在许可的情况下与作者进行简短的后续交流。

我们持续针对最新生成模型的输出进行再训练，但始终存在滞后期：上周发布的模型可能在训练数据中尚未得到充分体现。如果您的工作流程需要检测最新模型，请每季度重新查看我们的基准测试页面以获取更新数据。

下载完整数据集

我们发布原始验证结果，供研究者、记者和教育工作者独立核实我们的结论。CSV 文件包含：样本 ID、生成模型标识（或'human'）、作文类型标签、原始概率输出、50% 阈值下的二值判决、26.56% 阈值下的二值判决。

下载：ai-detector-benchmark-2026-04.csv（每季度更新）。学术用途不受限制；商业转载须注明来源：“Plagiarism Detector — AI Detection Benchmark 2026-04”。

如需对您自己的文本使用同一方法论的交互版本，欢迎试用我们的AI & 抄袭检测器工具——粘贴任意文档，即可查看逐句判决、与本发布数据所用相同的决策阈值及置信区间。

常见问题

本基准测试多久更新一次？

每季度一次。当重要生成模型（GPT-6、Claude 5、Gemini 3）发布时，我们会在 4 周内将其加入测试语料库并重新发布更新后的数据表。历史版本以带日期的文件名存档——2026-04 版为当前稳定版本。

为何不发布逐样本概率输出？

我们确实发布了——可下载的 CSV 包含原始概率。我们未发布的是原始作文文本，因为 PAN25 语料库和 PERSUADE 数据集附有再发布限制。如需文本，请直接从其来源获取（链接见 CSV 文档）。

如果 AUC 低于 1.0，我还能信任检测器吗？

没有任何检测器能在所有生成模型上实现 AUC 1.0，因此问题不是「是否完美」，而是「是否透明」。一个公布 AUC 0.95 并说明薄弱环节的检测器，比一个仅声称「行业领先精准度」却不给出数字的检测器更值得信赖。我们的 AUC [AUC: 0.9884] 是诚实的平均表现；逐模型和逐作文类型的细分数据，才是您做出选择的真正依据。

你们的 AI 检测器是否适合学术发表？

底层方法论是适合的——Binoculars（ICML 2024）和 ModernBERT 均为经过同行评审的架构。我们的具体微调语料库和阈值属于专有信息，但基准测试方法论完全可重复。

免费在线工具与桌面产品相比如何？

同一引擎、同一精准度数字、同一逐句判决逻辑。桌面产品额外提供无限文档长度、离线扫描、与 40 亿网页的集成抄袭匹配，以及整个文件夹的批量处理。一次性检查使用在线工具即可；日常工作流程则推荐桌面版。

基准测试结果源自我们的内部验证集，可能不适用于分布外文本。所发布数字代表 1,000 个样本的平均表现；您的文档得分可能有所不同。请将 AI 检测结果作为众多参考之一，而非判断作者身份的唯一证据。