检测与生成陷入猫鼠游戏。每次新模型发布,都会压缩检测器所依赖的统计差距——每次检测能力提升,都会被新的人工化工具所回应。以下是底层真正发生的事情。
每一款 AI 文本检测器,归根结底都是一个统计判别器——它审视文本特征(词元概率、困惑度、突发性、句法规律性),并尝试找出区分机器生成内容与人工写作内容的信号。Binoculars 方法(ICML 2024)以两个语言模型之间的交叉困惑度之比作为信号。ModernBERT 监督式方法则直接从标注样本中学习该信号。
两种方法共享一个根本脆弱点:它们所依赖的信号,是模型生成文本方式的副作用,而非机器书写的本质特征。随着生成模型的改进,这些副作用会不断缩小。一个被训练得越来越像人类写作的模型,在定义上就会越来越难以被检测。
这不是研究的失败,而是问题本身的结构性事实。检测面对的是一个移动靶:每次重大大语言模型发布都会缩小差距,每款人工化工具都在明确地针对检测器输出进行训练。问题不是「我们能否永远实现 100% 检测」——这不可能做到——而是「我们能否在当前这一代模型中保持足够领先,以便在实践中发挥作用」。
三种生成趋势让检测愈发困难。规模:更大的模型因内部分布更丰富,能生成统计上更多样化的文本。一个 700 亿参数的模型,其类人输出范围远比 70 亿参数的模型宽广。指令微调:RLHF 和宪法方法训练模型避免重复、含糊、平淡的模式——正是这些模式让 GPT-3 易于识别。温度与采样:聊天界面已转向核采样和随机性,打破了经典检测器曾用作锚点的某些低方差模式。
GPT-5、Claude 4.5 和 Gemini 2.5 都比其前代产品明显更难检测。我们的内部验证证实了这一点:与上一代相比,每次模型迭代使我们对该模型家族的 AUC 下降 5–10 个百分点。逐模型数据请参见我们的精准度基准测试。
人工化工具——Undetectable AI、StealthWriter、Humanbeing 及不断增加的同类产品——是明确的对手。它们获取 AI 输出,通过改写、重写或风格迁移,专门为了规避检测器。这些工具针对公开的检测器(包括我们的,尽管我们从不分享模型权重)进行训练,并在每次更新后可衡量地变得更强。
检测器针对生成端的军备竞赛有三种应对方式。集成:组合多种检测信号,使任何单一规避策略都不足以成功。我们将零样本 Binoculars 与监督式 ModernBERT 进行集成,正是利用了这一点:能够规避一个组件的人工化工具,往往在另一个组件面前失效,而集成分数同时捕获两者的信号。
持续再训练:我们在每款重要新生成模型发布后 4 周内,将其样本加入训练语料库。如果 GPT-6 明天发布,我们的训练语料库将在下月中旬包含它。这代价高昂——计算资源、标注、重新验证——但这是保持检测时效性的唯一途径。每年或更少频率再训练的检测器,在一年内实际上就成了博物馆展品。
对抗训练:我们刻意在人工化的 AI 样本和改写输出上进行训练,教导模型透过表层风格迁移看穿本质。这提高了人工化工具规避我们所需付出的代价下限,从而减缓了军备竞赛的速度。
人工化工具究竟如何运作?大致分为三类。改写:使用第二个大语言模型逐词或逐句重写文本。对依赖精确词元序列的简单检测器有效;对统计方法效果一般。风格迁移:将文本转换为模仿特定作者或语域。效果更强——我们检测器在风格迁移的 AI 文本上,AUC 下降约 8 个百分点。
混合人工-AI 编辑:作者先写一个草稿,再通过大语言模型润色,然后手动编辑润色后的版本。这是最难处理的情况——真正的协作写作,在句子层面混合了人工和机器信号。没有任何检测器,包括我们的,能在没有编辑历史元数据的情况下可靠地解析这类文本。
一个有用的心智模型:人工化工具不是检测器的破解器,而是规避者的成本倍增器。它需要时间、有时需要金钱,而且始终带来引入错误的风险。大多数学术作弊尝试不会使用人工化工具,因为摩擦成本超过了收益。人工化工具主导的领域是专业内容农场和 AI 生成的 SEO 垃圾——这些场景吞吐量优先,质量控制薄弱。
粘贴任意文档,实时观看逐句判决。上述集成逻辑将在 30 秒内对您的文本运行完毕。
单信号检测器只有一个失效点。如果只依赖困惑度,词元概率被改变的改写输出就能击败你。如果只依赖监督分类器,分布外文本(新模型家族、新写作领域)就能击败你。集成平均了各自的弱点:击败困惑度的改写,很可能仍会触发监督头,反之亦然。
我们的生产检测器明确采用集成方式:35% Binoculars(零样本、模型无关、对分布外文本鲁棒)+ 65% ModernBERT(监督式、领域专属、在分布内文本上精准度高)。权重通过实验选定——当 ModernBERT 主导但 Binoculars 在边缘案例上保留否决权时,集成 AUC 达到最大值。
结果:人工化工具现在必须同时击败两种架构截然不同的检测系统,才能规避我们的判决。公开的人工化工具通常针对单一目标检测器进行训练,这意味着它们往往能成功对抗那个特定检测器,但在集成面前失败。这是当前军备竞赛中检测端的主要结构性优势。
2026-2027 年,我们应预期什么?GPT-6 和 Claude 5 很可能在年中发布;两者都将进一步缩小差距。开放权重模型——Llama 4、Qwen 4——将继续使高质量生成能力商品化,并使人工化工具的大规模运行成本降低。发布第一年,前沿模型的检测 AUC 可能降至 0.80–0.90 区间,随后再训练将予以纠正。
防御侧:多模态信号(打字动态、编辑历史、与已知语料库的作者身份核实)可能在 24 个月内比纯文本检测更为重要。我们的纯文本检测器将继续作为第一道过滤器,但在更丰富的证据体系中,将越来越多地成为其中一票。
诚实的结论:纯文本检测永远无法达到 100%。在分布内文本上,它将在 90–95% AUC 附近趋于稳定;在前沿模型上,则为 75–85%。如果您的工作流程需要确定性,您需要分数之外的证据。如果您的工作流程需要一个强信号来确定人工审查的优先级,文本检测仍然有用,并且可衡量地优于什么都不做。
本文描述了 AI 文本检测的结构性特征。具体数字源自我们的内部验证,可能不适用于所有文本类型。我们将在新研究和新生成模型发布时更新本页面。