在进行任何抄袭分析之前,软件必须从提交的文件中提取清晰可搜索的文本。这比看起来要复杂得多,因为文件有多种格式——DOC、DOCX、PDF、RTF、PPT、PPTX、TXT、ODT和HTML等——每种格式都有其内部的格式结构、元数据、嵌入对象和编码方式。可靠的文本提取流程必须一致地处理所有这些格式,生成适合比对的规范化纯文本。
抄袭检测器采用五层文本提取架构,以最大化可靠性。对于DOCX文件,第一层直接解析原生DocX XML结构。如果失败(由于文件损坏或非标准格式),系统会回退到Microsoft的iFilter接口,然后是原始OpenXML解析,最后是Apache Tika作为最终通用提取器。这种级联方式意味着即使是损坏或非标准的文件也能产生可用的文本。同样的多层原则适用于所有12种以上支持的格式,确保没有任何文件被搁置不处理。
提取过程还处理编码规范化——将各种字符编码(UTF-8、UTF-16、Windows-1252、ISO-8859变体)的文本转换为统一的内部表示。这至关重要,因为编码不匹配可能导致在字节层面上相同的文本看起来不同,从而导致遗漏抄袭匹配。适当的提取为后续每个检测阶段奠定了基础。
一旦提取了清晰的文本,检测引擎会通过一个称为文本指纹识别的过程将其分解为可分析的单元。文件被分割成重叠的词序列(n-gram),每个序列被转换为紧凑的数字哈希值——即指纹。这些指纹作为高效的标识符,可以在不每次进行昂贵的全文比对的情况下,与来自其他来源的指纹快速比较。
指纹算法必须在灵敏度和效率之间取得平衡。短n-gram(3-4个词)捕获的匹配更多,但会因常见短语产生过多的误报。较长的n-gram(8-10个词)更为精确,但在个别词语发生改变时可能遗漏抄袭。高级系统使用可变长度指纹识别,结合winnowing算法选择指纹的代表性子集,在保持检测准确性的同时,使任意大小文件的比较空间保持可管理性。
文件指纹化后,检测引擎需要将这些指纹与互联网上的现有内容进行比对。抄袭检测器采用了一种独特的方法:它不依赖单一的专有数据库,而是同时查询四大主流搜索引擎——Google、Bing、Yahoo和DuckDuckGo——访问其合计逾40亿网页的综合索引。这种多引擎策略大幅提高了来源覆盖率,因为每个搜索引擎对网络的不同部分建立了索引,且排名结果也各有不同。
查询过程使用智能轮换和选择文本片段作为搜索查询。并非每个指纹都会被查询——引擎会从文件中选择最具特色的段落,即最可能返回有意义匹配而非通用短语的那些。查询调度管理速率限制,并将请求分配给各搜索引擎以维持吞吐量。结果是对公开可访问的互联网内容进行全面扫描,任何单引擎方法都无法复制,覆盖学术仓库、新闻档案、内容农场、论文代写网站和一般网页。
当搜索引擎查询返回潜在匹配的URL时,检测引擎进入来源检索与比对阶段。每个候选来源页面都会被抓取,其内容经提取和规范化处理(去除HTML标签、导航元素、页眉和页脚,以隔离实际的文章文本),然后与提交的文件进行对齐比对。这种对齐使用序列匹配算法,能在考虑标点、空格和格式的细微差异的情况下,识别两段文本之间的最长公共子序列。
比对不限于精确匹配。引擎还执行模糊匹配,以识别个别词语被同义词替换、句子顺序被重新排列,或添加/删除了连接短语的段落。这能捕获最常见的规避技巧:表面上重新措辞但保留了原始含义和结构的内容。每个匹配的片段都会记录其来源URL、重叠百分比以及对应的具体文本片段,为原创性报告构建原始数据。
在所有来源均被检索和比对后,引擎计算出一个相似度评分——表示提交文件中与外部来源匹配的比例。这一计算比简单的比率更为细致。引擎区分不同类型的匹配:精确复制、近似匹配(改写段落)、正确引用和注明的材料,以及不代表抄袭的常见短语或样板文本。
抄袭检测器的参考文献检测系统会自动识别文件中的引用、引语和书目参考,并以不同于未注明匹配的方式处理它们。用引号括起并附有引用说明的文本块被标记为合法参考,而非抄袭。这防止了相似度评分虚高的问题,否则将惩罚那些正确使用来源的优秀研究论文。最终评分反映了真实的原创性问题,为审查者提供了有意义且可操作的指标。
随着AI生成文本的日益普遍,抄袭检测必须应对并非从任何现有来源复制、但也不属于原创人类作品的内容。抄袭检测器包含集成的AI内容检测模块,灵敏度为0.98,能够识别包括ChatGPT、Gemini和HuggingChat在内的大型语言模型生成的文本。检测通过分析文本的统计属性来进行——词频分布、句子级别的困惑度、突发性规律和词元概率序列——这些属性在人类写作和机器写作之间存在系统性差异。
人类写作往往呈现出句子长度的较大变化、更难以预测的词语选择,以及复杂程度的不规则变化。相比之下,AI生成的文本倾向于在统计上可能的词序列上收敛,句子结构更为统一,概率分布呈现出特有的"平滑性"。检测模型在大量人类文本和AI文本语料库上进行训练,在段落级别运行,提供精细化的结果。这种分析在单次扫描中与传统抄袭检测并行运行,因此审查者无需使用单独的工具或工作流程,即可获得涵盖复制内容和AI生成段落的统一报告。
复杂的用户会尝试通过各种技术手段来规避抄袭检测。最常见的规避技术是Unicode字符替换——用来自其他Unicode字符集的视觉上相同的字符替换拉丁字符。例如,西里尔字母"a"(U+0430)在屏幕上与拉丁字母"a"(U+0061)看起来完全相同,但在代码点层面它们是不同的字符。简单的文本比对会将使用西里尔字母"a"拼写的"academic"视为完全不同的单词,导致抄袭段落完全规避检测。
抄袭检测器通过其Unicode反作弊引擎(UACE)来解决这一问题。在比对之前,UACE通过将Unicode字符块(西里尔字母、希腊字母、亚美尼亚字母以及其他包含相似字符的字符集)中视觉等价的字符映射回其拉丁字母等价物,对所有文本进行规范化处理。该引擎维护了一张涵盖数百个字符对的全面替换表。这种规范化在文本提取阶段透明地进行,因此无论源文件中应用了何种字符技巧,后续每个检测阶段均对清洁、规范的文本进行操作。
除字符替换外,UACE还能检测其他规避方法,包括:在词语或字母之间插入不可见的Unicode字符(零宽度空格、零宽度连接符、软连字符)、隐藏在文件中的白底白字,以及插入用于打断可识别短语的微型字体文本。这些技巧会在原创性报告中被标记为蓄意操纵行为,向审查者发出作者主动试图规避检测的警示——这本身就是蓄意抄袭意图的有力证据。
下载免费试用版或购买许可证,立即开始检测抄袭和AI生成内容。
检测过程的最终成果是原创性报告——一份以有组织、可审阅的格式呈现所有发现的详细文件。报告会将提交文本中的匹配段落以颜色标注,按来源区分,每个匹配都链接到相应的URL或数据库条目。摘要部分显示总体相似度评分、匹配的来源数量、检测到的AI生成内容比例,以及匹配类型(精确匹配、改写匹配、引用内容)的详细分类。
对于机构而言,原创性报告可以添加组织的徽标,为学术诚信记录提供专业、标准化的格式。这些报告的设计达到了证据级标准——适合用于正式审查程序、学术诚信听证会或法律场合。报告中的每项声明都可以独立核实:审查者可以点击链接到达原始来源,亲眼确认匹配内容。这种透明度确保了抄袭认定的可辩护性和公正性,既保护了审查程序的诚信,也保护了被评估作品的作者的权利。
抄袭检测的一个根本性架构选择是:文件在用户本地机器上处理,还是上传至远程云端服务器。基于云端的抄袭检测工具要求用户将文件上传至服务提供商的服务器,文本在那里被提取、分析,通常还会被存储在数据库中。这引发了重大的隐私和保密问题——尤其对于敏感的学术研究、未发表的手稿、法律文件和企业材料而言。上传至云端服务的文件可能被保留、索引或用于训练AI模型,数据泄露可能暴露机密内容。
抄袭检测器完全在桌面端运行。文件在本地打开、解析和分析——完整的文本从不传输至任何外部服务器。只有选定的文本片段(搜索查询)会被发送至搜索引擎进行比对,这与人工在浏览器中手动搜索一个短语的方式完全相同。这种架构提供了根本性的隐私保障:完整的文件从不离开用户的机器。对于处理敏感材料的机构——审查简报的律师事务所、审阅论文的医学研究人员、审计报告的政府机构——这种桌面优先的方法不仅仅是一种偏好,更是合规要求。加之一次性购买模式(无需循环订阅),它同时提供了隐私保障和成本可预测性。