ChatGPT已进入每一间课堂。以下是面向教师的实用研究型工作流程——如何检测AI生成的作业、如何与学生沟通,以及如何建立既有效又不会引发误判纠纷的政策体系。
到2025年,大多数学生已在学术写作的某个环节使用过LLM。对大学生的调查显示,这一比例因学科和国家不同,持续在 60% 至 90% 之间。问题已不再是学生是否使用AI,而是使用多少、用于哪些任务,以及带来何种后果。
学术诚信问题分为两个子问题:某份提交是否由AI生成?——这是检测问题;AI使用是否违反了作业规定?——这是政策问题。教师需要对两者都有答案,且顺序很重要:政策在先,检测在后加以确认。
在没有明确政策的情况下进行检测,会产生误判风险。在没有检测的情况下执行政策,则会导致依赖荣誉制度的作弊行为。实用的答案是建立一套两层相互支撑的联合工作流程。
良好的AI政策需在四个维度上保持明确。允许什么:头脑风暴、提纲整理、语法检查、文献检索——即便是严格的政策,这些通常也被允许。禁止什么:将整句或整段AI生成内容作为学生自己的作品提交。必须披露什么:所有AI辅助的任务,均需在提交时附上声明。后果是什么:学术诚信仲裁、成绩处罚、重新提交或上报——务必提前说明。
在对任何提交进行AI检测扫描之前,先公布政策。提交后被告知“我们将检测AI”的学生有正当的申诉理由;而在学期开始时就被告知“这是政策,这是我们的核查方式”的学生则没有。将检测视为已公布政策的执行手段,而非突然袭击。
与所在机构保持一致。如果您的大学有模板政策,请直接采用。如果没有,可参考MLA、IEEE或本国监管机构的规范。同一机构内教师之间的不一致,会造成学生申诉和法律风险——在推行检测之前,应先在教职人员层面达成共识。
AI检测分数是一个信号,而非判决。某份提交获得92%的AI概率,是进一步调查的有力理由——但这不是证据。我们的精准度基准测试对此坦诚说明:在 50% 阈値下,我们在验证集上力求零误报,但您学生的写作并不属于我们的验证集。
在做出任何决定之前,需将分数与其他三类信号综合判断。写作历史:这是否与该学生之前的提交相符?课堂表现:课堂作文、口头讨论、简答测验——是否与提交作品的水平相匹配?技术背景:提交时间戳、编辑历史(如平台支持)以及任何异常的元数据。
一个分数加上至少一个佐证信号,才构成值得调查的案例。单独一个分数只是一个标记,而非调查结论。这条规则——早在AI出现之前就已记录于学术诚信文献中——既保护了学生,也保护了教师,是防止误判纠纷最有效的单一手段。
如果一份提交被判定为可能由AI生成,请与学生面谈。不要以指控开场,而应从作业本身入手。请学生讲述其创作过程:他们查阅了什么资料、草稿是什么样的、做了哪些修改。亲自写过作业的学生能流畅地回答这些问题。使用了AI的学生往往做不到——不是因为他们不诚实,而是因为他们没有真正投入到材料中去。
这次谈话的目的是收集证据,而非设陷阱。记录学生所说的内容。如果谈话解除了标记——其创作过程前后一致,草稿历史也吴合——则撤销标记。如果谈话暴露出前后矛盾之处,您现在就有了继续正式程序的佐证。
避免这些常见错误。不要以检测分数开场——学生会感到突然被围攻。不要将分数视为认罪的理由——部分学生在压力下即便无辜也会认错。要记录每一次谈话——所在机构的正当程序要求留有书面记录。
AI检测发现生成的文本,抄袭检测发现复制的文本。学生提交的作业往往两者兼有——部分段落由LLM起草,部分从其他来源复制粘贴,部分是真正原创的写作。只扫描AI的工作流程会遗漏复制粘贴;只扫描抄袭的工作流程则会遗漏完全生成的内容。
我们的桌面版抄袭检测在单次扫描中同时完成两项工作:一次针对 40 亿个已索引网页、学术数据库和机构PDAS语料库的匹配扫描,加上驱动我们在线工具的同款AI检测引擎。每份文件的综合判决在一分钟内完成。
对于偏好基于浏览器工作流程的机构,我们的免费在线工具涵盖AI检测,免费演示版桌面下载则加入了完整的来源匹配扫描。大多数大学根据教职人员的工作习惯,混合使用这两种方式。
粘贴一份样本提交,查看逐句判决。适合课堂使用。无需注册,不存储于云端。
披露优先型:任何AI使用均需在提交时附上简短声明——“我使用GPT-4为第二节拟定提纲,并对第三节进行了语法编辑。”已披露则不处罚;检测到未披露的AI使用则全額处罚。对学生低摩擦,问责性强。
无AI作业型:明确标注必须完全不借助AI独立完成的提交。包括课堂作业、口头作业或监考作业。适用于期末考试、诊断性写作,以及任何AI有悳于学习目标的任务。
允许AI型作业:明确允许将AI作为研究或编辑工具;无论作业产出方式如何,均以最终成果质量进行评分。学生学习使用工具,教师评估产出结果。这一方式的教职人员采用率最高,检测工作量最低。
您会漏掉一些AI生成的提交。人工化工具、简短作业以及人工-AI混合写作,在当前生成模型水平下都能规避文本检测。请接受这一现实:目标不是 100% 检测,而是有效威摄以及对标记案例的公平处理。
您会把一些人工提交标记为AI。非母语英语写作、大幅编辑的学术散文,以及某些真正独特的学生写作风格,其得分都会高于预期。我们基准测试中的零误报数字基于验证集;您的学生不在那个集合里。在采取任何行动之前,请结合佐证信号综合判断。
可持续运作的工作流程:发布政策、在提交时运行检测、标记高分案例以供调查、在学生在场的情况下进行调查、记录一切、仅在有佐证时上报。遵循这一流程的教师报告称,在一个学期内,AI使用行为减少,误判纠纷也随之降低。
本文为教育指导,并非法律建议。学术诚信政策及自动化检测的合法性因司法管辖区和机构而异。在部署任何检测工作流程之前,请和所在机构的数据保护官咨询。