把AI检测当毕业论文硬性指标，是不是早了点？—新闻

作者：钟楚滢王亚赛舒怡尔孔家兴来源：澎湃新闻发布时间：2024/6/14 14:14:55

选择字号：小中大

把AI检测当毕业论文硬性指标，是不是早了点？

“它（AIGC 检测）真的不是为了赚学生的钱吗？”

在提出这个疑惑之前，本科应届生易肖竹的毕业论文已经提交了五次 AIGC 检测。

四月底，在完成导师指导下的三轮修改后，她按照要求将论文提交至知网查重，AIGC 检测结果显示她的论文有一段 AIGC 低风险和一段高风险，“那段高风险内容我是自己写的，这个结果让我非常震惊”，那时的她还以为修改会比较简单，没想到后来“降 AI”的拉锯战竟会持续十天。

第一次修改时，她学着小红书教的方法，尽量多加介词和连接词，结果无效。于是，她改变策略，请朋友按照自己的写作习惯来改写高风险文段，但直至她检测到了第四次，文段依旧保持高风险。

正一筹莫展时，她想起另一位和她吐槽过相同经历的同学，彼时同学已经成功通关，同学给她支了个招——用 AI 改写 AI，这一版 AI 辅助的修改文段最终通过了 AIGC 检测。

这五次修改，易肖竹在 AI 检测上用了 10 天，花费了 171.5 元。但是，如何应对 AI 检测，她仍然没摸出什么门道。

今年年初，福州大学、中国传媒大学等高校陆续发布了毕业论文（设计）AIGC 检测的通知，2024 届毕业生成为 AIGC 检测元年的第一批探路者。

随着 AI 技术的发展，国内的论文检测系统陆续上线 AIGC 检测服务，为高校学术不端检测提供了新选项。从部分高校公开发布的毕业论文通知可以看出，高校对 AIGC 检测率的规范方式大致分为三种：影响考评、自主披露和限定占比。无论是高校公开发布的通知，抑或是流传在学生之间的学校文件，都可以感知到 AIGC 检测是毕业论文学术不端检测的大势所趋。“学校虽然没有明文规定 AIGC 检测率，但学院要求需要小于 20%，我的导师要求我们降到 5%以下”，在湖南上大学的陈慧敏如是说道。

在翟天临学术不端事件后，高校加大了对学生论文重复率的检查力度。然而，AI 检测成为毕业论文的“新杀手”：从前，在“降重”时只需要将重复率高的文本替换写法，重复与否容易区分，降重目标很明确；现在，“降 AI”却如同面对黑箱，需要反复猜测 AIGC 检测的标准是什么，目标变得抽象。

在“降 AI”这项工作中，刘鑫宇比易肖竹踩了更多的雷。她总共做了 9 次 AIGC 检测，问题五花八门：在格子达小程序里检测出无风险的文段，到格子达网页端又有风险了；本是“中风险”的论文，时隔九日重新提交检测时，疑似片段居然从 16 段上升至 28 段，论文重新变成了“高风险”。

“可能是我的文风太硬了吧，室友都说我写的像新闻联播”，被 AIGC 检测折磨得心力交瘁的刘鑫宇无奈地说道。

检测结果差异大，“降 AI”更像玄学

AI 检测到底有多玄学？为了体验易肖竹和刘鑫宇检测过程中的同款迷惑，澎湃新闻记者将一篇完全由 AI 生成的论文提交到四个高校常用的 AIGC 检测系统进行检测，发现这些平台由于模型差异，对于论文中 AI 生成占比的认定差异较大。同一篇论文，AI 占比最多能相差 32%，尽管这四个结果放在高校的毕业论文要求里都是不合格的水平。

不同软件之间的“AI 检出率”差距大，是不是意味着 AIGC 检测不靠谱？

这就要从检测的原理谈起。

根据国外一款 AI 检测器 GPTZero 的创始人 Edward Tian 介绍，GPTZero 的检测主要依靠于“困惑度”（Perplexity）和“爆发度”（Burstiness）两项关键指标。

困惑度可以理解为可预测性。当检测器可以准确猜测出文本的下一个词、下一句话时，文本的困惑度就越低，文章越可能被判定为 AI 生成。但这种判定方式也不一定准确，比如“我想吃一个（睡觉）”与“我想吃一个（苹果）”这种不合常理的胡言乱语，相比更有可能被判定人类所写，只因为 AI 也猜不出你接下来要说什么。

爆发度可以理解为句子长度与复杂性的变化。AI 生成的句子长度与结构趋向统一，而人类作文随心所欲，动态性更强，这也是“降 AI”教程中常提的加标点符号、长句变短句的意旨。

2023 年 7 月 20 日，OpenAI 低调关停仅上线半年的 AIGC 检测器“AI Text Classifier”，原因是“准确度较低”，但 AIGC 检测的发展步伐并未放缓。

另一款 AI 检测产品 GPTZero 在 2023 年初刚上线时，获得了超乎意料的关注；同时，也受到了来自学生群体的攻击。然而，用检测结果来“为难”学生，并不是这款产品的初衷，创始人 Edward Tian 在推特中表示道，“任何学生都不应该因为使用 AI 而受到老师的惩罚……直到政策得到全面制定前”。因此，在 GPTZero 的检测结果页面可以看到一行字，上面写道，“这个结果不应该用来直接惩罚学生”。

AIGC 检测率只是一个参考数值，这也是国际反剽窃巨头 Turnitin 的认识。

2023 年 3 月 16 日，Turnitin 在官网文章中提出，“鉴于我们的假阳性率不是零，您作为讲师需要应用您的专业判断、学生的知识以及围绕作业的具体背景”，在 Turnitin 看来，检测结果应该被视为一种指示，而不是指控，“我们的工作是创造方向正确的信息，供老师开启对话”，Turnitin 的首席产品官 Annie Chechitelli 在接受华盛顿邮报的采访时说道。

在国内，知网、维普、万方等服务于大部分高校的论文检测系统，在 AI 的发展潮流下陆续上线 AIGC 检测服务，并于 2024 年论文季开始广泛实践。但无论是知网、维普、万方还是其它检测系统，其官网都很难找到关于其 AIGC 检测产品的详细介绍。在 AIGC 检测技术发展尚不成熟的阶段，部分国内高校将检测结果作为毕业论文合格的硬性门槛，对检测结果体感最强的学生被无奈地困在了迷茫的“降率”中。

规范 AI 使用，国内外高校视角不同

除了类似“AI 检测率”这样的硬指标划定，国内一些高校也在探索其他规范使用 AI 的方式，比如中国传媒大学继续教育学部设计了《本科毕业论文（设计）生成式人工智能使用情况说明表》，由学生自主披露论文中的 AI 使用情况。

除了毕业论文之外，在更广泛的课堂上如何使用 AI 的问题，国外高校大多将决定权交给了任课教师。

例如，麻省理工学院邀请了四位对 AIGC 使用有所研究的本校教师发表观点，希望为其他教师提供参考。四位老师对 AIGC 的态度整体分为了支持和限制两个阵营，在文章的开头，学校保守地表示“这并不代表麻省理工学院对此的官方看法”，麻省理工学院将选择权交给了老师。

与麻省理工学院相似，杜克大学鼓励教师起草自己的 AIGC 政策。除此之外，杜克大学在面向教师发表的《人工智能政策：指导方针和注意事项》中指出，AIGC 检测软件存在系统不可靠、对部分群体存在偏见、无法跟上人工智能发展脚步的弊端，因此学校明确表示“不建议教师将 AIGC 检测器作为 AI 政策的一部分”，即使教师决定使用检测软件，也不应将检测结果作为衡量学生是否作弊的唯一标准。

相比于其他两校，波士顿大学的 AIGC 使用政策内容更为细致，该校政策认为“诚实和公平是在学业中使用人工智能的核心”，因此规定使用 AIGC 的学生需要提交一份附录详细说明作业过程中与 AIGC 的完整交流，同时，政策也对不同程度使用人工智能的学生划分了对等的赋分规范。值得提及的是，波士顿大学的 AIGC 使用政策由 47 名学生制定，政策在获得批准后应用在了整个计算和数据科学系。

虽然各校针对 AIGC 使用的政策内容不一，但内容背后折射出一个相似的价值观：人工智能的使用不仅关乎学生，也关乎教师，同时，教师承担着引导学生正确使用人工智能的角色。

所以，AI 写的论文怎么样？

澎湃新闻记者以澎湃美数课发布的稿件为样本（《114 万条招聘数据：考研，真的能带来好工作吗？》），请 AI 将其改写成一篇本科毕业论文。AI 拟定的标题就很有论文的派头：《考研与就业：基于招聘数据分析的研究生教育价值探究》，再往下，论文必要的引言、文献综述、研究方法等五脏俱全。难道，AI 写论文，没问题吗？

虽然高校会为学生分配毕业论文指导老师，但是对于部分毫无论文写作经验的本科生而言，基础问题不好意思提问，专业的表达很难临时抱佛脚。这时，永远在线，永远有问有答的 AI，成为他们最好的指导老师。

在小红书搜索“如何让 AI 帮你写论文”，可以得到上至框架下至致谢的所有指令，灵感枯竭时，AI 可以分点分行快速给出回答；不会措辞？把思路丢给 AI 就能得到一段表述完整的文本——在 AI 的帮助下，学生可以大大提升写论文的效率。

从改写的论文来看，AI 确实非常了解论文的谋篇布局，它甚至掌握各个专业的术语和研究方法，这意味着研究目标、研究方法这类可以依靠大数据“旧壶装新酒”的内容是 AI 的舒适区，同时也意味着 AI 很难提出新颖的思路和观点。

在写论文的所有环节中，引用文献是 AI“幻觉”频发的重灾区。在这篇 AI 改写的论文中，引用文献共五篇，但根据记者核实，其中有三篇论文并不存在。所以，如果想让 AI 帮你搜索参考文献，要小心有胡编乱造的风险。

AIGC 检测，是指示还是“指控”？

鉴于人工智能的诸多局限性，一篇内容单纯依靠 AI 生成的论文，在答辩过程中也大概率难以过关，和论文相比，AI 写的论文更像一篇有“论文味”的文章。

但在部分国内高校的实践中，AIGC 检测率却成为比答辩还难应对的合格门槛。“AI 应该作为辅助工具，为人类创作赋能”，这是人们提起 AI 时常提的立场，当高校将 AIGC 检测结果作为评估毕业论文的硬性指标时，是否夺走了学生的解释权？这种将数据简单化为标准的方式是否也是对工具的滥用？

目前人工智能的发展水平确实有造成学术不端的风险，但人工智能在校园的使用规范中，是否存在更弹性的空间，更软性的方式呢？

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！人-智能体协同的信任研究数字迷雾：人工智能模糊了真实与虚拟的边界 Adolescents期刊诚聘青年编委作者专访\|自动化时代，大学毕业生如何重新定义未来更多>>