蛇年春节的“顶流”是谁?DeepSeek当之无愧。
事实上,过去一年多,不仅仅DeepSeek,还有ChatGPT、文心一言、豆包、Kimi……各路网友脑洞大开,挖掘出 DeepSeek 千奇百怪的用法,搞翻译写总结,提供创业、理财、育儿、旅行等各种高能方案,甚至还得整点玄学……
只是,此时再刷手机,你还能分得清,哪段是DeepSeek写的,哪段是人写的吗?
比如下面这段话,是谁写的呢?在晨光的轻抚下,城市的轮廓逐渐清晰,街道上行人稀少,只有偶尔的晨跑者打破了这份宁静。空气中弥漫着新鲜面包的香气,从街角的面包店飘散开来,诱惑着过往的行人。公园里,老人们打着太极,动作缓慢而流畅,仿佛与这个世界和谐共鸣。孩子们的笑声从远处的游乐场传来,清脆悦耳,如同天籁之音。这座城市,就像一幅精致的画卷,每一笔每一划都透露着生活的韵味和时代的痕迹。在这里,每一个瞬间都值得被珍藏,每一段故事都值得被讲述。
“真假美猴王”
很难选很难评?
如果你在两种答案之间犹豫不决,不妨求助一下Fast-DetectGPT。
这是由西湖大学自然语言处理实验室研发的一款AI程序,一段文本到底是不是AI生成的,逃不过它的“眼睛”。
我们把这道选择题交给它试试。
?
首先,打开Fast-DetectGPT,主界面一目了然。
我们上面那段文字复制粘贴在左侧的对话框里,随着点击“summit”提交,右侧的判定结果很快就出来了——是AI(DeepSeek)写的!
它对这个判定有几成把握?
据右边蓝色的环形进度条提示,它认为AI生成的概率高达84%。
恭喜Fast-DetectGPT,回答正确!
不得不感叹,从生成到检测,AI自己就实现了“闭环”。人类,甚至是人类中的“专家”也完全比不过。
2023年12月,发表在Research Methods in Applied Linguistics上的一则研究,讨论了顶级期刊的语言学家/评论家能够在多大程度上区分AI写作和人工写作——72位语言学专家参与了这项调研,结果这些专家的正确率不足40%。
“真假美猴王”的经典桥段,正在人工智能领域上演。
“找不同”
尽管我们作为“人”,很难准确揪出AI生成的文字,但面对“不是人”写的文字时,总有一种说不上来的“别扭”。这种别扭,或许是来自潜意识里的直觉判断,但这种别扭说不清道不明。
事实上,机器生成的文本与人类生成的文本看起来很像,但在语义、语法、用词习惯等细节处理上存在许多“不同”。
Fast-DetectGPT这款AI工具,本质上就是“找不同”。
“人类的思考是‘因果性’的,而机器的思考则偏向‘统计性’。”什么意思?西湖大学自然语言处理实验室负责人张岳进一步解释,“以写文章为例,AI的写法是学习现有的数据,从中挑选最‘安全’的词,也就是按照概率高低来选词,这和人写作的创造性是有本质区别的。”
如果现在有一个数据库,里面装着人类历史上100位天才作家的文章。当AI用“统计性”去学习这个数据库,它学到的不是这些天才作家的“神来之笔”,而是他们之间共用的、出现频率更高的词。
这个词,叫“平庸”。
还是很难理解?
那我们来看一段“人”写的文字:
我翻开历史一查,这历史没有年代,歪歪斜斜的每页上都写着‘仁义道德’几个字。我横竖睡不着,仔细看了半夜,才从字缝里看出字来,满本都写着两个字是‘吃人’!
什么样的历史没有年代?字缝里怎么能看出“吃人”的字来?看似“毫无逻辑”的话语,实则写出了封建礼教的残酷本质。你应该也看出来了,这段出自鲁迅的《狂人日记》。
如今,AI或许可以模仿鲁迅的文风,但要原创出这种哪哪都是“危险”用词的文笔,对AI来说是绝无可能的。
为什么?因为AI缺少“泛化性”。
也就是模型在训练数据集中学到的能力,能不能通过背后的因果逻辑“举一反三”,把这种能力应用到全新的领域,获得“分布以外的泛化性”。
张岳深耕自然语言处理(NLP)领域多年。从清华的本科、牛津的博士、剑桥的博后,到新加坡科技与设计大学和西湖大学的独立科研,他始终将研究聚焦在AI的泛化性上,即如何让机器真正像人一样思考——
有直觉,也有理性;能凭空创造,也能逻辑推理。
“在大模型看来,每个人都是‘危险’的。”张岳说。
张岳
?
以子之矛,攻子之盾
回到Fast-DetectGPT,我们已经知道AI生成内容和人类生成内容的本质不同,如何利用这种不同开发工具呢?
目前已知主要有三类技术来识别AI生成的内容:监督分类器法、零样本分类器法、文本水印法,用起来各有利弊。
监督分类器法比较实在,它需要收集大量的已知数据去做分类学习,就像学生上课,碰到没有“见过”“学过”的数据,就会找不着北,导致准确率下降。
零样本分类器法,顾名思义无需收集数据,它主要是学习AI写的文本有什么特征,以此来做区分判断。但是,AI写文章到底有什么“特征”呢?如果AI写得越来越像人,“特征”越来越不明显怎么办?这些都是难点。
文本水印法,与前两种主动区分AI和人类的方法不同,它是在AI生成的文本上打上“水印”,准确率比前两种都要高,但可能存在水印被人为弱化甚至移除的风险。
鲍光胜选择了零样本分类器法来完成这项实验。他是Fast-DetectGPT的主要研发者,也是西湖大学2022级博士研究生,考进来的时候43岁,是校内年龄最长的学生。在选择读博之前,他分别在微软和阿里巴巴工作多年,在自然语言处理上积累了充足的产业界实践经验。
他提出一种假设——在给定上下文的情况下,人类和AI在选择词汇时会存在明显的差异,但是不同AI模型之间的差异并不明显。利用这种差异,研究团队利用一种自动化的指标去区分。
我们可以把它理解成,面对一篇文章,Fast-DetectGPT作为AI先想想如果是自己写会怎么写呢?然后根据这个自问自答的参考答案,去比对原文看看重合度有多高——以子之矛,攻子之盾。
鲍光胜进一步解释,当程序接收到一个文本片段,首先会在不改变原意的情况下进行改写,把局部的同义词替换掉,再将这份替换后的文本与原始文本进行对比,如果是AI写的,两者之间的相似性会比较明显。
简单点说, AI对AI写的内容更“熟悉”,可以“认出”同类的作品。
效果怎么样?
目前,Fast-DetectGPT及其私有模型扩展Glimpse能够支持26种语言。2024年4月上线至今,已经有5万多人次用它做过“是AI还是人”的检测。与上一代DetectGPT相比,Fast-DetectGPT在速度上提升了340倍,在检测准确率上相对提升约75%。在ChatGPT生成的文本上,Fast-DetectGPT 检测正确率为96%;在GPT-4生成的文本上,Fast-DetectGPT检测的正确率达到了90%;针对DeepSeek-v3生成文本的检测,正确率则达89%。而其扩展Glimpse进一步将多语言场景下的检测错误率降低50%以上。
新奇与热闹过后,随着AI写得越来越像人,安全、公平、知识产权等问题随之而来。
面对AI快速生成的大量文本、图片、音频、视频,如何第一时间辨别真伪?
当AI生成和人类生成的内容同台竞争,还有没有公平可言?
利用AI创作的内容,版权又该如何界定?
AI 生成内容也让我们不得不思考,人类独特的价值究竟是什么?
这些问题,我们无法很快给出答案,但不论从任何一个问号出发,张岳认为:“检测出哪些是AI生成的内容,是人类维护内容安全的第一步。”
但,人工智能势不可当。
我们必将拥抱AI。内容安全之上,我们也必须相信“人”的价值。
AI科学家张岳说,创造力、批判性思维、社交能力以及领导力等等,都是AI难以复制的“人类特质”。
作家麦家说,未来的眼泪在哪里?机器不知道,伟大的作家是知道的。最好的那1%的作品,依然需要人去创造。
也许现在我们都应思考,如何去发展那1%的珍贵。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。