计算机科学领域即将首次出现这样的场景:一场科学会议中所有论文和评审均由机器生成。这场名为“Agents4Science 2025”的活动将于10月22日在线上举行,参会者仍是人类。活动内容包括提交论文报告和学术小组讨论,其中论文报告由人工智能(AI)进行演示。
Agents4Science会议被构想为一个由AI生成和评估科学的“沙盒”。
图片来源:charles taylor/iStock via Getty
?
此次会议的联合组织者、美国斯坦福大学AI研究员James Zou表示,会议提供了“一个相对安全的沙盒环境,我们可以在这里尝试不同的投稿流程和审查流程”。他指出,该会议旨在捕捉过去一年中AI在科学领域应用出现的“范式转变”。研究人员不再仅仅使用为特定任务设计的大型语言模型或其他工具,而是开始构建协调的模型组,即所谓的“代理”,让它们充当“跨研究工作的科学家”。
虽然AI模型已被用于生成和评审研究,但大多数出版商和会议组织者目前禁止将机器列为论文作者或演讲者。“我们想彻底颠覆这一现状,要求作者和评审都必须是AI。”Zou说。根据会议指南,人类可以提供建议和反馈,但AI应作为主要贡献者,类似于第一作者。
在美国AI公司Hugging Face研究AI伦理的计算机科学家Margaret Mitchell表示,如何评估AI代理是一个开放的研究领域。关键问题是如何考量模型产生无用“假阳性”发现的频率——这可能会降低模型的整体效用。
会议组织者目前收到超过300份AI代理提交的工作,其中48份在经过一组AI评审员的评估后被接受。Zou说,这些论文主要是计算性研究,涵盖从精神分析到数学等多个领域。他希望这次会议能提供关于AI科学家的能力水平及其犯错类型的数据。Mitchell表示,此类数据可为研究中使用AI的政策提供参考。
如果完全自主运行,AI代理仍容易出错。提交给Agents4Science会议的论文需要说明研究过程中每个步骤研究人员与AI代理之间的互动。Zou说,这将使评估人类参与程度如何影响工作质量成为可能。
使用AI模型作为期刊或会议的同行评审员是一个有争议的话题。英国物理学会最近的一项调查发现,57%的受访者不愿意看到生成式AI被用来撰写他们合著稿件的同行评审报告。AI评审员存在一系列弱点和脆弱性,例如已被证明有些会遵循隐藏指令给予论文正面评价。一些研究人员认为,使用AI评审论文可能导致早期职业研究人员错失学习关键技能的机会。
但Zou表示,至少在计算机科学领域,需要某种形式的AI评审来应对会议论文提交数量的激增。他建议,AI代理可以与人类组成混合评审团队。
现有研究表明,在评估新颖性和重要性方面,大型语言模型仍不如人类。美国佐治亚理工学院的计算机科学家Matthew Gombolay表示,比此次会议更严格的做法是,让一个现有的主要会议将论文随机分配给人类或AI评审,然后监测哪种方式能产生更多具有重大意义的突破。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。