作者:李思辉 刘琳 来源:科学网微信公众号 发布时间:2026/1/10 20:37:28
选择字号:
Nature发表的“标杆性成果”,被指“不可靠”

 

编译|李思辉 刘琳

“谷歌团队在Nature发表的论文并不可靠!”近日,英国利物浦大学的数学家和计算机科学家维塔利·库尔林(Vitaliy Kurlin)团队公开指出,谷歌DeepMind旗下人工智能工具GNoME(材料探索图网络)所生成的晶体数据库中,存在大量的重复或近似重复结构。

这一发现,使谷歌团队此前发表于Nature的相关研究,以及随后关于自主实验室材料合成的论文,成为讨论焦点。过去几年中,库尔林团队创造了一种新的检测重复晶体结构的方法,基于新方法,他们发现了DeepMind团队的“秘密”。

1

谷歌材料学“新突破”

作为人工智能领域的领军企业,近些年,DeepMind凭借前沿技术,在材料科学领域掀起了不小的波澜。

2023年,该团队在Nature发表一项被誉为“凝聚800年科研成果”的突破性研究。该研究通过自主研发的AI工具GNoME,宣称发现了多达220万个全新晶体结构,其中超38万种被判定为稳定无机材料。

DeepMind团队在Nature发表的论文


这一数量级在当时创下纪录,被认为有望为半导体、可充电电池等现代技术发展提供潜在材料支撑。

业内人士一度认为,GNoME的研发与应用“堪称AI赋能科研的典型实践”——谷歌团队AI深度学习晶体结构的特征与稳定性规律,借助独特的算法设计,以前所未有的规模和精度,预测新型晶体结构及其稳定性。

在其公布的成果中,涵盖约5.2万种类石墨烯层状化合物与528种锂离子导体。传统研究中,科学家需通过调整已知结构或试错组合元素,来寻找新晶体,过程耗时耗力、成本高昂。

GNoME的出现,被视作破解这一困境的关键。凭借AI的高效计算,它大幅压缩了原本漫长的科研周期,突破了传统研究的瓶颈。该研究在短短两年内引用量飙升至数千次,成为AI在材料科学领域的标杆性成果。

2

重复数据引发争议

就在GNoME成果被广泛引用、各实验室配套研究同步推进之际,一场针对其数据真实性的质疑悄然蔓延。

利物浦大学库尔林团队研发出一种全新重复检测技术,进而发现GNoME数据库中存在大量重复或高度相似的晶体结构。更关键的是,其中超过10%被标记为“稳定”的晶体,其实只是在已有结构上替换一两个原子,算不上真正的新发现。

这一问题也波及到2023年11月Nature同期发表的另一项补充研究。这项由美国劳伦斯伯克利国家实验室A-Lab完成的自主材料合成成果被认为“也存在严重重复问题”。该实验室声称在17天内合成了43种新材料,但其中2种早已录入无机晶体结构数据库,其余41种在同一数据库中也均有几乎完全一致的副本。

面对确凿的检测数据,各相关方的反应不一。库尔林团队发布数据后,GNoME数据库中超过8.3万条内容被悄悄删除,谷歌未对此作出公开说明。

美国化学会媒体联系GNoME论文作者及谷歌公关,未获回应。

英国伦敦大学学院的罗伯特·帕尔格雷夫(Robert Palgrave)呼吁撤下A-Lab论文,但认为GNoME研究发更正即可。

库尔林则主张两篇都应撤稿。Nature编辑卡尔·齐梅利斯(Karl Ziemelis)表示,A-Lab论文准备“更正”,GNoME研究因未收到“正式关切”(formal concerns),暂不调查。

各数据库处理方式也不同:“材料项目”承认重复问题,考虑引入新检测方法;晶体学开放数据库负责人索利乌斯·格拉祖利斯(Saulius Gra?ulis)认可该方法,目前仅标注重复而非删除。

英国剑桥结构数据库执行董事苏珊娜·沃德(Suzanna Ward)认为,重复原因多样,不宜“一刀切”删除,简单化合物的相似结构属正常,不会移除。

3

AI科研何去何从?

有评论认为,此番争议不仅聚焦于谷歌的两项研究,更暴露了AI大模型在科研应用中的深层矛盾:当技术追求规模与效率时,如何兼顾数据的真实性与新颖性?同时,这也对晶体学数据库的管理模式、AI生成内容的评估标准提出了严峻拷问。

目前,学界普遍认为,应当将库尔林团队这类高效的重复检测工具整合到AI研发流程中,在数据输出前自动筛选绝对重复的内容。同时,需要强化同行评审的针对性:对于AI生成的大规模数据集,应要求研究者提供抽样验证报告及重复检测证明,而非仅依赖算法本身的可信度。

晶体学数据库的重复乱象并非个例,有机、无机及计算机生成的晶体数据存储均受此困扰。其实,数据库管理者也面临两难:一方面,理想状态下“优质数据库不应存在重复”;另一方面,重复结构的成因复杂,不能简单归为数据完整性问题。

对此,业内已形成几点共识:建立分层处理机制,区分“完全重复”与“近似重复”、“恶意重复”与“合理重复”,后者包括因独立发现导致的重复,应避免采取单一的删除或保留政策。引入标准化检测工具,推广开源、高效的重复检测技术,让数据库在接收数据时就能进行初步筛查,从源头减少重复条目。

有学者指出,AI技术为科研带来了效率革命,但绝不能以牺牲科研诚信为代价。在此次争议中,GNoME数据库悄悄删除重复条目却不公开说明的做法,引发了学界对数据透明度的广泛担忧。科研的核心价值在于探索未知,AI应是辅助这一过程的工具,而非追求虚假规模的捷径。

前述学者还认为,未来需要建立针对AI科研的伦理规范,明确研究者、期刊、数据库各方的责任:研究者需对AI生成数据的真实性进行严格核验,期刊需强化对大规模AI成果的评审标准,数据库需完善重复数据的管理与披露机制。

毫无疑问,这场围绕220万晶体结构的争议,本质上是AI时代科研范式转型过程中的一次阵痛。它提醒我们,在追逐技术突破的同时,更需要坚守真实性、透明度的科研底线。

“唯有建立完善的评估体系与伦理规范,才能让AI真正成为推动科学进步的强大动力,而非制造科研泡沫的潜在隐患。”这位学者说。

相关参考文章:

https://cen.acs.org/research-integrity/Duplicate-structures-haunt-crystallography-databases/103/web/2025/12

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
请投票!科学网2025年度十佳博文评选启动 更全更精细,首个千万级免疫细胞图谱发布
2025年度国内十大医学科技热点 智斗植物瘟疫:从识破诱饵到激活“哨兵”
>>更多
 
一周新闻排行
 
编辑部推荐博文