作者:江庆龄 来源:中国科学报 发布时间:2025/7/29 8:52:53
选择字号:
1.7亿篇文献、300个科学计算工具......
“磐石·科学基础大模型”亮相世界人工智能大会

 

当前,尽管人工智能(AI)已在科学研究中广泛应用,但仍面临科学数据孤岛、专业推理能力不足、研发生态封闭三大挑战。

为推动“AI+科学”向平台化、体系化的新范式加速转型,中国科学院积极谋划布局,依托其完整的自然科学学科体系、全栈式AI创新链条、重大科学设施及丰富的科学数据资源等优势,集结了中国科学院下属的12家研究单位,共同组建了联合研发团队,致力于开发服务于科研的基座大模型。

7月26日,在世界人工智能大会上,由中国科学院众多团队联合研发的“磐石·科学基础大模型”(简称“磐石”)正式发布。该基座模型采用专业科学知识和数据进行训练,能够深入理解多种科学模态数据,并具备科学文献萃取融合、科学知识表征推理和科学工具编排规划等核心能力。

曾大军正在介绍“磐石·科学基础大模型”。图片由中国科学院上海分院提供

  ?

深度赋能科研全流程

在公开亮相前,“磐石”已经参加了多场“考试”:在基础学科领域国际通用的数据集里,达到数学、物理、化学、材料、生物各学科门类当前最佳性能;在通用AI助手测试基准GAIA、事实性问答数据集SimpleQA等国际权威测试中,展示了领先的科学专业工具调用和科学推理性能;在人类终极考试(HLE)中取得优秀成绩……

“‘刷榜’并不是‘磐石的目的,更好地服务一线科研人员,促进科学发现才是我们的初心。”中国科学院自动化研究所(以下简称自动化所副所长曾大军强调,“磐石”始终围绕科研人员的核心需求,以强大、全面的科学专业能力支持科学发现。

联合团队组建之初,就考虑到让科研人员参与其中,更好地将科学家的需求和大模型的功能“对齐”。

“如何让AI的能力切实服务于科学需求,是我们面临的最大挑战。”曾大军表示,“得益于联合团队的独特优势,我们中既有‘自上而下’的有组织科研机制,也不乏‘自下而上’的青年科学家之间的思想碰撞。这些元素交织成一个立体网络,有效提升了大模型的能力。”

团队在前期调研中发现,尽管当前存在众多面向科学发现的AI大模型,但它们以各学科微调通用大模型和各自重复造轮子的作坊模式为主,难以解决通用大模型幻觉强、科学专识薄弱、逻辑能力差等问题。

为此,联合团队针对性开展了部署。

核心架构设计方面,“磐石”采用异构混合专家架构,在国产开源大模型基础上面向科学领域“定制”,集成了自主研发的一系列面向共性科学数据模态的专用模型,并融合了AlphaFold、MatterGen等领域专业模型。

“需要强调的是,‘磐石’和通用大模型之间的关系是‘松耦合’。”曾大军补充道,“一方面,我们会对当下优秀的开源大模型进行训练后使用。另一方面,未来一旦出现更优异的其他大模型,我们也可以快速地将其纳入‘磐石’的体系中。”

科学能力方面,“磐石”依托于中国科学院科学数据中心体系,已打通了90PB科学数据,其中70%由重大科学基础设施源头生产。此外,“磐石”覆盖了250万条高质量科学推理数据和50万条高难度学科退火数据。目前,“磐石”已系统掌握数理化天地生六大学科核心定理、定律与专业知识,并实现了对波、谱、场等多种科学模态数据的深入理解。

曾大军介绍,“磐石”既可直接帮助科研工作者开展跨学科攻关,也可作为底座平台,提供开放灵活的平台构架,支撑各学科领域和场景应用的专业模型研发。

这不仅得益于“磐石”作为大模型基座的能力,还得益于研发团队配套开发的“磐石·文献罗盘”和“磐石·工具调度台”两个科学智能体。前者已接入1.7亿篇科技文献与实时开源科技信息,能够辅助科研人员精读文章、撰写综述、评估科研选题与技术路径;后者可自主规划及调用超过300个科学计算工具,旨在降低科研工具的使用门槛,实现工具的协同编排和便捷调用。

在“实操”中减少幻觉问题

“磐石”是在通用大模型基础上搭建的智能底座,当应用于科研中时,通用大模型中原有的AI幻觉等问题不可避免地会被放大。

“我们仍无法从根源上解决AI幻觉问题,但并非毫无办法。”曾大军坦言,“在不改变内核大模型架构的基础上,我们在工程层面做了各种有益的尝试,尽可能确保‘磐石’逻辑的严谨性。比如利用高质量的科学数据进行训练,同时让‘磐石’边想边学、边学边用,在‘试错’中改变它的思维。”

“磐石”在开发的过程中,也绝非脱离实际用数据反复“规训”,而是在科研实操中经受“火炼”,通过嵌入不同学科领域的研究闭环,迭代提升其实用性与可靠性。

在发布会现场,自动化所研究员杨戈分享了与合作者依托“磐石”构建学科领域模型的案例。中国科学院交叉科学团队在“磐石”平台基础上构建了用于模拟细胞生命的基础大模型“X-Cell数字细胞模型”,实现了从基因序列、中心法则到细胞表型的整体建模。

“我们采用这种新范式运行两周后,发现了一个过去未知的潜在疾病靶点,并通过实验进行了初步验证。”杨戈说道,“在采用X-Cell数字细胞模型进行疾病药物靶点发现时,我们明显感觉到,‘磐石’极大提升了自动化水平,整体靶点发现的效率相比传统模式提升超过10倍。”

在高能物理领域,作为目前世界上唯一运行在粲能区的大型实验装置,北京正负电子对撞机每秒产生的数据量巨大,需要使用数百块硬盘进行存储。要想从如此海量的数据中捕捉稀有的高价值物理信号,难度可见一斑。

借助于“磐石·工具调度台”,北京正负电子对撞机的研究人员能够自动分解与高效规划粒子物理研究任务,生成覆盖粒子物理工作流各阶段的分析程序。这一模式有效提升了粒子模拟速度与重建效率,为探索物质基本组成和宇宙基本规律提供了助力。

此外,“磐石”也在发挥强大的科学数据理解和预测能力,高效计算高铁模型在多种流体环境下的表面压力场、提升化学合成实验效率、提高分子结构预测结果、在天文观测中实现智能化的全球望远镜资源调度与分析……

“‘AI+科学’目标是科研、基础是模型、关键是应用,‘磐石’的发展逻辑是模型应用与科研创新相互迭代提升。”曾大军指出,“‘磐石’已初步具备科学知识全能手、文献超级分析师、专业问题精算家的能力,并在逐步成为科研攻关的参谋和智囊。”

打造开放共享的平台化生态

曾大军在论坛现场宣布,自动化所已联合四十余家科研院所、高等院校及企业合作伙伴共同启动“科学基础大模型生态联盟”计划,并积极推动国产算力适配,着力构建开源开放、自主可控的“AI+科学”新生态,旨在为全球学术共同体贡献中国方案,赋能科研范式重塑,开启科学研究的无限可能。

在过去,我国的科学家们在不同学科领域取得了很多颇具亮点的科研成果。在曾大军看来,“科学基础大模型生态联盟”能够将以往这些关注某个“点”的科研成果串联起来,最终织成一张相互联系的“网”。由此,原本看似无用的方法能够巧妙地应用于其他领域,而高效的方法在更强基础能力的支撑下,有可能创造出更具特色的成果。

“我们希望基于‘磐石’赋能科学研究的能力,最终形成不同领域科学家共同参与、开展跨学科研究的科研生态。”曾大军指出,当前亟须寻找重要且可泛化的场景,在参与重大科研攻关任务过程中,进一步加强“磐石”在帮助科学家解决科学问题方面的能力,同时为其他研究提供可复制的研究新范式。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
寻找外星生命的希望正迅速破灭 奇特星系惊现原始恒星
全球正经历前所未有的淡水流失 中国学者研究入选联合国可持续发展案例
>>更多
 
一周新闻排行
 
编辑部推荐博文