|
|
|
|
|
AI for Science,更需要“书同文、车同轨” |
|
|
6周,5万篇论文,找到了火星制氧催化剂研发376万种潜在配方组合的最优解。交出这份亮眼成绩单的,正是集成了2台移动机器人、19个智能化学工作站和高通量计算系统的“智能科学家”——“小来”。
当人工智能(AI)成为科学家的“左膀右臂”,科学发现迎来了前所未有的加速度。
模型越来越大、设备越来越先进、机器人越来越多、实验室自动化水平越来越高……当AI成为撬动科学研究的新支点,对“更高、更快、更强”的追求也进入了新赛段。
“然而,AI for Science(人工智能驱动的科学研究)的未来,取决于我们能否建设一套统一、开放、自主、可控的标准体系,把数据、模型、设备、流程、安全与服务真正组织成国家级智能科研基础设施。”近日,在第801次香山科学会议上,中国科学院院士、同济大学校长杨金龙作出新判断。
执行主席江俊、谢在库、李景虹、王坚和杨金龙(前排从左至右)在主持会议。香山科学会议办公室供图
“第五范式”新生态
“科学研究的历史演进,本质上是由科学工具革新驱动认知边界拓展的历史。”会上,中国科学院院士、清华大学化学系教授李隽指出,工具标准化是科研范式转变的前提。
1970年,美国科学哲学家托马斯·库恩首次提出“科研范式”的概念,即科学研究群体共同遵循的世界观和研究方式。而纵观科学发现的历史,先后经历了经验范式、理论范式、计算范式、数据驱动范式的重要演变。
“当前,科学研究正全面进入AI驱动的新阶段。”北京中关村学院党委书记、院长刘铁岩表示。AI for Science已成为科学研究的“第五范式”,持续拓展了人类探索未知物理世界的边界。
科学工具的革新,直接带来了科研效率的跃升:催化剂设计、新能源材料、药物发现、功能高分子和生命健康等领域研发周期显著缩短,实验效率与可重复性大幅提高……
变化正在发生,新的号角也已经吹响。
放眼全球,美国正试图通过“共享型科学基础设施模式”与“基础设施+体系标准”双重路径,推动形成规模化、平台化的科研组织方式;日本将AI for Science正式纳入国家科技路线图,并作为未来重点突破方向;欧盟则聚焦AI伦理指南、生成式AI治理框架和AI数据治理条例,建立可信AI和数字主权的制度优势。
“在AI for Science中,掌握智能科研平台相关标准,就意味着掌握科学发现的底层基础。”杨金龙强调。
目前,我国已在材料、药物、化学、生物制造等多个领域,具备AI for Science平台建设的现实基础。其中,“智能科学家”专项标志着我国开始迈向组织化、体系化的智能科研基础设施建设阶段。
“该专项已部署19个分布式创新设施,形成了80个AI驱动的化学与材料实验平台,覆盖80%的相关实验场景。”杨金龙指出,70余家科研院所、40余家龙头企业等多家单位加入智能科学家生态联盟。“我国在AI for Science领域正在走向以规则为纽带、以开源为机制、以联盟为组织形式的体系化演进。”杨金龙说。
“数量繁荣、体系脆弱”
随着AI与科学研究的深度融合,新的发现、新的可能加速涌现、多点开花的同时,更严峻的挑战被摆上明面。
“现在的最大风险不是平台不够,而是平台越来越多、彼此越来越不兼容。”杨金龙指出,尽管智能科学基础设施是AI for Science发展的基石,但当前行业正处于扩张性成长阶段,超过40家联盟单位正在建设AI for Science科研平台,超过50家单位积极筹建,架构割裂、数据不通、接口不兼容,已经成为跨机构协同和规模化创新的直接障碍。
在AI时代,数据不再是一般的技术资源,而是模型训练、知识提炼、实验规划和系统优化的原料。谁掌握高质量科研数据,谁就拥有先发优势。
“数据标准化是AI for Science成功的基石。”在李隽看来,目前仍缺乏统一的训练数据物理一致性的标准,导致“输入垃圾、输出垃圾”(Garbage In, Garbage Out)的问题难以避免。
在AI模型与技术路线高速演进的背景下,这一问题显得更加棘手。“不同平台数据结构、元数据描述、命名方式和质量控制标准不一致,导致数据难以跨平台流转、汇聚。”杨金龙表示。
此外,缺乏统一的模型定义、校准、验证和部署框架,科研模型往往停留在局部项目内部,难以复用,更无法沉淀为科研资产。
此外,由于不同厂商、不同工作站、不同自动化系统之间接口封闭,同时又缺乏统一的安全规则、服务标准和能力评估机制,平台之间不仅难以形成统一的调度网络,也无法形成可信的开放生态。
“如果这种碎片化状态持续下去,我国即使拥有大量平台和示范场景,也可能陷入‘数量繁荣、体系脆弱’的困境。”杨金龙打了个比方,没有标准化的铁轨,AI的列车可能还跑不过传统的马车,“看似先进的智能实验室,最终可能固化为一座座数字烟囱。”
这样的割裂状态,也大大制约了AI for Science从单点示范走向规模化应用的步伐。
“因此,当前最紧迫的任务,不是继续建立新的孤立平台,而是建设国家级AI for Science平台标准体系。”杨金龙强调。
“书同文、车同轨”
要解决这一难题,杨金龙想到了一个形象化表述,“书同文、车同轨”。
书同文,即统一的数据结构与调度协议,确保数据在不同系统之间能够无缝流转与互认;车同轨,则指统一实验设备接口与调度协议,实现异构硬件资源的标准化接入与协同。
“前者解决的是语义与知识统一的问题,后者解决的是接口与执行统一的问题。”杨金龙告诉记者,二者结合起来,才能构成AI for Science基础设施得以运行的底层秩序。
要实现这一目标,杨金龙提出了三个优先突破方向:科学数据标准、科学模型标准和实验基础设施标准。
“这既是当前问题最集中的环节,也是形成平台互联和能力共用的基础前提。”他进一步解释称,科研数据只有从源头采集阶段就具备可描述、可追溯、可交换和可验证的特性,才有希望成为模型训练与科学发现的可靠基石。
同时,科学模型标准则应当推动模型成为能注册、能验证、能复用、能服务的科研资产,而不再简单停留于项目内“能跑通”的层面。
此外,在实验设施标准方面,只有当不同品牌、不同类型的工作站和机器人都能够接入统一标准API时,AI for Science平台才有可能从局部自动化迈向规模协同化。
在此过程中,要想打通数据、模型、设备与流程的全链路协同,不仅需要国家战略科技力量、技术领军企业的支持,也呼唤着复合型领军科研人员的加入。
“现阶段,AI for Science领域顶尖的科学家们,最大的困惑往往是:‘标准化是技术推广的事,是产业界的事,和我做前沿基础研究有什么关系’?”中国标准化研究院党委书记、院长王昆指出。实际上,在AI for Science这一新兴领域,技术路线尚未收敛、科学范式正在重塑,“因此,这一领域更需要兼具技术深度、标准广度、国际视野、产业洞察的复合型领军人才。”
对此,刘铁岩也深有感触。当AI成为科学发现的主要来源之一,科研人员的核心能力不再是“提假设、做实验”,而是在人类认知和AI能力边界上工作,即判断AI发现的可靠性边界、设计人机协同的研究流程,在不完全理解的情况下做科学决策。
“科学发展的重大跃迁,从来不是单一技术的胜利,而是制度、设施、知识与组织方式共同演化的结果。”杨金龙总结道。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。