4月29日,由复旦大学主办的第八届数字中国建设峰会科学数据合作分论坛在福州数字中国会展中心举行。论坛以“开放科学数据,共筑数字未来”为主题,各界代表围绕科学数据生态建设进行了深度探讨。
论坛上,复旦大学人工智能创新与产业研究院副院长、上海科学智能研究院(以下简称上智院)院长助理程远作为代表,发布了三项科学数据基础设施——生命流体数据集、催化化学反应活性数据集及科学数据标注平台。
?
生命流体数据集Aneumo涵盖了流速、压力、壁面切应力等关键参数,将为颅内动脉瘤破裂风险预测提供多场景模拟支持,还可基于血流动力学原理助力优化血管支架、人工血管等医疗设备的设计流程。数据集有助于加深对颅内动脉瘤病理特征和血流动力学机制的理解,并支持相关领域的深入研究,加速心脑血管疾病诊疗方案的临床转化。
催化化学反应活性数据集聚焦于解决化学研发中的关键挑战,在微观层面完整记录了反应底物、催化剂、溶剂、添加剂等关键组分,在宏观层面系统整合了制药、化工催化及电池研发等领域的近30类反应类型,包括经典的偶联反应、环加成反应以及前沿的碳氢键活化反应等。数据集提供了超过100万条经过严格校验的反应记录,并建立了从实验室小试到工业化放大的标准化数据桥梁。
科学数据标注平台则旨在提升科研数据处理效率,加速科学发现进程。平台打造了端到端智能文献提取方案,实现自动化采集、加工、标注和落库的一站式自动化方案,大幅度提高质量数据集加工效率,并配备有50人以上专业化标注团队。该平台将提供化学分子式标注、文献表格提取及2D/3D医疗影像标注等多模态工具,通过AI辅助标注功能大幅缩短标注周期、降低专业门槛,并构建安全可信可审计的数据标注环境。
据了解,上述成果基于上智院和复旦大学共建的高质量科学语料平台开发。该平台具备从数据采集、加工到管理和建模的全链路能力,目前已汇聚超10PB高质量科学数据,支持多学科研究效率跃升。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。