7月7日,业界首个人工智能(AI)蛋白质生成大模型“NewOrigin”(中文名为“达尔文”)亮相2023世界人工智能大会(WAIC)。NewOrigin大模型的研发者、清华大学智能产业研究院卓越访问教授许锦波表示,AI蛋白质生成大模型瞄准创新药设计、合成生物学等真实应用需求,将用一个模型满足蛋白质生成全流程需求,未来大分子药、新生物材料等蛋白质设计可实现“一键定制”。
据介绍,NewOrigin大模型通过学习千亿级多模态大数据,可实现多模态定向生成,单模型就能满足序列生成、结构预测、功能预测、从头设计等蛋白质生成全流程需求,致力于解决产业应用所需的特定功能蛋白质生成难题,并在真实的产业环境中评估效果与价值。
蛋白质结构是困扰生物学家的难题之一,科学家们曾多次因解析血红蛋白等重要蛋白质的三维结构被授予诺贝尔奖。这一局面在AI方法应用之后得到了根本性的改变。
“大模型的出现将大大加速蛋白质生成技术的发展进程,并推动其在生物医药、合成生物学等领域应用,进而改变生物经济的格局。”许锦波在演讲中表示。当下ChatGPT等自然语言大模型的表现,让各界对大模型机制信心倍增。但在蛋白质生成等专业垂直领域,通用的自然语言大模型能力十分有限。究其原因,生物领域的复杂数据、专业知识与应用场景,都与自然语言交互的通用场景相差甚远,能力要求也更高。
因此,研发蛋白质生成大模型,除了必备的算法、算力、数据等基础条件,还需要具备专业进阶能力。“具备这些能力和条件的团队非常稀缺。”许锦波说,团队从2019年开始使用预训练机制研发蛋白质设计算法,通过整合结构预测、侧链预测、蛋白-蛋白对接等多种技术,结合多种场景需求,目前已在改造或从头设计蛋白质上取得了重要的突破。在此基础上,团队开发了融合自然语言和蛋白语言的AI蛋白质生成大模型NewOrigin。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。