作者:沈春蕾 来源:中国科学报 发布时间:2022/7/23 16:36:01
选择字号:
预测蛋白质3D结构,单条蛋白质序列就能实现

 

7月22日,华深智药对外宣布,公司在蛋白质结构预测方面开发出一项新技术OmegaFold,突破了已有计算机预测三维结构的模式,是人工智能(AI)和生命科学领域结合实现的一个突破。

华深智药是由清华大学人工智能产业研究院孵化,是一家致力于使用AI重构药物开发流程来提高新药研发速度和效率的企业。日前,华深智药获得了近5亿元的A轮融资。融资完成后,华深智药将继续扩大团队与商务开发,完善AI高性能计算能力,拓展高通量实验平台,并同时推进管线自主研发与对外合作。

这些年来,学术界和产业界一直在尝试着在计算机内模拟和预测蛋白质三维结构折叠,相应的算法也层出不穷。

此前,由谷歌旗下人工智能公司DeepMind发布的最佳的方法AlphaFold2和RoseTTAFold,是从一个蛋白质的进化历史中,提取氨基酸的共进化信息,并根据这种共进化信息预测蛋白质的三维结构。

华深智药创始人、伊利诺伊大学厄巴纳—香槟分校计算机科学系及医学院终身教授彭健向《中国科学报》介绍,如果要预测人体中的某个蛋白质的三维结构,目前的算法需要提前在数据库中搜索与该蛋白质同源的蛋白质序列。

但是,很多蛋白质缺乏这种同源信息,比如,近年来出现了大量人工设计的蛋白质药物和工业合成用酶,都是在生物进化历史中从未出现过的。

因此,有业内人士指出,AlphaFold2和RoseTTAFold在这一大类蛋白质上也是束手无策。

6月19日,彭健在社交平台上分享了华深智药团队的科学进展——蛋白质在体内进行折叠并不需要同源序列的存在,也不需要知道任何进化信息。“我们的团队一直坚信蛋白质的三维结构可以仅仅从他的序列信息当中预测,并终于开发出了仅从单条蛋白序列就能预测出3D结构的算法OmegaFold。”

彭健表示,OmegaFold的出现让人类从此不依赖一个蛋白质必须在进化当中留有印记,就可以获知其三维结构信息并进一步推断其生物功能。这将拓宽了人类设计蛋白质的搜索空间和效率。

据悉,在最近的全球持续蛋白质结构预测竞赛CAMEO和全球蛋白质结构预测竞赛CASP13/14的数据集上,OmegaFold从单条序列预测的结构分值远远超过了AlphaFold2以及RoseTTAFold,并且整体达到了或超越了AlphaFold2和RoseTTAFold的MSA版本的预测精度。

除了在CASP和CAMEO这些传统数据集上,华深智药团队还将视角聚焦到了AlphaFold2和RoseTTAFold的软肋:两类众所周知的缺乏蛋白质同源进化信息的蛋白质,一类是抗体蛋白质,另一类是所谓的孤儿蛋白质。

“抗体是人体免疫系统在抗原刺激下应激产生的,原理上就不会留有进化信息,一直是传统蛋白质三维结构预测软件的盲区。”彭健指出,“OmegaFold软件在这两类蛋白质上,尤其是抗体的关键功能区的结构预测上取得进展,将给整个大分子制药领域带来变革和机会。”

 

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: