近日,西北农林科技大学信息工程学院智能计算与农业信息系统学科教授李富义课题组在蛋白质功能注释研究方面取得重要进展,研究成果发表在《基因组生物学》。
蛋白质功能研究有助于理解细胞内发生的复杂生物过程。然而,蛋白质结构与功能的复杂性,以及蛋白质序列数据的快速增长,使得开发高效计算方法进行精准蛋白质注释成为迫切挑战。该研究提出ENGINE多通道深度学习框架,旨在实现稳健的蛋白质功能预测。ENGINE采用等变图卷积网络捕捉蛋白质的三维结构特征,借助蛋白质大语言模型(ESM-C和Foldseek)提取进化信息和表征三维序列,实现空间结构与序列信息的统一整合。
网站截图。
实验结果表明,ENGINE在蛋白质功能预测基准测试中超越现有方法,展现出强大的泛化能力与高预测精度。除性能优势外,ENGINE分析了可解释的关键结构特征,助力识别未注释的蛋白功能。
同时,注意力机制的融入使ENGINE能精准定位参与多样化生物活性的关键残基,实现残基层面的功能注释。通过提供具有生物学可解释性的可靠预测,ENGINE为推进细胞过程和疾病机制的研究做出了贡献。为了便于研究人员轻松复现并拓展该工作,ENGINE已经开源。此外,课题组面向校内用户提供批量计算服务。
相关论文信息:https://doi.org/10.1186/s13059-02
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。