来源:中国科学院北京基因组研究所 发布时间:2026/4/19 14:36:41
选择字号:
国家生物信息中心合作发布面向流感病毒的基因组语言模型

 

近日,国家生物信息中心正式发布了面向流感病毒的基因组语言模型Influ-BERT。该模型基于Transformer架构,针对流感病毒基因组特征进行了深度优化,为流感病毒亚型鉴定、致病性预测等应用提供了一种高效、智能的计算解决方案。

甲型流感病毒具有宿主范围广、抗原变异频繁等特点,对全球公共卫生构成持续威胁。传统的亚型鉴定方法在处理低频亚型或片段缺失数据时存在局限性。为此,研究团队收集并整合了约90万条流感病毒基因组序列构建专用语料库,以Transformer架构为核心,开发了定制化的Byte Pair Encoding(BPE)分词器,并针对词表大小进行专门优化。通过实施领域自适应预训练与任务特定微调的分阶段策略,Influ-BERT成功填补了通用基因组模型与流感特定领域知识之间的语义鸿沟,实现了对流感病毒基因组的精准建模。

在性能评估中,Influ-BERT展现出优于传统的机器学习算法和通用基因组大模型的表征学习能力,实现了低频亚型自动化精准识别。此外,研究团队进一步拓展了模型的应用边界,将其成功应用于多种呼吸道病毒(如SARS-CoV-2、鼻病毒、呼吸道合胞病毒)的区分、致病性预测以及功能基因识别等。通过引入滑动窗口扰动分析发现Influ-BERT能够自发聚焦于具有重要生物学意义的位点。这表明模型在无人工标注的情况下,能够捕捉到流感病毒基因组的生物学功能约束。

该研究成果以“Influ-BERT: A Domain-Adaptive Genomic Language Model for Advancing Influenza A Virus Research”为题,在学术期刊Briefings in Bioinformatics正式发表。国家生物信息中心宋述慧研究员和巴西科学计算国家实验室(LNCC)Ana Tereza Ribeiro de Vasconcelos教授为共同通讯作者,国家生物信息中心硕士研究生叶荣业与李论副研究员为共同第一作者。研究工作获得国家重点研发计划、“一带一路”国际科学组织联盟联合研究合作专项、国家自然科学基金面上项目、巴西里约热内卢州研究资助基金会、巴西国家科学技术发展委员会的支持。

Influ-BERT工作流程图



 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学家破解“体相溢流”之谜 金刚石/铜散热模组在国家超算平台部署
《科学》(20260409出版)一周论文导读 科学网2026年3月十佳博文榜单公布
>>更多
 
一周新闻排行
 
编辑部推荐博文