当前位置:科学网首页 > 小柯机器人 >详情
研究利用Evo进行从分子到基因组规模的序列建模和设计
作者:小柯机器人 发布时间:2024/11/16 4:10:11

美国加州Arc研究所Brian L. Hie和Patrick D. Hsu合作,近期取得重要工作进展。他们研究提出利用Evo进行从分子到基因组规模的序列建模和设计。相关研究成果2024年11月15日在线发表于《科学》杂志上。

据介绍,基因组是一种能编码DNA、RNA和蛋白质的序列,这些序列协调了生物体的功能。

研究人员推出了Evo,一种具有前沿架构的长上下文基因组基础模型,训练数据覆盖了数百万个原核生物和噬菌体基因组,并报告了DNA的扩展规律,以补充语言和视觉领域的观察结果。Evo能够在DNA、RNA和蛋白质之间实现泛化,具备零样本功能预测能力,其表现可与领域专用语言模型媲美。

此外,它能够生成功能性CRISPR-Cas和转座子系统,代表了语言模型在蛋白质-RNA和蛋白质-DNA协同设计中的首个示例。Evo还能够学习小突变如何影响整个生物体的适应性,并生成具有合理基因组结构的百万碱基规模序列。

总之,Evo的预测和生成能力跨越了分子到基因组的复杂性尺度,推动了人们对生物学的理解和控制能力的进步。

附:英文原文

Title: Sequence modeling and design from molecular to genome scale with Evo

Author: Eric Nguyen, Michael Poli, Matthew G. Durrant, Brian Kang, Dhruva Katrekar, David B. Li, Liam J. Bartie, Armin W. Thomas, Samuel H. King, Garyk Brixi, Jeremy Sullivan, Madelena Y. Ng, Ashley Lewis, Aaron Lou, Stefano Ermon, Stephen A. Baccus, Tina Hernandez-Boussard, Christopher Ré, Patrick D. Hsu, Brian L. Hie

Issue&Volume: 2024-11-15

Abstract: The genome is a sequence that encodes the DNA, RNA, and proteins that orchestrate an organism’s function. We present Evo, a long-context genomic foundation model with a frontier architecture trained on millions of prokaryotic and phage genomes, and report scaling laws on DNA to complement observations in language and vision. Evo generalizes across DNA, RNA, and proteins, enabling zero-shot function prediction competitive with domain-specific language models and the generation of functional CRISPR-Cas and transposon systems, representing the first examples of protein-RNA and protein-DNA codesign with a language model. Evo also learns how small mutations affect whole-organism fitness and generates megabase-scale sequences with plausible genomic architecture. These prediction and generation capabilities span molecular to genomic scales of complexity, advancing our understanding and control of biology.

DOI: ado9336

Source: https://www.science.org/doi/10.1126/science.ado9336

期刊信息
Science:《科学》,创刊于1880年。隶属于美国科学促进会,最新IF:63.714