前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?

从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?

作者头像
新智元
发布于 2025-03-31 12:48:10
发布于 2025-03-31 12:48:10
830
举报
文章被收录于专栏:新智元新智元
新智元报道

编辑:LRS

【新智元导读】史上最大的基因组AI模型Evo 2使用超过12.8万个基因组数据训练,包含9.3万亿个核苷酸,能预测突变效应、设计 DNA 序列,并通过可视化工具展示学习到的生物特征,为生成生物学和疾病研究提供新思路。

生命的一切表现,基本都可以从DNA编码中找到答案。

基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。

然而,基因组的复杂性是巨大的,即使是最简单的微生物,也包含数百万个DNA碱基对,要智能地构建新的生物系统,研究人员还需要深入理解基因组编码的复杂信息。

2024年11月,研究人员在Science上发表了一项研究Evo 1,基于单细胞(270万个原核生物和噬菌体)基因组进行训练,具有70亿个参数,在单核苷酸(构成DNA或RNA的基本单元)设置下实现了13万碱基的上下文长度。

Evo 1论文链接:https://www.science.org/doi/10.1126/science.ado9336

Evo 1在DNA、RNA 和蛋白质模式上展示了更好的零样本功能预测能力,并通过实验验证了Evo 1生成的CRISPR-Cas分子复合物以及IS200和IS605转座系统的功能活性,证明了使用语言模型进行蛋白质-RNA和蛋白质-DNA代码设计的前景。

最近,Arc Institute宣布与英伟达(NVIDIA)合作,开发了迄今为止最大的生物领域AI模型Evo 2,在超过12.8万个全基因组以及宏基因组数据的基础上,训练数据超过9.3万亿个核苷酸。

除了细菌、古菌和噬菌体基因组外,Evo 2的训练数据还包括人类、植物以及其他真核生物域的单细胞和多细胞物种的信息。

论文链接:https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1

Evo Designer链接:https://arcinstitute.org/tools/evo/evo-mech-interp

随文章一起发布的,还有一个Evo Designer的用户友好界面,作为机制可解释性可视化器,揭示了模型在基因组序列中学习的关键生物特征和模式,展示了Evo 2在生成DNA序列时的思考过程,其中许多功能与基因组概念类别高度相关,用户可以在参考基因组和Evo 2中的相应特征激活中看到基因组概念。

研究人员完全开源了Evo 2的训练数据、训练和推理代码以及模型权重,并集成到了NVIDIA BioNeMo框架中。

考虑到潜在的伦理和安全风险,研究人员将感染人类和其他复杂生物体的病原体排除在Evo 2的基础数据集之外,并确保模型不会对关于这些病原体的查询返回有价值的答案。

Arc研究所联合创始人、Arc核心研究员、加州大学伯克利分校生物工程助理教授Patrick Hsu认为,Evo 1和Evo 2的成功是「生成生物学」领域的关键时刻,让机器也能够用核苷酸的语言进行阅读、写作和思考,Evo 2对生命之树具有通才式的理解,对于很多任务来说都有价值,比如预测致病突变、设计人工生命的潜在编码。

Evo 2及其后续版本是基因组和表观基因组设计领域迈向生成式生物学的第一步,结合现有的、在大规模可编程DNA操作方面的最新实验进展,Evo 2有望实现多样化合成生命的直接编程。

此外,借助特定应用的评分函数为推理过程提供指导,Evo 2能够设计出超越DNA本身的复杂生物架构。

Evo 2在预测「哪些突变是无害的」与「潜在的致病性」方面实现了超过90%的准确率,可以通过找到人类疾病的遗传原因并加速新药的开发,节省无数小时的研究时间和资金。

在未来,研究人员或许可以借助Evo 2的力量,解决人类那些「不治之症」,彻底消灭疾病。

Evo2架构:向光荣进化的硅基生物

Evo 2能够对DNA序列进行建模,并在中心法则的各个层面实现应用,涵盖分子和细胞尺度;模型基于DNA序列学习,无需针对特定任务进行微调,就能准确预测遗传变异的功能影响,例如非编码致病变异和具有临床意义的BRCA1基因变异。

Evo 2采用新的多混合StripedHyena 2架构,展示了短显式(SE)、中正则化(MR)和长隐式(LI)Hyena运算符的高效块布局,使Evo 2能够使用比Evo 1使用多30倍的数据进行训练,并且每次推理的核苷酸数量提升8倍。

Evo 2采用「两阶段」训练策略,在AWS上的NVIDIA DGX Cloud AI平台上经过几个月的训练,使用了超过2000块NVIDIA H100 GPU,可以一次性处理高达100万个核苷酸的长基因序列,使其能够理解基因组中相隔较远部分之间的关系。

在预训练阶段,Evo 2通过新颖的数据增强和权重分配方法,优先学习功能性的遗传元素;在中训练阶段,则专注于长序列的构建。

Evo 2的40B和7B版本在训练时分为短序列预训练阶段和长上下文中训练阶段。

在1024个GPU、40B规模下,StripedHyena 2相较于StripedHyena 1和Transformer架构,展现出更高的吞吐量。

Evo 2的中训练验证困惑度表明,随着模型规模和上下文长度的增加,模型性能得到提升。

通过修改后的「大海捞针」任务,Evo 2展示了其在长达100万个序列长度的长上下文中进行有效回忆的能力。

实验结果

通过在大规模的进化训练数据集上学习序列的概率,生物序列模型能够在没有任何针对特定任务的微调或监督的情况下,了解突变效应与生物功能之间的相关性,即零样本预测。

此前有效的零样本突变效应预测仅在「仅用蛋白质序列」训练的语言模型,或「仅用原核生物序列」训练的基因组语言模型中得到证实。

Evo 2能够在中心法则下的三种形式(DNA、RNA、蛋白质)和生命的三个领域(原核生物、古菌、真核生物)中学习序列可能性的分布,因此研究人员评估了Evo 2是否能够在所有这些形式和生物体中实现突变效应的预测。

所有生命领域的编码序列都遵循一个基本结构:以起始密码子开始,以终止密码子结束,并使用三联密码子来定义阅读框架。

为了评估Evo 2是否掌握了这些基本的生物学原理,研究人员首先测试了单核苷酸变异(SNVs)对Evo 2在蛋白质编码基因起始密码子周围基因组序列中的可能性的影响。他们在野生型序列的每个位置引入这些突变,并计算了Evo 2预测的可能性在数千个这样的位点上的变化。

结果表明,在原核生物和真核生物中,起始密码子内的突变会导致更剧烈的可能性变化,呈现出三联密码子的周期性模式,其中摆动位置的突变对可能性的影响较小。

在原核生物和真核生物的基因组中,研究人员还观察到一个与保守的核糖体结合位点一致的模式,证实了模型已经学会了这些基本的遗传特征,尽管模型在训练数据中从未见过这些序列的标注。

人类目前对基因组的理解认为,特定的遗传变化应该导致不同的表型后果。

例如,错义突变应该比同义突变更具破坏性,移码突变和提前终止密码子应该是最具破坏性的,而在必需的非编码元件中,缺失的影响应该比在基因间区域的缺失更大。

通过测量非编码和编码序列中各种突变的影响,研究人员评估了Evo 2的概率是否能够捕捉到这些已知的生物学规律。

在20种原核生物和16种真核生物中,模型的概率变化与已知的生物学限制一致。

在编码序列中,错义变异、提前终止密码子和移码突变导致的可能性变化远大于同义突变;

在非编码区域中,tRNA和rRNA中的缺失比基因间区域和其他非编码位点的缺失有更大的影响,符合对RNA重要性的已知信息。

未来,硅基智能创造细胞?

展望未来,研究人员设想了多种策略来提高Evo 2预测和设计的质量,目前可能更注重基因组序列的普遍进化分布,而不是特定的分类学特征。

将Evo 2与更多特征和人类基因组变异数据相结合,可能有助于改善致病性预测或分析结构变异;

利用机制可解释性,学习到的特征还可以增强对更复杂生物学概念的检测能力,并通过激活引导和特征限制来指导模型生成,从而实现对生成结果的可编程控制;

为了提高Evo 2生成功能的质量,可能需要通过实验反馈进行监督微调或强化学习

Evo2初步证明了通过推理时计算设计复杂生物系统的概念,未来这种方法还可以扩展到包括其他特性,例如选择性剪接、细胞类型特异性或基因回路功能。

进化论是生物学的统一理论,从基因到群体,通过DNA这一基础信息层传递自然选择的功能效应,Evo系列模型为生物学建模和设计奠定了基础,将生物学中不同尺度的信息统一到一个共同的表征中。

未来的工作如果将这一表征与表观基因组学和转录组学等更多模态信息相结合,可能会产生一个虚拟细胞模型,能够有效地模拟健康和疾病中的复杂细胞表型。

参考资料:

https://x.com/pdhsu/status/1892243493445050606

https://x.com/MichaelPoli6/status/1892242976942035029

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基因组课程准备--非小细胞肺癌的分子病理学与治疗进展
追风少年i
2025/06/16
1130
基因组课程准备--非小细胞肺癌的分子病理学与治疗进展
Nature|迄今为止最大的生物学AI模型Evo-2
2025年2月19日,Nature上发表文章Biggest-ever AI biology model writes DNA on demand,介绍了一个据称是迄今为止最大的生物学人工智能模型--Evo-2。
智药邦
2025/02/26
4062
Nature|迄今为止最大的生物学AI模型Evo-2
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
DrugAI
2025/03/10
2880
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
今天为大家介绍的是来自加拿大多伦多大学Bo Wang团队的一篇论文。基于transformer深度学习架构的大型语言模型已经彻底改变了自然语言处理领域。受人类语言与基因组生物学代码之间类比关系的启发,研究人员已开始基于transformer及相关架构开发基因组语言模型(gLMs)。本综述探讨了transformer和语言模型在基因组学中的应用。作者调查了适合使用gLMs的基因组学开放性问题,并论证了对这些问题使用gLMs和transformer架构的理由。作者讨论了gLMs通过无监督预训练任务对基因组进行建模的潜力,特别关注零样本和少样本学习的能力。作者探索了transformer架构的优势和局限性,以及当前gLMs更广泛的优势和局限性。此外,基于目前的研究趋势,作者思考了超越transformer架构的基因组建模的未来。本综述可作为对transformer和语言模型在基因组数据领域感兴趣的计算生物学家和计算机科学家的指南。
DrugAI
2025/04/04
1970
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
解码生命语言:深度学习模型TranslationAI揭示RNA翻译新规则
RNA翻译是基因表达的核心环节,其精确调控依赖于翻译起始位点(TIS)和终止位点(TTS)的准确识别。传统方法依赖于简单的经验规则(如Kozak序列或最长开放阅读框ORF),但忽略了RNA结构、顺式调控元件等复杂因素,导致预测准确性有限。近年来,深度学习技术在生物学领域的应用为解决此类复杂问题提供了新思路。近日,《Nucleic Acids Research》发表了一项突破性研究——TranslationAI,一个基于深度学习的模型,能够直接从全长度mRNA序列预测翻译起始位点(TIS)和终止位点(TTS),并揭示了翻译调控的新规律!
阔跃生物
2025/05/15
920
Science|用人工智能学习生命语言
2025年1月30日,Science发表文章Learning the language of life with AI。文章主要讲述了人工智能通过构建生命大语言模型(LLLM)破解了从蛋白质折叠到基因调控、细胞运作的多维度生命密码,正在将生物学从观察科学转化为可设计、可编程的工程科学,开启生物医学研究、药物开发和生命本质认知的革命性时代。
智药邦
2025/02/19
1580
Science|用人工智能学习生命语言
NAR|一个发现了复杂的生物学规则来破译RNA蛋白质编码潜力的深度递归神经网络
今天给大家介绍俄勒冈州立大学电气工程和计算机科学学院David A. Hendrix等人在Nucleic Acids Research上发表的文章“A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential”。目前新发现的RNA转录本的泛滥为改进编码潜力的评估、基因组注释的基石和机器驱动生物学知识的发现提供了一个独特的机会。传统的基于特征的RNA分类方法受到当前科学知识的限制,而深度学习方法可以独立地发现数据中复杂的生物规则。该模型mRNA RNN(mRNN),在数据较少,没有事先定义mRNA的概念和特征的情况下,超越了最先进的预测蛋白质编码潜力的方法。并且发现了几个对上下文敏感的密码子,它们对编码潜力具有很高的预测能力。
智能生信
2021/02/04
6090
深度丨斯坦福 AI Lab 重磅生物学成果:用 GAN 合成基因
雷锋网 AI 掘金志按:近日来自 Stanford 的 Anvita Gupta, James Zou 在 arXiv 上贴出他们近期的工作,利用 GANs 来生成编码可变长度蛋白质的合成 DNA 序列。
AI掘金志
2019/08/29
1.6K0
深度丨斯坦福 AI Lab 重磅生物学成果:用 GAN 合成基因
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
今天为大家介绍的是来自法国索邦大学Amir Pandi与Ariel B. Lindner团队的一篇论文。遗传密码具有简并性,这意味着多种不同的DNA序列可以编码同一种蛋白质。然而,为特定生物体优化密码子(codon)使用时,可能的组合数量庞大,使得这一任务极具挑战性。幸运的是,自然界中经过进化优化的序列为机器学习算法提供了宝贵的学习资源。作者提出了CodonTransformer,这是一个多物种深度学习模型,它通过分析来自164个涵盖生命所有领域生物体的超过100万对DNA-蛋白质序列进行训练。借助Transformer架构和创新的序列表示方法(结合了生物体、氨基酸和密码子编码),该模型展现出优秀的上下文理解能力。CodonTransformer能够生成针对特定宿主的DNA序列,这些序列不仅具有接近自然的密码子分布特征,还最大限度地减少了不良的顺式调控元件。研究团队还提出了共享Token表示和编码与对齐多重掩码(STREAM)策略,并开发了一个可定制的开源模型和用户友好的Google Colab界面,使研究人员能够轻松进行密码子优化,为基因设计和合成生物学提供了实用工具。
DrugAI
2025/05/08
1750
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
知识扩展---遗传病基因检测与ACMG分级
某些类型的变异(例如,无义、移码、典型±1或2剪接位点、起始密码子、单外显子或多外显子缺失)通常可以被认为通过缺乏转录或无义介导的改变转录物的衰变导致基因产物完全缺失而破坏基因功能。 在遗传学中,如果一个变异被预测或证实会导致基因编码的蛋白质完全失去功能,那么这个变异就被认为是一个null variant。例如,无义突变(nonsense mutation)会导致蛋白质合成提前终止,产生一个截短的、通常没有功能的蛋白质;移码突变(frameshift mutation)会改变蛋白质的阅读框架,导致其后所有的氨基酸序列发生改变,通常也会导致蛋白质失去功能;剪接位点的变异可能会影响RNA的正确剪接,进而影响蛋白质的功能;起始密码子变异可能会阻止蛋白质的合成;而大片段的缺失则可能会导致整个基因或其重要部分丢失,从而失去功能。 然而,在将这些变异归类为致病性时,必须谨慎考虑以下原则: (1)当将这些变异归类为致病性时,必须确保Null variants是一种已知的致病机制,与疾病的既定遗传模式相一致。 (2)最具致病性的3 '截断变异体下游的截断变异体时也必须谨慎。 (3)对于剪接位点变异,该变异可能导致外显子跳跃、缩短或内含子物质,这是由于使用替代供体/受体位点或创建新位点的结果。虽然预计剪接位点变异会导致null variants,但确认影响需要通过RNA或蛋白质分析进行功能分析。 (4)考虑到替代基因转录本的存在,了解哪些是生物学相关的,以及产物在哪些组织中表达,是很重要的。如果截断变异仅限于一个或不是所有的转录本,那么考虑到其他蛋白质同种异构体的存在,必须谨慎过度解释变异的影响.
追风少年i
2024/11/07
6080
知识扩展---遗传病基因检测与ACMG分级
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
英文标题:The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes
生信菜鸟团
2021/04/29
1.1K0
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
- 图片说明- 点图显示了基于PubMed搜索的每种人类基因的出版物总数。统计包括在摘要或正文文本中出现基因符号的已发表文章。该图的代码由M. Hirshey提供。
生信菜鸟团
2025/02/20
1580
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
近年来,自然语言处理(NLP)领域的快速发展为生物信息学带来了新的研究工具,尤其是大语言模型(如BERT、GPT)在蛋白质结构预测和基因调控分析中的成功应用,揭示了人工智能在生命科学中的巨大潜力。然而,基因组学领域仍面临两大核心挑战:如何解析海量非编码DNA的功能以及如何在低数据场景下实现高精度预测。
实验盒
2025/02/08
3570
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
【AI颠覆生命科学】从AlphaFold到虚拟细胞:人工智能正在「拆解」生命的语言
2025年1月30日,Science发表文章Learning the language of life with AI。这篇文章系统梳理了人工智能在生命科学领域的革命性突破:从AlphaFold破解蛋白质折叠难题,到多组学生命语言大模型(LLLM)实现分子设计、基因编辑和细胞图谱解析,再到多智能体协作的"虚拟实验室"和"AI虚拟细胞"(AIVC)的构想。
阔跃生物
2025/05/12
1930
热点综述 | 单细胞和空间多组学方法及其应用
2023年3月,《Nature Reviews Genetics 》发表了一篇综述文章,重点介绍了快速发展的单细胞和空间多组学技术(也称为多模式组学方法)领域的进展,以及跨这些分子层整合信息所需的计算策略。同时还展示了它们对基础细胞生物学和转化研究的影响。
尐尐呅
2023/09/06
9890
热点综述 | 单细胞和空间多组学方法及其应用
【Bioinformatics】四篇好文简读-专题10
Protein–RNA interaction prediction with deep learning: structure matters 论文摘要:
智能生信
2022/02/11
6830
【Bioinformatics】四篇好文简读-专题10
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。
新智元
2025/02/14
1410
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用
近年来,深度学习技术尤其是大型语言模型(LLM)的发展,为微生物组和宏基因组学研究带来了重大变革。微生物蛋白和基因组序列,如同自然语言一样,构成了生命的“语言”,使得LLMs能够从复杂的微生物生态中提取有价值的信息。
实验盒
2025/02/05
3880
万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用
生物信息学入门必须了解的名词
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
DoubleHelix
2020/04/21
3K0
ORFipy如何精准定位开放阅读框:原理、应用与实践
ORFipy是一种基于Python的工具,用于从基因组和转录组序列中快速、灵活地搜索开放阅读框(ORFs)。该工具由Urminder Singh和Eve Syrkin Wurtele开发,已发表在《Bioinformatics》杂志上。
简说基因
2025/02/20
3180
ORFipy如何精准定位开放阅读框:原理、应用与实践
推荐阅读
基因组课程准备--非小细胞肺癌的分子病理学与治疗进展
1130
Nature|迄今为止最大的生物学AI模型Evo-2
4062
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
2880
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
1970
解码生命语言:深度学习模型TranslationAI揭示RNA翻译新规则
920
Science|用人工智能学习生命语言
1580
NAR|一个发现了复杂的生物学规则来破译RNA蛋白质编码潜力的深度递归神经网络
6090
深度丨斯坦福 AI Lab 重磅生物学成果:用 GAN 合成基因
1.6K0
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
1750
知识扩展---遗传病基因检测与ACMG分级
6080
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
1.1K0
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
1580
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
3570
【AI颠覆生命科学】从AlphaFold到虚拟细胞:人工智能正在「拆解」生命的语言
1930
热点综述 | 单细胞和空间多组学方法及其应用
9890
【Bioinformatics】四篇好文简读-专题10
6830
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
1410
万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用
3880
生物信息学入门必须了解的名词
3K0
ORFipy如何精准定位开放阅读框:原理、应用与实践
3180
相关推荐
基因组课程准备--非小细胞肺癌的分子病理学与治疗进展
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档