Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型

从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型

作者头像
实验盒
发布于 2025-02-20 04:42:28
发布于 2025-02-20 04:42:28
1.1K0
举报
文章被收录于专栏:实验盒实验盒

基因组语言模型(Genomic Language Models)逐渐成为研究热点。2024年,Arc Institute的Brian L. Hie和Patrick D. Hsu研究团队发布了具有里程碑意义的基因组大语言模型Evo,可处理原核生物基因组长序列,相关成果发表在《Science》上。2025年2月19日,Arc Institute研究团队发布了Evo的升级版Evo 2,其在数据规模、模型架构、预测能力和生成能力等方面的显著升级,为跨生命域的基因组建模与设计提供了强大的支持。

数据规模与多样性:从Evo到Evo 2的飞跃

Evo 2的训练数据 OpenGenome2是其核心优势之一,包含超过9.3 万亿个 DNA 碱基对,覆盖了所有生命域的基因组,包括细菌、古菌、真核生物和噬菌体。

这一数据规模相比前代模型Evo使用的3000亿个碱基对实现了质的飞跃。而 Evo 的数据集覆盖范围和质量相对有限,主要集中于原核生物基因组。

与 Evo 相似,为了降低潜在的生物安全风险,Evo 2 的数据同样排除了感染真核生物的病毒序列。

这种规模和多样性的提升,使得 Evo 2 能够更全面地学习各类生物基因组的复杂特征,为基因组的功能预测与设计奠定了数据基础。

模型架构与训练方法的升级

Evo 2的架构采用了StripedHyena 2,这是一种结合卷积和注意力机制的混合架构,专为处理长序列数据设计。模型提供了7B和40B参数的两个版本,而Evo的参数规模较小,仅为7B。这一扩展使得Evo 2能够捕捉更复杂的基因组模式,在预测和生成任务中表现更为出色。

此外,Evo 2的上下文窗口扩展至100 万个碱基对,相比Evo的窗口,显著增强了其对长距离序列关系的理解能力。训练过程分为两个阶段:在预训练阶段,模型专注于学习短序列的功能基因元素;而在中训练阶段,上下文长度被进一步扩展,以捕捉长基因组距离之间的关系。这种分阶段训练策略使得Evo 2具备了在不同长度尺度上处理生物序列的能力。

预测能力的增强

Evo 2在基因变异功能预测方面表现卓越,尤其是在处理非编码区变异和剪接变异时展现了强大的能力。

例如,在对ClinVar数据集中致病性变异的零样本预测测试中,Evo 2的AUROC和 AUPRC均显著高于 Evo以及其他模型。这表明Evo 2不仅能够准确预测编码区变异的影响,还能识别非编码区变异的功能效应,这在以往研究中一直是一个难以攻克的难题。

此外,Evo 2对剪接变异的预测进一步加深了我们对基因表达调控和功能的理解。这些能力为研究基因组的功能调控机制提供了重要工具,也为未来个性化医疗和疾病研究开辟了新的方向。

生成能力的突破

除了预测能力,Evo 2在生成基因组序列方面也实现了重要突破。它能够生成完整的 线粒体基因组、最小细菌基因组以及 酵母染色体 等复杂序列。这些生成的序列不仅在结构上与自然序列高度相似,在功能上也表现出潜在的活性。

更为突出的是,Evo 2在生成过程中引入了推理时搜索(inference-time search) 技术,能够设计具有特定表观基因组特性的DNA序列,例如具备预设染色质可及性模式的序列。这种生成能力为合成生物学和基因组工程提供了强大的支持,而Evo的生成能力则主要集中于原核生物基因组,难以实现如此高的复杂性和自然性。

开放性与可扩展性

Evo 2的开放性是其另一大亮点。模型参数、训练代码、推理代码以及训练数据集均实现了开源。这种开放性为学术界和工业界的研究人员提供了极大的便利,使他们可以在 Evo 2的基础上进一步改进和开发应用。

生物安全与伦理考量

在生物安全和伦理问题上,Evo 2采取了更为谨慎的措施。例如,其训练数据中排除了感染真核生物的病毒序列,以确保模型不会被滥用于设计和操纵致病性病毒。这一策略不仅降低了潜在的生物安全风险,也体现了研究团队对伦理问题的高度重视。

应用前景

Evo 2的出现为计算生物学和生物信息学领域开辟了新的可能性。其强大的预测能力可以帮助研究人员更好地理解基因组序列的功能调控机制,支持疾病相关变异的挖掘以及个性化医疗的开发。同时,其生成能力为合成生物学提供了强大的支持,能够设计出具有特定功能的生物系统。

Evo 2的开源特性还加速了学术界和工业界的合作与创新。研究人员可以利用这个模型开发更多针对特定任务的应用,例如基因组注释、药物靶点发现以及新型生物材料的设计。

总结

Evo 2作为新一代基因组语言模型,在数据规模、模型架构、预测能力和生成能力等方面实现了显著提升。相比前代模型 Evo,Evo 2展现了更强的泛化能力和应用潜力,其对基因组复杂性的深刻理解为生命科学研究提供了新的工具和视角。未来,随着技术的进一步发展,Evo 2 有望在个性化医疗、合成生物学和基因组工程等领域发挥更重要的作用,为生命科学研究带来更多创新和突破。

参考

文献: https://arcinstitute.org/manuscripts/Evo2

代码: https://github.com/ArcInstitute/evo2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。
新智元
2025/03/31
850
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
Nature|迄今为止最大的生物学AI模型Evo-2
2025年2月19日,Nature上发表文章Biggest-ever AI biology model writes DNA on demand,介绍了一个据称是迄今为止最大的生物学人工智能模型--Evo-2。
智药邦
2025/02/26
4082
Nature|迄今为止最大的生物学AI模型Evo-2
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
今天为大家介绍的是来自加拿大多伦多大学Bo Wang团队的一篇论文。基于transformer深度学习架构的大型语言模型已经彻底改变了自然语言处理领域。受人类语言与基因组生物学代码之间类比关系的启发,研究人员已开始基于transformer及相关架构开发基因组语言模型(gLMs)。本综述探讨了transformer和语言模型在基因组学中的应用。作者调查了适合使用gLMs的基因组学开放性问题,并论证了对这些问题使用gLMs和transformer架构的理由。作者讨论了gLMs通过无监督预训练任务对基因组进行建模的潜力,特别关注零样本和少样本学习的能力。作者探索了transformer架构的优势和局限性,以及当前gLMs更广泛的优势和局限性。此外,基于目前的研究趋势,作者思考了超越transformer架构的基因组建模的未来。本综述可作为对transformer和语言模型在基因组数据领域感兴趣的计算生物学家和计算机科学家的指南。
DrugAI
2025/04/04
2000
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
DrugAI
2025/03/10
2900
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
RNA模型可以帮助发现疾病机制和候选药物
今天为大家介绍的是来自Tehmina Masud, Amit Deshwar, Shreshth Gandhi, Brendan J. Frey团队的一篇论文。精确地对RNA生物学进行建模和预测一直是一个长期存在的挑战,对于变异解释和定制治疗的制定具有重要的临床意义。作者提出了一个RNA生物学的基础模型,名为“BigRNA”,它经过了数千个基因组匹配数据集的训练,可以从DNA序列预测组织特异性的RNA表达、剪接、microRNA位点以及RNA结合蛋白的特异性。
DrugAI
2023/11/13
2690
RNA模型可以帮助发现疾病机制和候选药物
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
在基因组学领域,随着DNA测序技术的飞速发展,我们已经能够以前所未有的速度和精度解析生物的基因组序列。然而,如何准确预测和解读这些序列的功能,依然是一个巨大的挑战。
实验盒
2025/02/18
2730
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
深度学习在人类基因组学中的应用:下一代测序数据的综述
今天为大家介绍的是来自Mamoon Rashid的一篇关于深度学习在基因测序方面应用的综述论文。基因组学正朝着数据驱动的科学方向发展。随着高通量数据生成技术在人类基因组学中的出现,我们被大量的基因组数据所淹没。为了从这些基因组数据中提取知识和模式,人工智能尤其是深度学习方法起到了重要作用。在当前的综述中,作者讨论了深度学习方法/模型在人类基因组学不同子领域中的发展和应用。
DrugAI
2023/09/09
1.3K0
深度学习在人类基因组学中的应用:下一代测序数据的综述
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。
新智元
2025/02/14
1440
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
Nat. Methods | 用AI解读DNA,InstaDeep和英伟达联合推出DNA序列预训练模型
今天为大家介绍的是来自InstaDeep公司和英伟达公司的一篇论文。从DNA序列中预测分子表型一直是基因组学中的一个长期挑战,通常由于注释数据的有限性和在不同任务之间无法迁移学习的限制所导致。在本文中,作者提出了一项关于DNA序列预训练基础模型的深入研究,称之为Nucleotide Transformer。该模型的参数数量从5000万到25亿不等,整合了来自3202个人类基因组和850种不同物种基因组的信息。这些transformer模型能够生成针对上下文的核苷酸序列表示,从而即使在数据稀缺的情况下也能实现准确的预测。作者表明,所开发的模型可以通过低成本的微调来解决各种基因组学应用。尽管没有监督信号,这些模型仍能够聚焦于关键的基因组元素,并可用于改进遗传变异的优先级排序。在基因组学中,基础模型的训练和应用为从DNA序列中准确预测分子表型提供了一种具有广泛适用性的方法。
DrugAI
2024/12/31
2910
Nat. Methods | 用AI解读DNA,InstaDeep和英伟达联合推出DNA序列预训练模型
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
近年来,自然语言处理(NLP)领域的快速发展为生物信息学带来了新的研究工具,尤其是大语言模型(如BERT、GPT)在蛋白质结构预测和基因调控分析中的成功应用,揭示了人工智能在生命科学中的巨大潜力。然而,基因组学领域仍面临两大核心挑战:如何解析海量非编码DNA的功能以及如何在低数据场景下实现高精度预测。
实验盒
2025/02/08
3690
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
- 图片说明- a,b,NT训练概述(a)及其通过微调在下游基因组预测任务中的应用(b)。通过探测进行的下游任务预测类似,但没有NT中的重新缩放权重。c,NT模型与其他基础基因组学模型在感知场大小、参数数量和我们基准中包含的18个精选下游任务性能方面的比较。d,为下游任务考虑的基因组特征的图形表示(改编自其他地方48)。- ,
生信菜鸟团
2025/02/20
2320
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
Nat. Mach. Intell. | 聚焦心脏与基因调控:变异致病性判别的专属AI模型
临床上判别致病与良性遗传变异仍是一大挑战。现有的基因组基础模型虽通过弱监督或无监督学习提升了变异效应预测(VEP)准确性,但缺乏疾病特异性。为此,研究人员提出了DYNA(一种基于孪生神经网络的疾病特异性微调方法),可广泛应用于各类基因组基础模型,以提高疾病背景下的VEP表现。研究人员将DYNA应用于心血管疾病的编码区变异预测和RNA剪接调控的非编码变异预测,涵盖多种疾病-基因关联及致病性调控机制。在这两类任务中,DYNA均对预训练模型在小规模稀有变异数据上进行微调,表现出优于原模型的性能,并在ClinVar数据库中的大规模临床注释中得到验证。值得注意的是,不同基础模型在不同VEP任务中各有优势,因此需要DYNA这样的通用工具来最大限度发挥其潜力。综上,DYNA为临床变异解读提供了一种强有力的疾病特异性预测方法。
DrugAI
2025/03/28
980
Nat. Mach. Intell. | 聚焦心脏与基因调控:变异致病性判别的专属AI模型
GenomeOcean:基于宏基因组的大规模基因组基础模型
基因组基础模型(Genome Foundation Models, gFMs)作为计算生物学和生物信息学领域的重要工具,正在逐步改变精准医学、药物发现和复杂生物系统研究的格局。然而,现有模型在数据覆盖、计算效率和功能建模等方面存在明显局限,尤其是在表征低丰度和未培养微生物时表现不足。
实验盒
2025/02/08
2660
GenomeOcean:基于宏基因组的大规模基因组基础模型
DeepMind 利用无监督学习开发 AlphaMissense,预测 7100 万种基因突变
人类基因组共有 31.6 亿个碱基对,无时无刻不在经历复制、转录和翻译,也随时有着出错突变的风险。
HyperAI超神经
2023/09/27
2950
DeepMind 利用无监督学习开发 AlphaMissense,预测 7100 万种基因突变
谷歌DeepMind再登Science:用AI预测基因突变致病性,PK人类专家=89:0.1 | 开源
谷歌DeepMind在AlphaFold的基础上,训练出了专门预测人类基因组中错义突变致病性的AlphaMissense。
量子位
2023/09/22
2600
谷歌DeepMind再登Science:用AI预测基因突变致病性,PK人类专家=89:0.1 | 开源
人类基因组时代的泛基因组学
今天想分享一个主题:人类基因组时代的泛基因组学。主要内容源自今年《Nature Reviews Genetics》上一篇题为《Pan-genomics in the human genome era》的文章。
黄树嘉
2020/09/29
1.1K0
人类基因组时代的泛基因组学
UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型
对于揭示基因调控机制、理解复杂性状的遗传基础,基因表达预测具有重要意义。近年来,深度学习技术的进步推动了序列到功能(sequence-to-function)模型的发展,这些模型通过分析DNA序列信息预测基因表达水平。然而,传统模型多基于单一参考基因组训练,未能充分考虑个体间的遗传变异,导致其在个性化预测和跨群体应用中的性能受限。
实验盒
2025/03/03
4510
UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型
Nat. Biotechnol|仅需4卡3.5小时训练的DNA语言模型助力变异效应预测
预测基因组变异的效应是一个研究热点。随着全基因组测序技术的普及,我们积累了海量的基因组数据,但如何准确解读这些变异的生物学意义,尤其是非编码区变异的功能,仍然是一个巨大的挑战。
实验盒
2025/02/06
2500
Nat. Biotechnol|仅需4卡3.5小时训练的DNA语言模型助力变异效应预测
深度学习 + 基因组学:破译人类 30 亿碱基对
新智元专栏 作者:岳天溦 【新智元导读】基因技术被认为是改变未来的技术之一。根据麦肯锡的报告,预计到2025年,全球将会累计产生 10 亿人次的全基因组数据。基因组学所需的数据量如此巨大,用深度学习技术去探索人类基因组密码便成为了趋势与未来。本专栏将结合最新的一篇来自于卡耐基梅龙大学的综述论文,回顾与展望这一交叉学科的发展。 自从2013年变分自动编码器(VAEs)被提出,2014年Goodfellow提出生成对抗网络(GANs)起,生成式模型(generative models)深得深度学习研
新智元
2018/04/18
1.5K0
深度学习 + 基因组学:破译人类 30 亿碱基对
Nat. Genet. | 深度蛋白质语言模型在基因组范围内预测疾病变异效应
今天为大家介绍的是来自Chun Jimmie Ye和Vasilis Ntranos团队的一篇关于语言模型应用的论文。预测编码变异的效应是一个重大挑战。尽管最近的深度学习模型在变异效应预测准确性方面取得了改进,但由于依赖于近源同源物或软件限制,它们无法分析所有编码变异。在这里,作者开发了一个工作流程,使用ESM1b,一个拥有6.5亿参数的蛋白质语言模型,来预测人类基因组中约4.5亿个可能的错义变异效应。ESM1b在将约15万个ClinVar/HGMD错义变异分类为致病性或良性,并在28个深度突变扫描数据集中预测测量方面优于现有方法。
DrugAI
2023/09/26
3450
Nat. Genet. | 深度蛋白质语言模型在基因组范围内预测疾病变异效应
推荐阅读
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
850
Nature|迄今为止最大的生物学AI模型Evo-2
4082
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
2000
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
2900
RNA模型可以帮助发现疾病机制和候选药物
2690
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
2730
深度学习在人类基因组学中的应用:下一代测序数据的综述
1.3K0
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
1440
Nat. Methods | 用AI解读DNA,InstaDeep和英伟达联合推出DNA序列预训练模型
2910
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
3690
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
2320
Nat. Mach. Intell. | 聚焦心脏与基因调控:变异致病性判别的专属AI模型
980
GenomeOcean:基于宏基因组的大规模基因组基础模型
2660
DeepMind 利用无监督学习开发 AlphaMissense,预测 7100 万种基因突变
2950
谷歌DeepMind再登Science:用AI预测基因突变致病性,PK人类专家=89:0.1 | 开源
2600
人类基因组时代的泛基因组学
1.1K0
UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型
4510
Nat. Biotechnol|仅需4卡3.5小时训练的DNA语言模型助力变异效应预测
2500
深度学习 + 基因组学:破译人类 30 亿碱基对
1.5K0
Nat. Genet. | 深度蛋白质语言模型在基因组范围内预测疾病变异效应
3450
相关推荐
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档