基因组语言模型(Genomic Language Models)逐渐成为研究热点。2024年,Arc Institute的Brian L. Hie和Patrick D. Hsu研究团队发布了具有里程碑意义的基因组大语言模型Evo,可处理原核生物基因组长序列,相关成果发表在《Science》上。2025年2月19日,Arc Institute研究团队发布了Evo的升级版Evo 2,其在数据规模、模型架构、预测能力和生成能力等方面的显著升级,为跨生命域的基因组建模与设计提供了强大的支持。
Evo 2的训练数据 OpenGenome2是其核心优势之一,包含超过9.3 万亿个 DNA 碱基对,覆盖了所有生命域的基因组,包括细菌、古菌、真核生物和噬菌体。
这一数据规模相比前代模型Evo使用的3000亿个碱基对实现了质的飞跃。而 Evo 的数据集覆盖范围和质量相对有限,主要集中于原核生物基因组。
与 Evo 相似,为了降低潜在的生物安全风险,Evo 2 的数据同样排除了感染真核生物的病毒序列。
这种规模和多样性的提升,使得 Evo 2 能够更全面地学习各类生物基因组的复杂特征,为基因组的功能预测与设计奠定了数据基础。
Evo 2的架构采用了StripedHyena 2,这是一种结合卷积和注意力机制的混合架构,专为处理长序列数据设计。模型提供了7B和40B参数的两个版本,而Evo的参数规模较小,仅为7B。这一扩展使得Evo 2能够捕捉更复杂的基因组模式,在预测和生成任务中表现更为出色。
此外,Evo 2的上下文窗口扩展至100 万个碱基对,相比Evo的窗口,显著增强了其对长距离序列关系的理解能力。训练过程分为两个阶段:在预训练阶段,模型专注于学习短序列的功能基因元素;而在中训练阶段,上下文长度被进一步扩展,以捕捉长基因组距离之间的关系。这种分阶段训练策略使得Evo 2具备了在不同长度尺度上处理生物序列的能力。
Evo 2在基因变异功能预测方面表现卓越,尤其是在处理非编码区变异和剪接变异时展现了强大的能力。
例如,在对ClinVar数据集中致病性变异的零样本预测测试中,Evo 2的AUROC和 AUPRC均显著高于 Evo以及其他模型。这表明Evo 2不仅能够准确预测编码区变异的影响,还能识别非编码区变异的功能效应,这在以往研究中一直是一个难以攻克的难题。
此外,Evo 2对剪接变异的预测进一步加深了我们对基因表达调控和功能的理解。这些能力为研究基因组的功能调控机制提供了重要工具,也为未来个性化医疗和疾病研究开辟了新的方向。
除了预测能力,Evo 2在生成基因组序列方面也实现了重要突破。它能够生成完整的 线粒体基因组、最小细菌基因组以及 酵母染色体 等复杂序列。这些生成的序列不仅在结构上与自然序列高度相似,在功能上也表现出潜在的活性。
更为突出的是,Evo 2在生成过程中引入了推理时搜索(inference-time search) 技术,能够设计具有特定表观基因组特性的DNA序列,例如具备预设染色质可及性模式的序列。这种生成能力为合成生物学和基因组工程提供了强大的支持,而Evo的生成能力则主要集中于原核生物基因组,难以实现如此高的复杂性和自然性。
Evo 2的开放性是其另一大亮点。模型参数、训练代码、推理代码以及训练数据集均实现了开源。这种开放性为学术界和工业界的研究人员提供了极大的便利,使他们可以在 Evo 2的基础上进一步改进和开发应用。
在生物安全和伦理问题上,Evo 2采取了更为谨慎的措施。例如,其训练数据中排除了感染真核生物的病毒序列,以确保模型不会被滥用于设计和操纵致病性病毒。这一策略不仅降低了潜在的生物安全风险,也体现了研究团队对伦理问题的高度重视。
Evo 2的出现为计算生物学和生物信息学领域开辟了新的可能性。其强大的预测能力可以帮助研究人员更好地理解基因组序列的功能调控机制,支持疾病相关变异的挖掘以及个性化医疗的开发。同时,其生成能力为合成生物学提供了强大的支持,能够设计出具有特定功能的生物系统。
Evo 2的开源特性还加速了学术界和工业界的合作与创新。研究人员可以利用这个模型开发更多针对特定任务的应用,例如基因组注释、药物靶点发现以及新型生物材料的设计。
Evo 2作为新一代基因组语言模型,在数据规模、模型架构、预测能力和生成能力等方面实现了显著提升。相比前代模型 Evo,Evo 2展现了更强的泛化能力和应用潜力,其对基因组复杂性的深刻理解为生命科学研究提供了新的工具和视角。未来,随着技术的进一步发展,Evo 2 有望在个性化医疗、合成生物学和基因组工程等领域发挥更重要的作用,为生命科学研究带来更多创新和突破。
文献: https://arcinstitute.org/manuscripts/Evo2
代码: https://github.com/ArcInstitute/evo2
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有