前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >《Science》一个能够模拟5亿年进化的AI模型,设计出全新蛋白质

《Science》一个能够模拟5亿年进化的AI模型,设计出全新蛋白质

作者头像
用户11203141
发布2025-03-06 21:05:46
发布2025-03-06 21:05:46
30
举报

ESM3,一个能够模拟5亿年进化的AI模型!这项研究刚刚登上了《科学》杂志,标志着生物编程领域迈入了一个全新的时代。

文献地址:https://www.science.org/doi/10.1126/science.ads0018

不仅如此,他们还开放了生物智能API的公测版本,让全球的科学家们都能通过Forge平台免费体验这一前沿工具(地址链接在文末)。一起来了解一下吧!

神器的蛋白质

35亿年前,地球上的生命从一堆化学反应中悄然诞生。大自然不仅创造了RNA、蛋白质和DNA这些生命核心分子,还顺手发明了核糖体——这个分子工厂能根据基因组指令制造蛋白质。蛋白质可是个神奇的东西,它们不仅是分子引擎、光合机器,还是细胞骨架的构建者、环境传感器,甚至是生命程序的运行系统。可以说,蛋白质是疾病与健康的幕后推手,许多救命药物也是蛋白质。

生物学是迄今为止最先进的技术,远超人类工程学的任何成就。核糖体是可编程的,它能根据RNA的指令从头构建蛋白质,实现原子尺度的制造。地球上的每个生物细胞都拥有成千上万个这样的分子工厂。然而,即便是最复杂的计算工具,也仅仅触及了生物学的皮毛——因为生物学的语言我们尚未完全理解。

如果我们能学会读写生命的代码,生物学将变得可编程。试错将被逻辑取代,繁琐的实验将被模拟取代。这就是新公司EvolutionaryScale的使命——推出ESM3,一个前沿的生命科学语言模型,帮助我们更好地编程和创造生命代码。

ESM3:生物编程的里程碑

ESM3是第一个同时推理蛋白质序列、结构和功能的生成模型。它接受了地球上数十亿蛋白质的训练,从亚马逊雨林到深海热泉,再到土壤中的微生物,无所不包。ESM3的训练使用了当今世界上最高吞吐量的GPU集群,拥有超过1x10²⁴ FLOPS的计算能力和980亿参数。可以说,这是迄今为止计算资源投入最大的生物模型训练。

已有研究表明,语言模型(如ProtBERT、ProtGPT)能够有效解码蛋白质序列中的模式,从而帮助理解其功能特性。更重要的是,随着模型规模的扩大,语言模型在性能和准确性上展现出显著的提升。

为了训练ESM3模型,研究人员整合了大规模的生物数据,包括31.5亿条蛋白质序列、2.36亿个蛋白质结构以及5.39亿个带有功能注释的蛋白质数据。ESM3模型提供了三种参数规模,分别为14亿、70亿和980亿。实验结果表明,随着参数规模的增加,ESM3在生成能力和表示学习性能上均有显著提升,尤其是在蛋白质结构生成任务中,980亿参数的模型表现尤为突出,超越了现有模型的性能。

ESM3 是一个多轨转换器,可联合推理蛋白质序列、结构和功能

ESM3不仅是一个传统的序列生成模型,更是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能信息。其核心方法为“生成掩码语言模型”,通过对输入中的序列、结构和功能进行随机掩码,并利用模型推理生成缺失部分,展现了在多种生成任务上的卓越性能。这一突破性成果为蛋白质设计和功能预测提供了全新的工具和方法。

研究人员通过随机掩码蛋白质序列和结构,并对比生成结果与真实蛋白质的匹配情况,发现ESM3能够生成高质量的蛋白质序列和结构,其与真实结构的平均差异仅为0.5Å,显示出极高的准确性。

在输入天然绿色荧光蛋白(GFP)核心区域几个残基的结构信息后,ESM3通过链式推理生成了一系列新型GFP候选蛋白。从天文数字般的序列和结构可能性(确切地说是202²⁹ × 4096²²⁹种,远超可见宇宙中的原子总数)中随机生成一个功能性蛋白几乎是不可能的。在首次实验中,我们测试了96个生成蛋白,发现其中多个蛋白具有荧光特性,包括一个与自然界任何已知蛋白都差异显著的蛋白。该蛋白位于实验板的B8孔中,其荧光亮度仅为天然GFP的1/50,且其荧光色素的成熟时间长达一周(而非天然GFP的不到一天),但它在序列空间的未知区域展示了功能性信号。

在一系列的两个实验中,ESM3 生成了 B8,这是一种与自然界中已知的所有 GFP 相去甚远的暗淡 GFP。从 B8 开始,ESM3 生成 esmGFP,这是一种远距离 GFP,其亮度与其他天然 GFP 相似。

基于B8的序列,我们继续通过链式推理生成了另一组96个蛋白。测试结果显示,其中多个蛋白的荧光亮度与天然GFP相当,其中最亮的蛋白位于C10孔,我们将其命名为esmGFP。esmGFP与自然界中最接近的荧光蛋白相比,有96个氨基酸突变(在229个氨基酸中,序列相似性为58%)。这一成果展示了ESM3在探索全新蛋白质序列空间中的强大能力。

随着模型规模的增长,ESM3展现出了前所未有的能力。它不仅能生成新的蛋白质,还能通过多模态推理,结合序列、结构和功能,设计出具有特定功能的蛋白质。比如,我们用它设计了一种新的绿色荧光蛋白(GFP),其序列与已知的荧光蛋白仅有58%的相似性。根据自然界GFP的多样化速度,我们估计这一生成过程相当于模拟了超过5亿年的进化!

开放模型:加速科研进程

自ESM项目启动以来,EvolutionaryScale一直坚持开放科学的原则,发布代码和模型。他们相信,分享研究成果和代码能加速科学进步,最大化对世界的积极影响。他们已经看到了ESM模型在研究和工业中的广泛应用,比如抗体进化、新冠病毒变种检测、抗CRISPR蛋白设计等。未来,EvolutionaryScale将继续发布开放模型,推动科研社区的发展。

Forge平台地址:forge.evolutionaryscale.ai

AI与生物学的深度融合

EvolutionaryScale相信,未来AI将帮助我们理解生命的复杂系统,推动科学发现,治愈疾病,并构建一个更可持续的世界。ESM3只是我们生物编程 roadmap 的第一步。未来,我们将开发更多多模态模型,整合从分子到细胞的各个生命尺度,帮助人类更好地理解和编程生物学,创造一个更美好的世界。

总之,ESM3的发布标志着生物编程的新纪元已经到来。让我们一起期待,AI与生物学的深度融合将如何改变世界!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信俱乐部 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档