Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者

ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者

作者头像
DrugAI
发布于 2024-07-05 05:00:28
发布于 2024-07-05 05:00:28
2870
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自字节跳动Quanquan Gu团队的一篇论文。这篇论文介绍了扩散蛋白质语言模型(DPLM),这是一种多才多艺的蛋白质语言模型,展示了对蛋白质序列强大的生成和预测能力。首先,作者在一个生成自监督离散扩散概率框架中,使用进化尺度的蛋白质序列进行可扩展的DPLM预训练,这以一种有原则的方式推广了蛋白质的语言建模。在预训练之后,DPLM展示了无条件生成结构上合理、新颖且多样的蛋白质序列的能力。作者进一步证明了所提出的扩散生成预训练使DPLM对蛋白质有更好的理解,成为一种更优的表示学习者,可以针对各种预测任务进行微调,与ESM2相比具有优势。此外,DPLM可以根据各种需求进行定制,展示了其在多种条件生成方面的强大能力:(1)基于部分肽序列的条件生成,例如高成功率地生成功能基序(functional motif)的支架(scaffold);(2)将其他模态作为条件,如结构条件生成用于逆折叠;(3)通过插入式分类器引导,将序列生成引导至所需的特性,例如满足指定的二级结构。

尽管当前的蛋白质语言模型已经取得了显著进展,但它们尚未发挥出全部潜力。其中一个基本问题源于广泛使用的预训练目标,即掩码预测与自回归:

(i) 对于掩码预测,掩码语言模型(Masked-LMs,例如ESM系列)在蛋白质预测任务中表现出色,得益于它们的双向感受野。然而,由于缺乏对生成建模的明确定义,掩码语言模型无法进行蛋白质序列生成。作者进一步推测,这甚至可能限制它们的预测能力,因为一个强大的生成模型能够通过学习底层数据分布来创建新样本,同时也会深入理解数据。正如那句名言所说,“你不能创造的东西,你就不理解。”

(ii) 对于自回归,自回归语言模型(AR-LMs,例如ProGen),尽管在生成方面表现良好,但通常在理解序列数据,包括蛋白质方面有所不足。更重要的是,蛋白质是结构性大分子,而不是简单的线性字符串。因此,虽然AR-LMs作为文本归纳偏差是有效的,但它们受限于单向感受野,仅能访问单侧序列上下文。这一限制源于对氨基酸复杂全局相互作用的捕捉不足,从而阻碍了蛋白质语言模型的生成和预测能力。

这突显了对一种通用且多才多艺的蛋白质语言模型的需求,该模型能够结合预测和生成能力。基于上述分析,作者认为,实现这种多功能蛋白质语言模型的关键因素在于:(1) 强大且可扩展的生成建模框架,以最佳方式处理大量蛋白质序列;(2) 双向感受野,以更好地建模逐残基的全局相互作用。而扩散模型在生成高仿真度图像方面大放异彩,还在蛋白质结构建模方面取得了难以置信的成就。它的成功可以归功于扩散模型中具有迭代微调与全局感受野的非自回归去噪生成。

这些因素使得扩散模型成为蛋白质语言建模中具有吸引力的生成基础。然而,直接将传统的高斯扩散应用于蛋白质序列需要额外的连续松弛,这与蛋白质序列的离散性质不符,并且在实践中尚未证明成功。

模型部分

离散扩散(discrete diffusion),即直接在离散状态空间上操作的扩散模型,成为蛋白质序列更适合的概率模型。离散扩散的前向过程定义了一个由转移核控制的马尔可夫过程,其中Cat(x; p)为蛋白质序列x的分类分布。

如Austin等(2021年)所述,离散扩散本质上与AR-LM和Masked-LM相关,而Zheng等(2023a)进一步简化了离散扩散的学习目标,通过他们提出的重新参数化后向转移,将两个分类分布之间的KL散度转化为重新加权的交叉熵:

给定一个训练好的DPLM,它可以通过离散扩散的反向迭代去噪过程合成新的氨基酸序列。形式上,离散扩散从以下分布中采样:

图 1

能够高效采样出真实的蛋白质是必要的,但对于下游应用如治疗开发来说还不够,因为无条件的样本不太可能具备所需的功能特性。这里,作者详细说明了如何通过针对各种需求进行条件设置,使DPLM在实际中更有用,包括最常见的场景,即序列条件设置、跨模态条件设置和即插即用的偏好引导条件设置。

案例一:基于部分序列的条件设置(图1C-1)。包含预先指定多肽的蛋白质生成对应于各种用例,例如为给定的功能基序生成支架、填充抗体CDR环或预先施加专家知识。

案例二:将DPLM适应于其他模态的条件设置(图1C-2)。生成受跨模态约束c约束的蛋白质序列,在实际应用中具有重要价值,例如反向蛋白质折叠,在给定骨架结构的情况下生成序列,或基于小分子配体进行结合物设计。鉴于DPLM主要处理氨基酸标记,在这些情况下,可以通过适配器微调与预训练模态专家编码器Eφ(c)以及新添加的基于交叉注意力的适配器,为DPLM配备跨模态条件设置。

案例三:通过离散分类器引导进行即插即用的可控生成(图1C-3)。

无条件生成性能

图 2

图2显示了DPLM在无条件生成任务中的结果,作者评估了一组长度为[100, 200, ..., 900, 1000](间隔为100)的性能。DPLM的逆过程采样迭代进行了500步。同时,作者还随机从UniRef50中选取相同长度的天然序列作为参考(标记为UR50)。

(1) 关于可折叠性:DPLM能够生成具有合理预测结构的蛋白质序列。作者使用最先进的单序列结构预测模型ESMFold来检查蛋白质序列的结构合理性或可折叠性,并通过预测的局部距离差异测试(pLDDT)评分来衡量。如果pLDDT > 70,则被认为是高置信度。作者发现,DPLM生成的蛋白质序列在所有长度上都达到了最高的pLDDT评分(图2A)。此外,DPLM生成的序列的二级结构分析显示出更高比例的β折叠(图2D),整体上与PDB中已知蛋白质结构的统计数据相似。而且,作者可以看到,扩展DPLM的规模可以提高可折叠性性能,尤其是对于非常长的蛋白质(图2E)。

(2) 关于新颖性。作者研究了DPLM是否能够生成具有新颖结构的序列,并通过与PDB中的已知结构进行结构相似性比较来进行评估,使用TMScore进行测量。最高的TMScore用于衡量每个序列的新颖性,我们称之为pdb-TM评分。总体而言,DPLM的pdb-TM评分相对高于EvoDiff和天然序列,如图2B所示。有趣的是,当蛋白质长度超过300时,DPLM的pdb-TM评分会下降,但仍保持pLDDT > 75。这表明DPLM具有生成与PDB中各种长度的已知结构不相似的序列的能力,且随着序列长度的增加,这种差异变得越来越明显。

(3) 关于多样性。作者通过inner-TM评分量化DPLM生成序列的多样性。具体而言,对于每个生成的候选序列,作者使用ESMFold预测其结构,并与其余序列计算TM评分。平均TM评分被视为多样性指标。如图2C所示,DPLM的平均内部TM评分相当低,这表明DPLM能够合成结构上多样化的序列。

(4) 关于学习:与掩码语言模型(Masked-LM)和自回归语言模型(AR-LM)相比,离散扩散是最适合蛋白质序列生成的概率框架。如图2F所示,DPLM在可折叠性方面优于掩码语言模型和自回归语言模型,这验证了作者追求扩散蛋白质语言模型的动机,即扩散是蛋白质建模的更适合的概率框架。此外,自回归语言模型在精确控制生成序列长度方面也存在不足,使其在实际应用中不够灵活。如图2G所示,作者发现尽管通过从头开始直接预训练DPLM(DPLM-FS)能够在生成质量上优于ESM2,但这会带来额外的学习挑战和训练开销。因此,作者采用了两阶段训练策略,第一阶段目标为掩码语言建模,随后为扩散目标,解决了这一问题,并获得了接近90的高质量生成pLDDT。

(5) 案例研究。在图2H中,作者展示了DPLM生成的各种长度的蛋白质,从100到1000。随着蛋白质长度的增加,其结构的复杂性也会增加,包含丰富的螺旋和片层结构。作者还发现,DPLM可以生成由串联重复组成的蛋白质,例如β桶或Kelch重复域。

各种蛋白质预测下游任务的性能

作者在多种蛋白质预测任务中评估了DPLM,包括蛋白质功能预测(热稳定性和金属离子结合)、蛋白质定位预测(DeepLoc)、蛋白质注释预测(EC和GO)、蛋白质-蛋白质相互作用预测(HumanPPI),在每个数据集上都进行了全参数的监督微调。作者还包括了来自TAPE的二级结构线性探测。

表 1

DPLM是一个优越的蛋白质序列表示学习模型。正如表1所示,DPLM在所有任务中都优于ESM2。这种性能提升归因于提出的扩散预训练方法,该方法要求DPLM从不同程度的掩码中重建原始序列,包括非常高的噪声水平,而ESM2则使用固定的15%掩码比例。在这种情况下,掩码氨基酸的重建任务变得更加具有挑战性,促使模型从上下文中捕捉到更深层次的依赖关系。此外,作者惊讶地发现,DPLM的表现也接近于SaProt,这是一个基于Foldseek和AlphaFold等折叠模型的结构感知语言模型。这表明DPLM可能从大量的序列数据中隐含地学习到了蛋白质结构。将显性结构信息整合到DPLM中,可能会带来进一步的好处,这值得进一步探索。研究结果证实了作者的初衷,即DPLM通过生成学习过程对蛋白质有了更深入的理解,即通过学习生成蛋白质来更好地理解它们,从而提高了预测性能。

条件生成任务上的性能

图 3

DPLM可以为给定的功能基序生成合理的支架。如图3所示,作者发现DPLM在解决问题的数量和平均成功率方面优于EvoDiff。此外,在DPLM和EvoDiff都能解决的问题上,除了3ixt外,DPLM的成功率均高于EvoDiff。这表明DPLM在基序支架生成方面表现出色,能够在生成支架的过程中保持基序结构。

为了获得更多见解,作者将结构约束的DPLM与在结构设计上达到sota性能的RFDiffusion模型进行了比较。作者发现DPLM在6个问题上表现更好,尤其是在1PRW和5YUI上。利用基序结构帮助DPLM在4个问题上进一步改进了性能,而在其他6个问题上则表现有所下降。这意味着对于某些特定的基序,在序列空间中进行支架生成可能会更好。

表 2

DPLM生成的序列能够自信地折叠成给定的骨架结构。如表2所示,DPLM在氨基酸恢复率(AAR)方面能超越或与强大的基准方法(包括最新的LM-DESIGN方法)持平,更重要的是在结构评估方面表现出色(scTM = 0.85 和 pLDDT > 76)。作者认为,这源于DPLM对蛋白质序列知识的深度学习。在给定结构骨架信息的情况下,DPLM能够利用这一优势生成结构合理且与参考结构相似的序列。

图 4

DPLM具有即插即用的编程能力。图4展示了所提出的离散分类器引导如何帮助预训练的DPLM生成满足提供的二级结构注释的样本,这些注释是从模板天然蛋白质中提取的。这些发现表明,DPLM高度可编程,其生成能力的全部潜力可以以即插即用的方式实现,表明DPLM保留了扩散模型中对离散数据进行可控生成的吸引人特性。这种迅速适应用户在广泛偏好上的不断变化需求的灵活性,在时间和计算至关重要的实际应用中也具有重要意义。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Wang, X., Zheng, Z., Ye, F., Xue, D., Huang, S., & Gu, Q. (2024). Diffusion Language Models Are Versatile Protein Learners. arXiv preprint arXiv:2402.18567.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
今天为大家介绍的是来自Clara T. Schoeder团队的一篇论文。计算蛋白质序列设计的目标是修改现有蛋白质或创建新蛋白质,但在没有对蛋白质动态和变构调控进行预测的情况下设计稳定且功能性的蛋白质具有挑战性。在蛋白质设计方法中引入进化信息可以将突变的空间限制在更类似原生蛋白的序列中,从而在保持功能的同时提高稳定性。最近,经过对数百万蛋白质序列训练的语言模型在预测突变效果方面表现出色。使用语言模型对Rosetta设计的序列进行评估,其评分低于其原始序列。为了在Rosetta设计协议中引入语言模型的预测,我们使用ESM(Evolutionary Scale Modeling,进化尺度建模)模型添加了一种新指标,以在设计过程中约束能量函数。生成的序列在语言模型评分和序列恢复方面表现更好,且Rosetta能量评估显示其适应性仅略微下降。总之,作者的工作结合了最新的机器学习方法与Rosetta蛋白质设计工具箱的优势。
DrugAI
2024/05/25
2950
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
蛋白质语言模型(Protein Language Models, pLMs)已成为研究蛋白质序列与功能之间关系的重要工具。这些模型通过自监督学习从蛋白质序列中提取进化信息,为下游任务提供了丰富的特征表示。然而,尽管其在序列分析方面表现优异,现有模型通常缺乏对蛋白质三维结构的直接理解,这限制了它们在需要结构洞察的任务中的应用。
实验盒
2025/02/25
1440
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测
蛋白质在各种生化过程中起着至关重要的作用。大型蛋白质语言模型(PLM)通过加速蛋白质功能的确定和具有所需功能的蛋白质的设计,在重塑蛋白质研究方面具有良好的潜力。PLM的预测和设计能力依赖于从蛋白质序列中获得的表示。然而,大多数PLM缺乏关键的3D结构信息,这限制了PLM在各种应用中的预测能力,特别是在高度依赖3D结构的应用中。
智药邦
2025/02/05
2410
密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
今天为大家介绍的是来自之江实验室、浙江大学、南京师范大学、香港中文大学、清华大学、阿里巴巴团队的一篇论文。大型语言模型以其在捕捉复杂模式(包括共同进化关系和潜在的蛋白质语言)方面的有效性而著称。然而,当前的方法通常难以展示基因组插入、复制和插入/缺失(indels)的出现,而这些因素占人类致病性突变的约14%。鉴于结构决定功能,结构相似的突变蛋白更有可能在生物进化中保存下来。受此启发,作者利用受大型语言模型启发的跨模态对齐(cross-modality alignment)和指令微调(instruct fine-tuning)技术,将生成式蛋白质语言模型与蛋白质结构指令对齐。具体而言,我们提出了一种生成可变长度和多样化蛋白质的方法,以探索和模拟生命的复杂进化,从而扩大蛋白质工程的选择范围。作者提出的基于蛋白质语言模型的方法InstructPLM在计算机模拟和实验中都表现出显著的性能提升。在天然蛋白质主链上,它实现了2.68的困惑度(perplexity)和57.51的序列恢复率(sequence recovery rate),分别比ProteinMPNN高39.2%和25.1%。此外,作者通过重新设计PETase和L-MDH验证了模型的有效性。对于PETase,所有设计的15个可变长度的PETase都表现出解聚活性,其中11个超过了野生型的活性水平。对于L-MDH,一种缺乏实验确定结构的酶,InstructPLM能够设计出具有AF2预测结构的功能性酶。InstructPLM的代码和模型权重都公开在https://github.com/Eikor/InstructPLM。
DrugAI
2024/06/04
2330
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
Nat. Comput. Sci. | 基于评分的生成建模用于全新蛋白质设计
今天为大家介绍的是来自Philip M. Kim团队的一篇关于蛋白质设计的的论文。在蛋白质设计中,通过预定义的功能和特性生成全新的蛋白质结构仍然是一个具有挑战性的问题。最近,扩散模型,也称为基于评分的生成模型(SGM),在图像合成方面展现出了惊人的实证性能。在这里,作者使用基于图像的蛋白质结构表示来开发ProteinSGM,这是一个基于评分的生成模型,能够产生逼真的全新蛋白质。通过无条件生成,作者展示了ProteinSGM能够生成类似天然蛋白质结构,超过了以前报告的生成模型的性能。
DrugAI
2023/09/19
3740
Nat. Comput. Sci. | 基于评分的生成建模用于全新蛋白质设计
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
今天为大家介绍的是来自Po-Ssu Huang团队的一篇论文。蛋白质中的信息流是从序列到结构再到功能,每一步都是由前一步驱动的。蛋白质设计的基础是反转这一过程:指定一个期望的功能,设计执行这个功能的结构,并找到一个能够折叠成这个结构的序列。这个“中心法则”几乎是所有全新蛋白质设计工作的基础。我们完成这些任务的能力依赖于我们对蛋白质折叠和功能的理解,以及我们将这种理解捕捉到计算方法中的能力。近年来,深度学习衍生的方法在高效和准确的结构建模和成功设计的丰富化方面使我们能够超越蛋白质结构的设计,向功能蛋白质的设计前进。
DrugAI
2024/04/12
1160
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
本文介绍一篇拜罗伊特大学2022年7月发表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白质设计在自然环境和生物医学中发挥着重要作用,旨在为特定用途设计全新的蛋白质。受到近期Transformer架构在文本生成领域成功的启发,作者提出ProtGPT2,一种在蛋白质空间上训练的语言模型,用于生成遵循自然序列原则的全新蛋白质序列。ProtGPT2生成的蛋白质显示出天然氨基酸倾向,而无序预测表明,88%的ProtGPT2生成的蛋白质是球状的,与自然序列一致。蛋白质数据库中的敏感序列搜索表明,ProtGPT2序列与自然序列有着远亲关系,相似网络进一步证明,ProtGPT2是对蛋白质空间中未探索区域的采样。ProtGPT2生成的序列在探索蛋白质空间的未知区域时,保留了天然蛋白质的关键特征。
DrugAI
2022/11/28
5430
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
ICML 2024 | Proteus:开创性的蛋白质结构生成技术
今天为大家介绍的是来自浙江大学、西湖大学、杜克大学团队的一篇论文。新型的蛋白质设计方法的开发对生物学和化学中的广泛应用至关重要。蛋白质骨架扩散技术旨在高效地生成可设计的蛋白质结构。尽管蛋白质结构预测已经取得了巨大进展,但将这些方法应用于蛋白质扩散一直具有挑战性且效率低下。作者引入了Proteus,这是一种创新的方法,使用基于图的三角形方法和多轨交互网络。在计算评估中,Proteus展示了最前沿的设计性和效率。作者通过实验表征测试了模型的可靠性。分析表明,从计算和实验的角度来看,它能够以极高的成功率生成蛋白质。作者相信,Proteus能够在无需预训练技术的情况下快速创建高度可设计的蛋白质骨架,这将极大地增强对蛋白质结构扩散的理解,并促进蛋白质设计的进步。
DrugAI
2024/07/05
2080
ICML 2024 | Proteus:开创性的蛋白质结构生成技术
Nat. Biotechnol. | 利用语言模型设计蛋白质
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
DrugAI
2024/03/26
2400
Nat. Biotechnol. | 利用语言模型设计蛋白质
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
今天为大家介绍的是来自Daniel Jesus Diaz团队的一篇论文。基于AI的蛋白质工程框架使用自监督学习(SSL)来获得用于下游突变效果预测的表示。最常见的训练目标是野生型准确性:在一个序列或结构中屏蔽一个野生型残基,然后预测缺失的氨基酸。然而,野生型准确性与蛋白质工程的主要目标不符,后者是建议突变而不是识别自然界中已存在的氨基酸。作者在此提出进化排名(EvoRank),这是一种结合从多序列比对(MSAs)中提取的进化信息的训练目标,用于学习更多样化的蛋白质表示。EvoRank对应于在MSA引导的概率分布中对氨基酸可能性进行排名。这个目标迫使模型学习蛋白质的潜在进化动态。在各种表型和数据集上,作者证明了EvoRank在零样本性能方面有显著提升,并且可以与在实验数据上进行微调的模型竞争。
DrugAI
2024/06/19
1870
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
今天为大家介绍的是来自北京大学Kangjie Zheng与南京大学Siyu Long等人发表的一篇论文。蛋白质语言模型在蛋白质工程领域展示了显著的潜力。然而,当前的蛋白质语言模型主要在残基层面操作,这限制了它们提供原子级别信息的能力,阻碍了在涉及蛋白质和小分子的应用中充分发挥蛋白质语言模型的潜力。在本文中,作者提出了ms-ESM(多尺度ESM),这是一种新的方法,能够实现多尺度统一分子建模。ms-ESM通过在多尺度Code-Switch蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,从而实现这一目标。实验结果表明,ms-ESM在蛋白质-分子任务中超越了以往的方法,充分展示了蛋白质语言模型的潜力。进一步研究表明,通过统一的分子建模,ms-ESM不仅获得了分子知识,还保留了对蛋白质的理解。
DrugAI
2024/06/18
1950
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
无监督接触预测 (Unsupervised Contact Prediction) 是在蛋白质结构测定和设计过程中揭示蛋白质物理、结构和功能约束的核心。几十年来,主要的方法是从一组相关序列中推断进化约束。在过去的一年里,蛋白质语言模型已经成为一种潜在的替代方法,但目前性能还没有达到生物信息学中最先进的方法。本文证明了Transformer的注意图 (Attention Map) 能够从无监督语言建模目标中学习蛋白质序列中各个残基之间的接触距离。我们发现,迄今为止已经训练过的最高容量模型已经优于当前最先进的无监督接触预测的工作流程,这表明过去这些繁琐的工作流程可以用端到端模型的单向传递工作流程来代替。
智能生信
2021/02/04
2.8K0
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
多模态蛋白质语言模型是一个新兴的方向。《Multi-scale Protein Language Model for Unified Molecular Modeling》是一篇发表在ICML 2024的文献,作者是 Kangjie Zheng、Siyu Long、Tianyu Lu、Junwei Yang、Xinyu Dai、Ming Zhang、Zaiqing Nie、Wei-Ying Ma 和 Hao Zhou。文章的蛋白质语言模型涉及到氨基酸序列和分子结构的多模态信息,提供了一个整合的思路。
实验盒
2024/06/05
2200
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。
DrugAI
2023/02/17
6980
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
Science | EVOLVEpro:结合蛋白质语言模型与少样本主动学习的高效 in silico 定向进化框架
今天为大家介绍的是来自哈佛医学院团队的一篇论文。定向蛋白质进化是生物医学应用的核心,但面临实验复杂性、多属性优化效率低下以及局部最优陷阱等挑战。虽然使用蛋白质语言模型(PLMs)的计算方法可以提供拟合的适应度景观(fitness landscape)指导,但它们难以跨越多样的蛋白质家族进行泛化,并且难以映射到蛋白质活性。作者提出了EVOLVEpro,这是一种少量样本的主动学习框架,结合了PLMs和回归模型,能够快速提升蛋白质活性。EVOLVEpro超越了现有方法,在所需属性上带来了高达100倍的改进。作者在RNA生产、基因组编辑和抗体结合应用中的六种蛋白质上展示了其有效性。这些结果突显了在最小实验数据下,少量样本主动学习相较于零样本预测的优势。EVOLVEpro为生物学和医学中AI指导的蛋白质工程开辟了新的可能性。
DrugAI
2024/12/23
6930
Science | EVOLVEpro:结合蛋白质语言模型与少样本主动学习的高效 in silico 定向进化框架
ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计
今天为大家介绍的是来自Wengong Jin团队的一篇论文。如何设计具有特定功能的蛋白质?作者受到了化学直觉的启发,即几何结构和生化特性都对蛋白质的功能至关重要。因此本文提出了一种新方法SurfPro,能够在给定目标表面及其相关生化特性的情况下生成功能性蛋白质。SurfPro包含一个分层编码器,逐步建模蛋白质表面的几何形状和生化特性,以及一个自回归解码器来生成氨基酸序列。作者在标准逆折叠(inverse folding)的基准测试CATH 4.2和两个功能性蛋白质设计任务(蛋白质结合体设计和酶设计)上对SurfPro进行了评估。SurfPro在各项测试中均优于之前的最先进的逆折叠方法,在CATH 4.2上的序列恢复率达到了57.78%,并且在蛋白质-蛋白质结合和酶-底物相互作用评分方面表现出更高的成功率。
DrugAI
2024/07/16
1440
ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计
Science | ESM3: 借助语言模型再现蛋白质5亿年的进化奇迹
超过三十亿年的进化塑造了自然蛋白质空间中生物学的图景。在此,研究人员展示了通过大规模进化数据训练的语言模型能够生成远离已知蛋白质的功能性蛋白质。研究人员提出了ESM3,这是一种前沿的多模态生成语言模型,可以推理蛋白质的序列、结构和功能。ESM3能够响应复杂的多模态提示,并通过对齐显著提升模型的精确性。研究人员利用ESM3生成了荧光蛋白。在合成的生成产物中,研究人员发现了一种亮度高且与已知荧光蛋白相距较远(序列同一性仅为58%)的荧光蛋白,研究人员估算这相当于模拟了五亿年的进化过程。
DrugAI
2025/01/22
1920
Science | ESM3: 借助语言模型再现蛋白质5亿年的进化奇迹
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
不同的是,过去的AI是发现蛋白质结构,这回开始自己设计和生成蛋白质结构了。如果说过去是「检察官」,现在说是进化成了「造物主」也不是不行。
新智元
2023/01/09
5960
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
GPT进入蛋白质组学:LLM如何推动生命科学变革
科学家们将Transformer模型(GPT)应用于蛋白质序列数据,试图在蛋白质组学领域复制大语言模型(LLM)的成功。本篇文章将带你了解蛋白质语言模型(pLM)的起源、发展及其尚待解决的问题。
用户11203141
2025/03/06
1000
GPT进入蛋白质组学:LLM如何推动生命科学变革
Science | 使用结构信息语言模型进行蛋白质和抗体复合物的无监督进化
今天为大家介绍的是来自Peter S. Kim团队的一篇论文。基于序列信息训练的大型语言模型能够学习到蛋白质设计的高级原则。然而,蛋白质的三维结构决定了它们的具体功能、活性和进化能力。这里,作者展示了一种结合了蛋白质结构主链坐标的通用蛋白质语言模型可以在不需要建模具体功能任务的情况下指导各种蛋白质的进化。作者还证明了仅在单链结构上训练的ESM-IF1模型可以扩展用于工程化蛋白质复合物。通过这种方法,作者筛选了大约30种用于治疗严重急性呼吸综合征冠状病毒2(SARS-CoV-2)感染的两种治疗性临床抗体的变体。结果表明,对于抗体逃逸的关注病毒变种BQ.1.1和XBB.1.5,分别在中和能力和亲和力上提高了25倍和37倍。这些发现突显了整合结构信息的优势,可以在不需要任何特定任务训练数据的情况下识别高效的蛋白质进化路径。
DrugAI
2024/07/30
2270
Science | 使用结构信息语言模型进行蛋白质和抗体复合物的无监督进化
推荐阅读
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
2950
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
1440
密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测
2410
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
2330
Nat. Comput. Sci. | 基于评分的生成建模用于全新蛋白质设计
3740
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
1160
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
5430
ICML 2024 | Proteus:开创性的蛋白质结构生成技术
2080
Nat. Biotechnol. | 利用语言模型设计蛋白质
2400
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
1870
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
1950
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
2.8K0
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
2200
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
6980
Science | EVOLVEpro:结合蛋白质语言模型与少样本主动学习的高效 in silico 定向进化框架
6930
ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计
1440
Science | ESM3: 借助语言模型再现蛋白质5亿年的进化奇迹
1920
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
5960
GPT进入蛋白质组学:LLM如何推动生命科学变革
1000
Science | 使用结构信息语言模型进行蛋白质和抗体复合物的无监督进化
2270
相关推荐
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档