DRUGAI
今天为大家介绍的是来自Clara T. Schoeder团队的一篇论文。计算蛋白质序列设计的目标是修改现有蛋白质或创建新蛋白质,但在没有对蛋白质动态和变构调控进行预测的情况下设计稳定且功能性的蛋白质具有挑战性。在蛋白质设计方法中引入进化信息可以将突变的空间限制在更类似原生蛋白的序列中,从而在保持功能的同时提高稳定性。最近,经过对数百万蛋白质序列训练的语言模型在预测突变效果方面表现出色。使用语言模型对Rosetta设计的序列进行评估,其评分低于其原始序列。为了在Rosetta设计协议中引入语言模型的预测,我们使用ESM(Evolutionary Scale Modeling,进化尺度建模)模型添加了一种新指标,以在设计过程中约束能量函数。生成的序列在语言模型评分和序列恢复方面表现更好,且Rosetta能量评估显示其适应性仅略微下降。总之,作者的工作结合了最新的机器学习方法与Rosetta蛋白质设计工具箱的优势。
计算蛋白质设计旨在创建稳定且功能性蛋白质,可应用于从酶到生物治疗的广泛领域。直到最近,基于生物物理学原理的协议主要收录在用于分子建模和设计的Rosetta软件套件中。世界上90多个实验室的集体工作取得了许多成功,包括改进抗体、用于生物技术的新型酶和第一个全新的蛋白质。如今,通过硬件能力的提升和机器学习(ML)的开创性工作,许多“经典”建模和设计任务已被大型神经网络超越。通过ProteinMPNN等机器学习协议,设计的蛋白质序列折叠到目标结构的成功率增加了许多倍。此外,在无监督的情况下训练了数百万蛋白质序列的蛋白质语言模型(PLMs)在不同的下游任务中表现出色,包括蛋白质接触和结构预测。它们的嵌入是近期小分子或蛋白质-蛋白质对接领域最先进模型的关键组成部分。PLMs的优势在于它们在高维空间中嵌入了进化信息,如预测多样蛋白质的进化动力学的能力所见。这种能力已被用于抗体的进化,从一组预测的单点突变及其组合开始,提高稳定性和/或结合亲和力。然而,这些ML模型目前没有捕捉到标准20个氨基酸代码之外的现有复杂性,包括翻译后修饰到非标准氨基酸,而Rosetta中有可用的协议。
因此,在这项工作中,作者着手将利用进化尺度建模(ESM)模型家族的PLMs的优势与Rosetta的灵活性相结合,实现对PLM预测的蛋白质序列空间的高效组合采样。为此,作者分析了34个全新蛋白质的Rosetta设计序列的预测概率(PLM评分),因为这些蛋白质不是PLM训练数据的一部分(所有这些在对UniProt数据库进行blast搜索中未产生匹配)。作者发现Rosetta设计的序列的PLM评分比最初描述的(野生型)全新蛋白质的序列的评分要差。作者分析了Rosetta固定主链设计(FixBB)和LayerDesign的预测缺陷,揭示了蛋白质表面氨基酸组成的复杂性。为了设计具有接近天然PLM评分的蛋白质序列,作者向Rosetta添加了一个PLM指标来评分给定的蛋白质,并创建一个特定位置的概率矩阵,以在设计过程中约束Rosetta能量函数。作者展示了所得到的序列具有更好的PLM评分和类似的序列恢复,对Rosetta总能量的影响很小。
Rosetta设计的序列的蛋白质语言模型评分低于它们的天然序列
图 1
表 1
作者选取了34个去新蛋白的基准,因为这些蛋白质不在原始PLM训练数据中,并使用Rosetta FixBB(一轮PackRotamersMover)为每个蛋白质设计了1000个新序列。随后,作者使用ESM 2语言模型的伪困惑度对这些序列进行评分,其中分数较低的序列被认为更有可能,并且发现Rosetta设计的序列的评分低于它们的原始序列(图1)。伪困惑度是对PLM预测概率平均负对数的指数运算。此外,序列的语言模型评分和Rosetta总能量之间没有关联(表1)。Johnson等人的一项最新研究也得出了类似的结论,在大量酶突变中,ESM和Rosetta评分之间没有明显的相关性。
脂肪族表面残基的蛋白质语言模型得分最低
图 2
作者想寻找Rosetta序列设计的PLM得分低于天然对应物的原因。因此,作者收集了每个设计序列的34个基准蛋白中的得分最差的10个位置,以及它们预测的替代残基(图2A)。在这34000个位置中,9065个是脂肪族残基(Ala、Ile、Leu、Met、Val),其中最可能的替代残基是带极性电荷的残基(Arg、Lys、Asp、Glu)。其次是4206个芳香族氨基酸(Phe、Tyr、Trp),PLM认为它们同样会被极性带电残基取代。总体而言,在得分最差的34000个位置中,有17917个极性带电残基最有可能出现(不包括极性带电到极性带电的拟议突变)。此外,超过三分之二的得分最差的位置位于蛋白质表面(图2B)。
通过局部环境限制氨基酸突变可以改善PLM得分
在Rosetta中,为避免成分偏差,常用的一种策略是根据局部环境限制每个位置可用的氨基酸,可以使用LayerDesign或对Rosetta能量函数进行重新加权。LayerDesign协议根据残基的溶剂可及表面积(SASA)将它们分为核心、边界或表面位置,并考虑它们的二级结构。LayerDesign规则旨在防止在蛋白质的表面存在过多疏水残基,以及在核心区域存在过多极性残基。作者使用LayerDesign为34个去新蛋白中的每个蛋白设计了1000个序列,并使用ESM语言模型对它们进行评分,结果显示它们的得分相较于FixBB设计有明显改善,但仍低于天然序列(图1B)。如预期的那样,与FixBB协议相比,限制可用的氨基酸导致Rosetta能量更低,但具有相似的序列恢复(图1C,D)。作者再次分析了LayerDesign输出中得分最差的10个PLM位置以及它们的预测替换(图2C)。有趣的是,在这34000个位置中,有5238个是极性不带电残基(Gln、Asn、Thr、Ser、Cys),预测的替代残基为脂肪族残基(Ala、Ile、Leu、Met、Val)。第二大位置部分是4662个极性不带电残基,PLM预测极性带电残基(Arg、Lys、Asp和Glu)更有可能出现。同样,几乎三分之二的位置位于表面(图2D)。
通过蛋白质语言模型概率约束Rosetta能量函数可以得到类似天然的PLM评分
接下来,作者使用FixBB设计初始轮次的ESM预测来约束Rosetta能量函数。为此,作者使用每个蛋白质的FixBB设计序列中Rosetta总得分最高的序列作为ESM的输入,并预测每个位置的每种氨基酸的概率,从而生成一个特定位置的概率矩阵(PSPM)。这个PSPM作为FavorSequenceProfile mover的输入,通常用于根据多序列比对的进化信息来约束Rosetta能量函数。随后,作者使用受限能量函数进行了新一轮的序列设计(PackRotamersMover),为每个蛋白质再次生成了1000个序列。如预期的那样,所得序列的PLM评分与它们的天然序列相当(图1C)。此外,与LayerDesign协议相比,对未受限的Rosetta总得分的影响较小,同时显示出类似的序列恢复(图1D)。
使用三个计算方法评估设计的序列的质量
为了测试广泛的指标范围,作者应用了ProteinMPNN(一个使用蛋白质主链坐标的反向折叠模型)、带有序列传递的掩码反向折叠(MIF-ST,使用蛋白质原子坐标并结合预训练掩码语言模型的反向折叠模型)和OmegaFold(结构预测,不需要多序列比对)。作者选择了OmegaFold,因为其在单序列评估设置中的性能优越,并且与其他方法相比大约有30倍的运行时间改进。所有三种设计方法都有相似的ProteinMPNN得分,其各自的中值非常接近原始序列的得分,其中LayerDesign和ESM约束设计的得分分布比FixBB更广泛(图3A)。在MIF-ST评分方面,Rosetta FixBB和LayerDesign的伪困惑度中值接近原始序列,而ESM受限设计显示出了明显的改进(图3B)。最后,作者测试了设计的预测结构是否与目标结构匹配,并由OmegaFold以高置信度预测(图3C、D)。所有三种设计方法都生成了与de novo目标结构具有低RMSD值的序列(图3C),其pLDDT中值接近原始序列的中值。然而,在RMSD和pLDDT方面,FixBB方法略优于其他指标。
结论
将PLM预测与基于结构的设计相结合可以帮助改造现有蛋白质并创造新序列。本篇工作的潜在应用包括但不限于,将酶到抗体等蛋白质进行热稳定化,并将突变空间限制在可行的序列范围内。总之,作者的工作通过建立PerResidueEsmProbabilitiesMetric,为结合PLM模型的强大功能与Rosetta设计协议的灵活性提供了一种新的方式。
编译 | 黄海涛
审稿 | 王建民
参考资料
Ertelt, Moritz, Jens Meiler, and Clara T. Schoeder. "Combining Rosetta Sequence Design with Protein Language Model Predictions Using Evolutionary Scale Modeling (ESM) as Restraint." ACS Synthetic Biology (2024).