
编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Philip M. Kim团队的一篇关于蛋白质设计的的论文。在蛋白质设计中,通过预定义的功能和特性生成全新的蛋白质结构仍然是一个具有挑战性的问题。最近,扩散模型,也称为基于评分的生成模型(SGM),在图像合成方面展现出了惊人的实证性能。在这里,作者使用基于图像的蛋白质结构表示来开发ProteinSGM,这是一个基于评分的生成模型,能够产生逼真的全新蛋白质。通过无条件生成,作者展示了ProteinSGM能够生成类似天然蛋白质结构,超过了以前报告的生成模型的性能。

深度学习在蛋白工程领域取得了重大进展,具备了强大的结构预测和序列设计方法。AlphaFold2使研究人员能够访问到数量庞大的蛋白质结构,同时避免了耗费精力进行3D结构确定的艰辛工作;最近的序列设计方法展示了在给定蛋白质支架信息的情况下具备强大的序列恢复能力。然而,在蛋白质设计中存在一个基本且尚未得到很好解决的挑战,即全新支架的设计:我们是否能够生成能够由蛋白质序列实现的合成支架,并且能否发现在天然折叠空间中找不到的折叠形态,也就是SCOP或CATH数据库中找不到的折叠形态?这个问题的延伸是条件支架生成的任务:对于给定的功能位点,我们能否生成未见过但与功能位点兼容的支架,从而保留其活性?
在这里,作者提出了ProteinSGM,这是一个基于分数的连续时间生成模型(SGM),可以生成高质量的全新蛋白质。ProteinSGM学习生成四个矩阵,完全描述了蛋白质的支架。作者展示了ProteinSGM生成的可变长度结构的Rosetta能量单位(REU)平均值小于-3.9,表明这些结构类似于天然结构。我们还提供了另一种方法,使用MinMover进行支架最小化,使用ProteinMPNN和OmegaFold进行序列设计和结构预测。通过圆二色光谱法实验证实了部分生成的结构组成,并观察到生成模型与实验数据之间的二级结构组成一致性。

图 1
模型架构
在这项工作中,作者使用类似图像的表示来训练SGM,其中每个蛋白质支架由残基间的6D坐标表示(图1a),如trRosetta中定义的。简而言之,从每个蛋白质中计算出对应于Cβ-Cβ距离(以下简称为d)、ω和θ扭转角度以及ϕ平面角度的四个矩阵,完全描述了蛋白质的支架。这些矩阵构成了6D坐标,因为ϕ和θ在残基对之间是非对称的。为了生成不同长度的蛋白质,作者还添加了一个填充通道,用于指示6D坐标的边界,模型可以根据此通道生成固定长度的蛋白质。总而言之,一个单独的蛋白质结构表示为一个128×128×5的张量,其中四个通道对应于6D坐标,一个通道用于填充(图1b)。
作者使用连续时间的分数模型生成建模框架,其中包括随机微分方程(SDEs)(图1c)。该模型通过估计分数函数来训练,对6D坐标进行去噪,用于解决将高斯噪声映射到数据的逆向时间SDE问题。生成的6D坐标然后经过Rosetta最小化处理,使用MinMover进行带约束的支架最小化,使用FastDesign进行固定支架的序列和Rotamer设计,最后进行带约束的FastRelax松弛步骤,生成低能量的全原子结构。在模型训练完成后,评估模型的性能,包括无条件生成以评估样本的多样性和合理性,并通过填充掩码输入特征进行条件生成,用于不同的蛋白质设计情况。
无条件生成

图 2
蛋白质的相邻残基限制了残基间的内部坐标,因此展现出特定的残基间分布。为了验证模型是否学习了蛋白质的自然生物物理约束并有效捕捉这些分布,作者使用完全训练好的模型生成了1,068个样本(每个长度在40个氨基酸和128个氨基酸之间有12个样本),并将相邻残基的六维坐标分布与测试数据的分布进行了比较(图2)。在所有的d、ω、θ、ϕ分布中,可以观察到分布与测试集的分布非常接近,这表明该模型学会了生成具有不同长度的真实六维坐标。作者还分析了六维坐标之间的联合分布,并观察到真实样本和生成样本在所有的二维分布中相邻残基特征的一致性。为了验证Rosetta协议在从六维坐标中可复现生成结构方面的鲁棒性,作者从测试集中提取了750个结构的六维坐标,并分析了每个最小化步骤上的Cα均方根偏差(r.m.s.d.)。我们观察到,在FastRelax之后,Cα均方根偏差的平均值为0.97Å,这表明该协议非常适合在小于1Å的精度下进行可复现的生成。

图 3
作者继续使用Rosetta协议生成了所有1,068个样本的全原子结构,并将其属性与测试集中的最小化结构进行了比较。可以观察到生成的结构与天然结构的Rosetta能量几乎相同,均值为每个残基-3.9 REU(图3a)。为了检测样本的泛化能力和多样性,作者使用TM-align计算了每个生成样本与训练集中结构的模板同源分数(TM-score)(图3b)。可以观察到一部分结构的TM-score小于0.5,这表明模型学会了生成训练集中不存在的新折叠形式。此外,这表明ProteinSGM并不仅仅是记忆了训练集中的结构,否则最大TM-score分布将偏向于1.0。当评估TM-score与REU之间的关系时,可以观察到强烈的负相关性(R^2 = -0.67),这表明与天然结构具有相似折叠形式的生成结构通常具有较低的Rosetta能量,因此具有较高的结构可行性(图3c)。作者观察到,生成的6D坐标通常会产生较大的偏差,而从天然6D坐标最小化得到的结构的偏差较小,这表明Rosetta最小化确实修正了扩散过程中遇到的一些错误,这无疑有助于ProteinSGM生成高保真度的结构。因此,可以将Rosetta最小化视为优化结构质量的一个精炼步骤。

图 4
一般而言,作者观察到α螺旋结构(图4a、b、d)与预期值具有很强的一致性,实验光谱与典型α蛋白质的模式非常相似,具有在大约208和222纳米处的负峰和在大约193纳米处的正峰。作者还分析了一个主要由β蛋白组成的结构,其最大TM-score小于0.5,并观察到实验光谱更符合具有在210纳米处强烈负峰的β折叠的模式。对于图4e中类似于环绕β折叠的α螺旋束的结构,可以观察到在193纳米处有一个强烈的正峰,在208和222纳米处有负峰(表明存在α螺旋),以及在210纳米处有更强烈的负信号(对应于β折叠),这表明存在一个αβ蛋白质。
有条件生成

图 5
为了解决蛋白质设计中的各种任务,作者训练了一个条件扩散模型,该模型学习填充给定输入结构中的任何掩码区域。为了评估其性能,作者提供了三个实际的蛋白质设计测试案例,包括域和支架的填充。作者使用了最近发布的全新设计的结构(PDB 2KL8),并将一个长度为20的α-螺旋域掩码作为条件扩散模型的输入(图5a)。可以观察到,在所有生成的样本中,模型将一个α-螺旋填充到遮罩区域。这表明,鉴于全局结构约束,模型已学会在该区域合理地适应一个螺旋,尽管有轻微的结构差异。这有助于采样具有接近天然拓扑结构的结构,以优化感兴趣的功能特性,这是蛋白质设计中的一个核心任务。PDB 7MRX代表了细菌barstar-barnase复合物,这是一个广泛研究的蛋白质复合物,因其紧密结合动力学而闻名(图5b)。作者通过遮住离目标蛋白质barnase的Cα距离大于12Å的残基来确定支架的区域。生成的支架多样性很大,并且在Rosetta结构和ProteinMPNN/OmegaFold结构之间显示出强大的结构一致性,平均pLDDT值大于80。这表明生成的支架在序列设计方面是结构合理的。在另一个测试案例中,作者希望为Mdm2设计支架,该蛋白质抑制p53肿瘤抑制蛋白(图5c)。同样,作者遮罩掉与p53的Cα距离大于12Å的残基,并使用条件ProteinSGM模型填充遮罩区域。作者生成了具有高scTM和pLDDT的强有力的候选结构,这些结构保留了与p53的结合位点,同时显示出多样的支架,这表明条件模型适用于各种支架任务。
尽管这种方法能生成高样本质量的蛋白质,但其中一个缺点是计算成本高:使用连续时间扩散模型进行采样需要通过得分网络进行多次前向传递来解决反向随机微分方程(SDE),而Rosetta依赖于昂贵的马尔可夫链蒙特卡洛(MCMC)过程来遍历能量景观并找到对应低能量结构的局部极小值。虽然使用MinMover进行初始骨架最小化的速度很快,每个结构不到2分钟,但使用FastDesign和FastRelax进行氨基酸旋转器设计和全原子松弛,耗时很长,每个轨迹可达3小时。与此同时,ProteinMPNN/OmegaFold每个结构的运行时间最长为30秒(在单个NVIDIA V100上);因此,从6D坐标采样开始,长度为100的单个结构在完整的Rosetta协议下估计的运行时间约为150分钟,而在MinMover/ProteinMPNN/OmegaFold协议下为2-3分钟,两者之间的运行时间差异高达75倍。
结论
作者提出了两种全原子结构生成的方法,基于Rosetta的方法可以轻松适应现有的Rosetta优化协议,而MinMover/ProteinMPNN/OmegaFold方法具有更高的吞吐量。最近的发展表明,扩散模型可以扩展到大型异源蛋白复合物,并且可以用于设计经实验证实的结合物。类似地,对ProteinSGM的潜在改进包括:(1)增加建模能力,使其能够处理超过256个氨基酸残基;(2)引入多链信息以建模蛋白质-蛋白质结合相互作用;(3)用完全可微分的模块替代Rosetta。当前基于扩散的蛋白质生成的一个主要限制是仍然依赖于骨架、序列和旋转体的顺序生成,这限制了蛋白质骨架的自然灵活性,并且主要忽略了侧链-骨架的相互作用。尽管计算复杂度呈指数级增长,但将这些生成模型扩展到一次性的全原子级生成是一个具有巨大潜力的有希望的研究方向。
参考资料
Lee, J.S., Kim, J. & Kim, P.M. Score-based generative modeling for de novo protein design. Nat Comput Sci 3, 382–392 (2023).
https://doi.org/10.1038/s43588-023-00440-3