ICML 2024 | Proteus：开创性的蛋白质结构生成技术

DrugAI

发布于 2024-07-05 12:59:51

1470

发布于 2024-07-05 12:59:51

文章被收录于专栏：DrugAI

DRUGAI

今天为大家介绍的是来自浙江大学、西湖大学、杜克大学团队的一篇论文。新型的蛋白质设计方法的开发对生物学和化学中的广泛应用至关重要。蛋白质骨架扩散技术旨在高效地生成可设计的蛋白质结构。尽管蛋白质结构预测已经取得了巨大进展，但将这些方法应用于蛋白质扩散一直具有挑战性且效率低下。作者引入了Proteus，这是一种创新的方法，使用基于图的三角形方法和多轨交互网络。在计算评估中，Proteus展示了最前沿的设计性和效率。作者通过实验表征测试了模型的可靠性。分析表明，从计算和实验的角度来看，它能够以极高的成功率生成蛋白质。作者相信，Proteus能够在无需预训练技术的情况下快速创建高度可设计的蛋白质骨架，这将极大地增强对蛋白质结构扩散的理解，并促进蛋白质设计的进步。

蛋白质的生物功能往往直接由其三级结构决定，因此直接设计蛋白质骨架具有吸引力。新型的蛋白质设计方法专注于设计具有所需结构或功能的蛋白质。随着最近蛋白质结构预测模型的进展，幻想方法直接利用这些模型进行蛋白质生成任务。通过利用扩散模型的生成能力，RFdiffusion在广泛的蛋白质设计挑战中展示了卓越的性能，包括蛋白质结合剂设计、基序支架和对称设计。尽管RFdiffusion显示出令人期待的结果，但它需要从Rosettafold2进行预训练，这使得模型难以解释，且无法修改模型架构以优化性能。为了应对这一挑战，研究人员提出了各种扩散策略和模型架构，以在无需预训练的情况下生成可设计的蛋白质骨架，如FoldingDiff。虽然这些努力相对提高了不依赖预训练的现有蛋白质结构扩散模型的设计性，但与RFdiffusion相比仍存在显著差距。这种差距导致这些模型在实际蛋白质设计任务中要么效果不佳，要么难以应用。

为了弥合无预训练模型和预训练模型之间的性能差距，作者开发了Proteus。Proteus通过使用基于图的三角形技术和多轨交互网络，大大增强了数据集，超越了RFdiffusion的设计性。此外，作者的模型在效率上设立了新标准，这主要由两个因素驱动：通过增强的表示能力和图建模减少了必要的采样步骤，从而降低了计算复杂度。因此，Proteus实现了与Chroma相当的蛋白质生成速度。

图 1

模型部分

图 2

Proteus通过一系列L层的折叠块迭代更新蛋白质的结构框架。如图2B所示，单层折叠块从三条不同的轨道输入：节点表示、边表示和结构框架(structure frame)。一个折叠块包括一个IPA-Transformer块、一个骨架更新层和一个图三角块，每个模块分别设计用于建模和更新其中一条轨道，同时感知其他轨道中的表示。

图三角块用于更新边表示，并在边表示上采用基于图的注意力机制，结合了序列表示门控的结构偏置。整个网络由L层折叠块组成，各层之间不共享权重。特征初始化使用扩散时间步作为序列表示，边表示初始化使用AF2中引入的相对序列距离图。如果self-condition可用，则添加前一次预测的残基的Ca距离图和相对旋转特征作为附加特征。作者的主要关注点在于描述图三角块，因为这是大部分设计性和效率改进的来源。

图三角块旨在更新蛋白质的边表示。作者创新性地借鉴了三角注意力的原始概念和Alphafold2网络中的乘法方法，这是Alphafold2的Evoformer模块中的主要组件。三角注意力通过隐式维护和更新每个残基之间的边表示，对捕捉蛋白质几何结构至关重要。虽然这是一个强大的模块，并且是Alphafold2卓越性能的关键贡献者，但它面临与O(N^3)复杂性和内存需求相关的挑战。而将三角技术应用于蛋白质骨架扩散模型时的另一个不一致之处在于缺乏直接的结构约束，Evoformer旨在将多序列比对（MSA）信息整合到单一和边表示中，而在结构模块的第一个块之前没有可用的结构信息。

鉴于在将三角技术应用于蛋白质骨架扩散时提到的两个主要限制，作者引入了图三角块，其中边表示的三角注意力以O(N*K^2)的复杂度计算。基于噪声输入结构，作者为每个残基定义k个最近邻残基，然后从整个N ∗ N边表示中整理出N ∗ K边。每个残基的K条边彼此计算注意力得分。为了融合3D空间信息，我们计算第三条边的原子间距离，并提取其RBF特征作为结构偏置，而不是直接利用第三条边的表示。此外，结构偏置通过使用边的起点和终点残基序列表示的节点表示的前馈网络进行门控，促进了来自所有三条轨道输入的充分整合。对N ∗ K边表示执行三角注意力和更新后，作者应用Evoformer中使用的三角乘法更新来更新所有N ∗ N边表示。

与RFdiffusion中使用的轴向注意力层和FrameDiff及Genie中使用的简单消息传递层相比，这项技术提供了三个优势。首先，三角注意力成功引入了边表示更新，显著增强了模型模拟蛋白质骨架扩散过程的能力，使得模型即使在步骤显著减少的情况下也能取得优异的结果。这使得速度至少提高了三倍，且明显优于基准模型；其次，由于内存需求大幅减少，作者现在可以在不剪裁输入的情况下训练更长的蛋白质。作者可以处理长度高达512个残基的蛋白质，而在Alphafold2和RFdiffusion的训练中最多只能处理384个残基，从而提高了生成更长蛋白质结构的性能；最后一个优势是作者考虑了所有三条轨道的输入来更新边表示和蛋白质结构，结果是模型架构更加紧凑。此架构最适合结构到结构的任务，如蛋白质结构生成和预测蛋白质从apo到holo的构象转变。

无条件单体生成任务性能

为了公平地测试蛋白质骨架扩散模型的性能，需要评估三个主要方面：设计性、效率和多样性。结果见表1。为了评估设计性，将生成的蛋白质骨架输入到温度为0.1的ProteinMPNN中，除了Chroma的骨架。作者使用Chroma的逆向折叠模型ChromaDesign，在温度0.1和扩散增强0.5的条件下，替代ProteinMPNN，因为作者观察到使用ChromaDesign对Chroma骨架的成功率更高，如其论文所报道。然后，逆向折叠模型生成多个对应于输入骨架的序列。随后，使用ESMFold预测每个序列对应的结构。骨架的设计性由骨架与预测结构之间的最高TM-score（scTM，值越高越好）表示。作者使用Cα-RMSD < 2Å作为成功设计的标准。如果设计模型与预测模型之间的Cα-RMSD超过此阈值，则认为生成的蛋白质是非功能性的，并可能在实验验证中失败。

表 1

表 2

效率通过使用A40 GPU生成一个蛋白质骨架所需的时间来估计。作者在表2中进一步计算了成功效率，表示生成一个可设计骨架所需的计算时间。这个指标在实际蛋白质设计任务中尤为重要，因为它同时考虑了设计性和模型速度，在计算资源有限时提供了宝贵的见解。

作者对每种长度[100, 200, 300, 400, 600]各采样200个骨架，并取每种长度的平均得分，如表1所示。在设计性方面，Proteus超过了所有当前的扩散模型，甚至包括使用更高计算强度的模型架构并从结构预测模型预训练的RFdiffusion。图1B显示了每种长度的scRMSD分布。在较短的长度（100-300）上，Proteus与RFdiffusion相当，而在较长的蛋白质（>300）上表现显著更好。这归功于Proteus模型的创新架构，使用了图级别的三角技术，使得模型可以高效地在长达512个氨基酸的序列上进行训练。Proteus在复杂组装生成中的出色表现，远远超过了Chroma，表明Proteus的泛化能力足以扩展到复杂的多域蛋白质设计和大纳米颗粒的设计。

值得注意的是，Proteus在保持最高设计性的同时，实现了与Chroma相似的计算时间。通过增强网络表示能力，Proteus只需要100个采样步骤即可，而不会影响设计性，如表3所示。这与Genie需要1000步，FrameDiff和Chroma需要500步形成了对比。图1C展示了不同长度的计算时间。Proteus在生成长度小于400的蛋白质时比Chroma更快。然而，在生成长度超过400的蛋白质时，Chroma的时间效率更高。然而，由于其基于图的模型架构，其成功效率落后于所有扩散模型。凭借最佳的设计性和图级别的高效性能，Proteus在成功效率基准测试中显然优于所有其他扩散模型，如表2所示。

实验验证

图 4

作者订购了16种设计，包括12种300个氨基酸的蛋白质设计和4种500个氨基酸的蛋白质设计。所有设计都在大肠杆菌中表达。在这些设计中，尺寸排阻色谱（SEC）显示，9种300个氨基酸的设计和3种500个氨基酸的设计呈现出与预期分子量相对应的单分散峰。圆二色性（CD）光谱证实，这些设计具有与设计模型一致的二级结构。此外，这些设计具有高度的热稳定性，在25°C到95°C的温度范围内保持稳定的二级结构。实验数据如图4所示。

编译 | 黄海涛

审稿 | 王建民

参考资料

Wang, C., Qu, Y., Peng, Z., Wang, Y., Zhu, H., Chen, D., & Cao, L. (2024). Proteus: pioneering protein structure generation for enhanced designability and efficiency.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-23，如有侵权请联系 cloudcommunity@tencent.com 删除

架构