2024年4月19日《Science》最新期刊,封面是研究人员用开发出的深度学习方法(RFAA)预测出的蛋白质复合结构,显示了氨基酸和短肽的背景云,它们聚集在一起,形成了目标配体血红素(橙色)周围的中央蓝色蛋白质。(图1)
蛋白质的生化功能大多基于与体内其他物质形成复合物或者相互作用,很少能单独起作用。近年来,机器学习的进步使蛋白质结构预测和设计更加准确和容易,但通常仅限于多肽链以及纯蛋白质结构预测方面的进展。小分子、金属离子和核酸等配体在结构和生物学功能上都是大多数蛋白质的关键组成部分。关于如何对复合生物分子进行建模的问题,在此之前仍然是一个挑战。
华盛顿大学大卫·贝克等人在《Science》上发表一篇名为《Generalized biomolecular modeling and design with RoseTTAFold All-Atom》的研究论文,提出了下一代蛋白质结构预测和设计工具RoseTTAFold All-Atom(RFAA),该工具可以接受广泛的配体和共价氨基酸修饰。在没有输入实验结构的情况下,RFAA在蛋白质配体结构预测方面也能展现出优越性能。研究人员还对蛋白质进行从头设计,以结合辅助因子和小分子,并通过实验验证了这些设计。(图2)
项目初衷是开发一种结构预测方法,能够为生物单元的所有原子生成 3D 坐标,包括蛋白质、核酸、小分子、金属和化学修饰。为了能同时表示多种不同组件,研究人员试图将生物聚合物(蛋白质和核酸)的序列图与小分子和蛋白质共价修饰的原子图相结合。
RoseTTAFold2(RF2)是蛋白质结构预测算法的一种,利用了深度学习和三维几何建模技术,能够快速准确地预测蛋白质的三级结构。研究人员以RF2为基础对网络架构进行了建模,保留了 RF2 中蛋白质和核酸链的表示,并将任意小分子、共价修饰和非天然氨基酸表示为原子键图。优化并补充了新的元素类型、原子成对信息以及立体化学信息等。(图3)
AlphaFold2 (AF2)亦是深度神经网络的一种,主要通过物理和知识为基础的能量函数,再加上进化信息,来进行蛋白质结构的预测。研究人员开发AF2中引入的帧对齐点误差(FAPE)损失的全原子版本,连续对齐每个坐标系并计算周围原子的坐标误差(图4)。
研究人员通过策划蛋白质-生物分子数据集PDB,用于训练RFAA,用剑桥结构数据库中的小分子晶体结构补充了训练集 。与以前的纯蛋白质深度学习架构不同,RFAA可以对完整的生物分子系统进行建模。创造出RFAA在不同结构建模任务上的优质性能,亮点理念在于所有模态的所有可用数据上训练的单个模型将比一系列专门针对特定问题的模型具有最大的泛化能力,并且更容易访问。
性能一:预测蛋白质-小分子复合物
在研究人员提供的一些案例中,用盲法连续自动模型评估 (CAMEO)对 RFAA 预测性能进行盲测。在CAMEO靶标中,43%的靶标通过RFAA可靠地预测,其中77%的高置信度结构非常准确(图5)。
以及通过与领先的非深度学习蛋白质-小分子对接方法 AutoDock Vina 对比,在RFAA和AutoDock Vina服务器建模的案例中,RFAA成功建模了32%的案例,而Vina服务器则为8%(图6)。作者也比较了DiffDock与RAFF的预测结果,RFAA 成功预测了 42% 的复合物,DiffDock 成功预测了 38% 的复合物。
在性能泛化方面,研究人员利用一个最近 PDB 条目的数据集,预测了所有 5421 个复合物的全结构模型。该网络可以为与训练集序列相似度低的蛋白质生成准确的预测。此外不仅对训练中看到的配体进行了更准确的预测,也可以对与训练中不相似的配体做出准确的预测。与以前的方法不同,RFAA能够在单次正向传递中共同预测蛋白质和多个非蛋白质配体之间的相互作用。预测结果显示RFAA可以学习多组分装配预测任务。为了确定网络对蛋白质-小分子相互作用的详细结构进行推理的程度,研究人员研究了预测精度与分子力场计算的相互作用能量之间的相关性。发现在最近的PDB集中,对较低的计算结合能的蛋白质-小分子复合物的预测更准确,这表明该网络考虑了蛋白质和小分子之间的详细相互作用。(图7)
性能2:预测蛋白质共价修饰的结构
许多必需的蛋白质功能涉及与其他分子的共价修饰 。RFAA通过将残基和化学部分视为原子,并将蛋白质结构的其余部分视为残基来模拟这种修饰。非天然氨基酸也可以用同样的方式建模。
研究人员对 PDB 中 931 个最近条目的 RFAA 在共价修饰结构预测方面的性能进行了基准测试,发现该网络在 46% 的情况下做出了准确的预测。与蛋白质-小分子复合物的情况一样,置信度的预测往往更准确。尽管该网络对与训练集中的蛋白质具有序列相似性的情况进行了更准确的预测,但仍有许多情况与训练集没有序列重叠,也可以高精度预测。RFAA 模拟了与共价结合辅因子和共价结合药物的相互作用,中位 RMSD 分别为 0.99 和 2.8 Å。
聚糖结构预测在治疗、疫苗和诊断中都有应用。RFAA 可以准确地模拟糖基化引入的碳水化合物基团。已知,以前基于深度学习的工具无法模拟蛋白质的共价修饰。对预测结构中的共价修饰进行准确而稳健的建模应有助于理解生物学功能和机制。(图8)
性能三:从头设计小分子binder
以前关于小分子结合蛋白的设计,涉及将分子对接到大量天然或专家策划的蛋白质支架结构中。基于扩散的方法可以在蛋白质靶标的背景下生成具有相当亲和力和特异性的结合蛋白 ,并且可以训练以明确地调节结构特征 。但目前基于深度学习的生成方法并未明确模拟蛋白质-配体相互作用,因此它们不能直接适用于小分子-结合剂的设计。研究人员开发了一个扩散模型,RFdiffusion All-Atom (RFdiffusionAA),用以降噪可能被小分子破坏的蛋白质结构。这种训练过程会产生一个明确的条件模型,该模型学习以生物分子亚结构为条件的蛋白质的分布。
研究人员设计了三种不同的小分子的结合剂,用以在一系列设计场景中对RFdiffusionAA进行实验评估。分别展示了针对心脏病治疗药物地高辛(DIG)、血红素配体Heme、以及针对胆色素分子Bilins的结合蛋白设计。实验验证表明,RFdiffusionAA 可以很容易地为各种小分子生成具有定制结合口袋的蛋白质。与依赖于重新设计现有支架的先前方法不同,RFdiffusionAA在目标化合物周围从头开始构建蛋白质,从而在结合口袋中产生高度的形状互补性,并减少了对专业知识的需求。PDB中与相关分子结合的最相似蛋白质的模板建模评分(TM评分)对于亲和力最高的地高辛结合剂,TM评分为0.59,对于所有表征的血红素结合剂,低于0.62,对于胆素结合剂,TM评分为0.52。在所有情况下,与任何已知蛋白质都没有可检测到的序列相似性。(图9)
RFAA表明,可以训练单个神经网络来精确建模包含多种非蛋白质成分的各种通用生物分子组装体;可以对蛋白质-小分子复合物进行高精度预测;它还可以为具有两个或多个非蛋白质分子的蛋白质复合物生成准确的模型。预测和设计结果表明,RFAA已经了解了蛋白质-小分子复合物的详细特征,应该可以用于蛋白质-小分子复合物的建模,特别是在几乎没有或没有替代方法的多组分生物分子组装体以及设计小分子结合蛋白和传感器方面。
DOI:10.1126/science.adl2528
领取专属 10元无门槛券
私享最新 技术干货