2023年12月1日,上海交通大学徐雷教授、涂仕奎老师团队在Briefings in Bioinformatics上发表文章KGDiff: towards explainable target-aware molecule generation with knowledge guidance。
作者提出了一个可解释的、知识引导的扩散模型(Knowledge-guided diffusion, KGDiff),以产生能够以高亲和力结合到给定蛋白质靶点的分子。KGDiff明确地将蛋白质-配体结合亲和力的化学知识纳入扩散模型,并利用这些知识指导去噪过程向高结合亲和力的方向发展。具体而言,KGDiff开发了一个SE(3)等变的专家网络来拟合Vina评分函数,并与去噪网络联合训练,同时从Vina函数中提取领域知识并将其传递给专家网络。实验证明了该方法的优越性,并建立了与领域知识的联系。
背景
基于结构的药物设计(Structure-based drug design, SBDD)是发现重要蛋白靶点候选新药的一种非常有效的方法,越来越受到学术界的关注。然而,由于有效化学分子的巨大空间,为特定蛋白质靶点寻找合适的候选药物仍然具有挑战性。传统的药物设计方法,如虚拟筛选、分子动力学模拟和自由能计算,计算量大,往往缺乏新颖性。目前,研究人员已经开始利用深度生成模型从头设计药物,这种方法效率很高,具有很大的从头开发药物的能力。然而,现有的方法仅仅模拟了分子和蛋白质之间的联合分布,而忽略了它们之间的结合亲和力,导致性能有限。另一方面,基于变分推断的可解释的生成式人工智能算法的进步,特别是近年来扩散模型的提出,也为分子生成问题的解决提供了新的思路。
方法
图1概述了所提出的方法,即KGDiff。KGDiff是一个基于扩散的生成模型。在训练阶段,它将蛋白质和分子同时作为输入,并使用分子正向扩散过程将分子转化为有噪声的、损坏的分子,同时保持蛋白质靶点的固定。然后,反向进行去噪处理,重建输入分子。KGDiff的关键贡献在于将领域知识 (即结合亲和力) 引入到去噪过程中,并指导去噪过程生成与蛋白靶点具有高结合亲和力的分子。
图1 KGDiff结构图
KGDiff通过学习拟合Vina函数的亲和项来提取亲和力计算中的领域知识。如图1所示,KGDiff设计了一个双分支神经网络,共享特征提取模块。预测的结合亲和度是基于知识计算的Vina亲和度项的加权和,并对可旋转键的数量进行约束,从而计算结合亲和度作为标签。专家网络由SE(3)等变图神经网络,从原子的三维坐标出发,对原子进行表征学习,然后通过两个多层感知器(MLP)函数分别对原子类型和结合亲和度进行预测。
在扩散过程中,有效分子可能无法从噪声状态构建,这使得这些方法与扩散框架不相容。相比之下,专家网络在仅利用原子类型和原子坐标的噪声信息就能预测原子的结合亲和力。亲和预测不是从生成的分子中计算的,而是从原子类型嵌入中计算的。因此,在训练好的专家网络的帮助下,蛋白质-配体结合的知识有效地指导了去噪过程中每个时间步的分子生成,并增强了模型的可解释性。
KGDiff利用训练好的专家网络来引导去噪过程。如图1所示,KGDiff采用迭代去噪过程来生成所需的分子。该过程首先初始化带有随机噪声的分子。在扩散阶段,神经网络将原子类型的特征作为输入,从而在去噪过程中,在蛋白质配体复合体中重建分子。由于分子是由连续的坐标和离散的原子类型决定的,因此如何制定合适的分子生成指导方案是一个挑战。KGDiff设计了一个有效的知识引导,也就是从原子坐标的概率梯度出发,实现对离散原子类型生成的引导,这是一种启发式的引导方案。通过在整个生成过程中对原子类型和原子坐标进行引导,可以生成期望的具有高结合亲和力的分子。
结果
作者将KGDiff与一些具有代表性的方法进行了比较,如表1所示。在Vina分数,Vina最小值,Vina对接值,亲和力,类药性,可合成性上(前三个指标越低越好,后三个指标越高越好),KGDiff在Vina分数,Vina最小值,Vina对接值,亲和力上这四个指标的平均数和中位数上均超越了现有方法。
表1 与其他方法对比
作者设计了模型消融实验。由于KGDiff在整个生成过程中对原子类型和原子坐标进行引导,因此消融实验将其与只进行坐标引导,以及不进行引导的模型进行对比,并与现有的基于扩散模型的分子生成算法TargetDiff做对比。不进行知识引导的KGDiff的性能不如TargetDiff,在加入坐标知识引导后,KGDiff的性能超过了TargetDiff,在对原子类型和原子坐标进行引导后,KGDiff性能进一步提升。
表2 消融实验
作者还进行了案例分析,选择了三个目标蛋白,其口袋易于识别,生成的分子分别具有高,中和低的Vina分数。具体来说,为了探索专家网络如何评估分子内的单个原子,将分配给每个原子的分数可视化。“口袋孔界面”指的是蛋白质口袋表面与外部环境相连的区域。如图2所示,在第一个例子的左上图中,浅蓝色区域是一个“口袋孔界面”,因为它将空间分成两部分,即蛋白质口袋和外部环境。很明显,大多数得分较低的原子通常位于“口袋孔界面”附近,并且它们周围的蛋白质原子数量较少。例如,在第一个例子中,观察到在乙基末端与咪唑环相连的碳原子得分较低,从右上图来看,它位于可视化的“口袋孔界面”附近。相反,咪唑环位于口袋内,因此得分相对较高。在第二个和第三个例子中,也观察到类似的模式,分别用蓝色和红色箭头表示。
图2 案例分析
进一步,为了评估KGDiff产生具有蛋白亚型选择性的分子的能力,作者专门对Tankyrases蛋白进行了实验,重点研究了TNKS1和TNKS2两个亚型。生成的分子用于对接三个蛋白质组:TNKS1, TNKS2和测试集中的所有其他蛋白质(表示为基线)。重新对接和交叉对接的中位数对接分数如表3所示,MTNKS1和MTNKS2分别为蛋白TNKS1和TNKS2产生的分子集。PTNKS1和PTNKS2分别表示靶蛋白TNKS1和TNKS2,Pbaseline表示测试集中的所有其他蛋白质。当将分子与原始蛋白质的亚型对接时,所得到的对接分数比与原始蛋白质的对接分数差,而与基线蛋白质的对接分数最差。这一观察结果是合理的,因为蛋白质亚型通常与原始蛋白质具有相似的3D结构,而基线蛋白质则表现出更多不同的3D结构。
表3 对Tankyrases蛋白的实验
作者将分子生成扩展到几种蛋白质类别:GPCR、离子通道、激酶和磷酸酶。如表4所示,与引用文献相比,KGDiff在所有三个Vina指标上都实现了最佳性能。注意,即使蛋白8a1z上的口袋尺寸很小,KGDiff的性能仍然优于实验配体。该实验表明,KGDiff可以在多种蛋白质类别中保持较高的性能。
表4 分子生成扩展到多类蛋白质
总结
现有的方法在分子生成方面具有局限性。首先,通过学习分子与蛋白质的联合分布,将目标蛋白的结构信息纳入模型,这种结合不足以指导模型生成具有高结合亲和力的分子,因为很难通过学习联合分布来有效区分分子-蛋白质复合物的有利和不利结合姿态。如果分子被用作候选药物,那么分子有效且牢固地与它们的蛋白质靶点对接是至关重要的。其次,满足期望结合特性的分子生成驱动力通常是由现有模型隐式产生的,这是化学领域知识无法解释的。
针对以上问题,在这项研究中,作者提出了一种新的蛋白质靶点感知从头分子生成方法。通过使用专家网络在扩散模型的去噪步骤中学习结合亲和力的领域知识,引导分子生成过程。实验评估为模型的有效性提供了令人信服的证据,突出了其在基于蛋白质结构的药物设计领域的潜力。
然而,KGDiff也存在一些局限性。首先,KGDiff独立地为原子类型和原子坐标的特征添加了噪声,忽略了这些变量在三维空间中的固有依赖关系。其次,原子间化学键的构建没有明确建模,采用后处理算法将生成的三维点构建为分子。这可能导致次优的分子构象和产生具有大环的分子。第三,必须在模型中加入额外的化学知识,如盐桥和分子堆叠。这些特定的非共价相互作用在配体结合中起着至关重要的作用,应该在模型中明确考虑。最后,KGDiff在生成具有平坦表面的蛋白质口袋分子方面取得了有限的性能。解决这些限制将是未来工作的重点。
参考文献
[1] Qian et al. KGDiff: towards explainable target-aware molecule generation with knowledge guidance. Brief Bioinform. 2023