
本文介绍的是2023年7月发表在国际知名期刊《Nature Machine Intelligence》上发表的一篇题为《Application of variational graph encoders as an effective generalist algorithm in computer-aided drug design》的研究论文。该论文提出了一种单一的通用模型,利用图卷积变分编码器,可以同时预测小分子的多个属性,如吸收、体内分布、代谢、排泄和毒性、特定靶点的对接打分预测以及药物间的相互作用。使用这种方法可以实现具有高达两个数量级的显著加速优势的最先进虚拟筛选。通过图变分编码器的隐空间最小化,还可以加速开发具有帕累托最优(Pareto optimality)原则的特定药物,并具有可解释性的优势。本文的通讯作者是慕宇光教授(新加坡南洋理工)、郑良振博士(智峪生科和深圳先进院)和李伟峰教授(山东大学)。

背景介绍
药物研发过程中的高损耗率是生物医学科学的一个首要问题。通过计算机辅助药物设计(CADD)进行分子的初始筛选并进行进一步的优化,在最初阶段发现的良好线索对药物发现过程至关重要。但是,CADD存在三个主要问题:1、高计算成本。2、药物达到治疗预期疾病的功效并不是其能进入人体的唯一因素,许多药物属性,如吸收、分布、代谢、排泄和毒性(ADMET)、药物-药物相互作用(DDI)和副作用,在很大程度上影响药物的成功。3、当前的CADD技术通常涉及使用多种模型,每个模型预测特定的化学属性。当堆叠许多模型时,所需的计算成本呈指数增长。

图 1
方法介绍
作者提出了一种变分图编码器来解决CADD中上述问题(图1):这是一个包含变分自编码器元素的卷积图神经网络模型,该模型通过训练来预测分子的简单描述符和二进制分子指纹,而不是重构输入。通过变分图编码器的中间数学表示(隐空间),可以训练替代模型来预测更复杂的属性。过去使用隐空间的工作包括在变分自编码器中进行采样,以生成有效和选择性的RIPK1抑制剂和BRAF抑制剂。
先前的研究使用递归神经网络对SMILES字符串进行编码和解码,从而开启了分子的隐空间优化和预测的可能性。后续的研究采用了带有图特征和邻接矩阵的变分自编码器神经网络,也显示出了有希望的结果。然而,后一种方法限制了自编码器可以处理的分子大小,而前一种方法容易出现多个SMILES字符串编码相同分子的情况。这两种方法都不涉及节点的卷积操作。为了解决这个问题,作者提出了基于边的图卷积神经网络,通过卷积操作主动解析每个分子中的连接和相邻原子。使用指纹和化学描述符进行编码,而不是传统的自编码器,还可以在保持键连信息的同时对任意大小的分子进行编码。因此通过克服这些限制,可以实现对数据库中的数据集进行准确且可解释的模型预测,并结合目标特定的打分函数进行虚拟筛选。当将其与基于结构的虚拟筛选结合时,初始筛选过程的加速可达到两个数量级。

图 2
结果分析
图形隐空间编码器在推导分子描述符方面显示出很高的能力,同时保持均匀分布的隐空间。
当使用来自SMILES字符串的分子图形进行训练时,图形隐空间自编码器通常在Morgan4和MACCS指纹上表现出超过90%的中位数准确率,而受试者操作特征曲线下面积(AUROC)和精确度-召回率曲线下面积(AUPRC)指标对于Morgan4指纹比MACCS指纹略低。这表明模型通常能够准确地预测二进制指纹,并因此能够准确解释分子图形和解析构成指纹的特定片段。隐变量在所有维度上也被认为近似地服从正态分布,接近0。没有添加Kullback-Leibler损失函数的情况下,隐空间显示出与高斯分布整体偏离更大和较大的个体隐空间值。Mordred指纹表现良好,大多数描述符的平均绝对误差(MAE)都小于1(图2d)。

图 3
在现有的ADMET预测数据集中,替代模型在准确性方面与专业模型达到了类似的水平,表现出在多类别、多属性问题上的强大泛化能力,并可应用于特定领域的数据集。
与其他测试的模型相比,使用额外的决策树分类器实现了最佳分类效果。该模型在预测血脑屏障通透性、P-糖蛋白结合和代谢相关蛋白CYP2D6亲和性方面表现良好(图3a)。TDCommons分类数据集的中位数AUROC为0.870±0.021,AUPRC为0.891±0.020。在Tox21数据集中,雄激素和雌激素受体拮抗剂和激动剂方面的表现也名列前茅(图3b),在与其他数据集的AUROC进行比较时,一般排名在第五位及以上。多类问题的DDI数据集也展现出AUPRC得分超过0.975(图3c)。TWOSIDES多药物治疗数据集在使用原始标签时显示出较低的AUPRC得分;当使用国际疾病分类第11版(ICD-11)将该数据集重新分类为26个副作用类别时,AUPRC得分提高至整体上超过0.75(图3d)。回归数据集的适用性也类似,LD50数据集和来自TDCommons数据库的肠上皮细胞渗透性预测良好,Spearman's ρ均超过0.7。

图 4
利用变分图编码器进行基于配体的药物发现是可行的,使用替代模型进行训练所需的时间几乎可以忽略不计。
测试的模型性能出色,能够处理现有打分函数下的分类问题(图4a、b)和回归问题(图4c、d)。使用支持向量机,基于64维隐空间进行训练的替代模型通常不需要超过1分钟即可训练完成,用于10,000个数据点。将SMILES字符串解码为相应的隐空间所需的时间不到100毫秒/分子(图4f)。与现有打分函数相比,该方法加速了1.5至2个数量级。

图 5
通过对隐空间的优化,可以通过比较隐空间来实现分子的重建。
通过模拟退火优化,使用Pareto技术实现了多目标优化(图5b-d)。模拟退火在初始迭代中通过对隐空间的全面探索而出现(图5a)。从隐空间优化获得的最终分子重新进行分子对接,并进行Vina打分,相比初始配体的对接打分有所改善。轨迹中的中间分子重建显示了Vina打分的递减趋势,在约5000次模拟退火迭代中达到了最优值(图5g)。除了AMES致突变性得分略高于40%突变和60%非突变的设定目标外,所有目标均得到了实现(图5e)。
隐空间通过决策边界提供了很好的解释性。
在Lagunin等人的致癌物数据集中,通过贪婪蒙特卡洛算法(Greedy Monte Carlo)逐渐选择具有致癌性质的非致癌分子,决策边界的描绘显示了药物的可解释性(图5k)。此外,所示的轨迹(图5j)显示了一个磺酰胺功能基团的形成,而磺酰胺的一个超集已经被证明在小鼠中极大地增加了肿瘤形成,并可以引起甲状腺滤泡细胞腺瘤。
总结
与以往的工作相比,该工作使用图卷积神经网络可以将分子嵌入到直观的格式中,能够编码任意大小的分子,而不会出现循环神经网络中的梯度爆炸或梯度消失问题,或者像Transformer模型中那样存在输入大小的限制。与自编码器的输入相比,指纹的使用也允许对分子进行更好的抽象,因为模型必须内在地理解指纹片段的概念以及它们对特定化学性质的贡献。我们还注意到,该模型在虚拟筛选用例中展现出的速度改进是显著的,因为它允许使用一个不需要太多计算的替代模型来预测分子的结合亲和力。该模型还可以用于寻找两个分子的中间分子,这些中间分子可以在高通量测定中被选为参考分子,并可以更好地从经验上理解分子基序及其各自的生物学作用机制。隐空间的可解释性还可以用于引领新的研究领域,例如使用模型找到导致针对特定靶点的拮抗或激动作用的化学模体。由于隐空间的基本连续性质,该模型还可以用于预测涉及多种作用机制的复杂实验中的化验结果。在生成领域中,其他生成模型生成的分子通常相当不真实,通常是通过从SMILES或其他格式重构分子。而本方法通过直接比较隐空间或指纹,并返回搜索库中最接近的分子,以一种自然的方式克服了这个问题。此外,隐空间增强方法的使用可以显著缩小分子范围,使得标准的药物虚拟筛选仅在邻近分子上进行,其中大多数分子在结构上具有相似性,并且理想情况下具有想得到的化学性质。
变分图编码器和下游的替代模型在性能上与当前的最先进技术相媲美,同时速度更快,可以加速药物发现过程,并且可以在个人笔记本上进行隐空间的药物设计。总之,本文提出的变分图编码器的隐空间具有出乎意料的多功能性,可以用来预测高度多样化的数据集的属性,可以加速开发具有Pareto最优原则的特定药物,并具有解释性的优势。
参考资料
Lam, H.Y.I., Pincket, R., Han, H. et al. Application of variational graph encoders as an effective generalist algorithm in computer-aided drug design. Nat Mach Intell (2023).
https://doi.org/10.1038/s42256-023-00683-9