
准确、稳健地估计协同用药组合对提高用药精度具有重要意义。尽管目前研究者们已经开发了一些基于机器学习的药物协同作用预测方法,但由于药物组合的复杂机制,以及该研究需要融合药物和细胞系的不同模态数据,导致目前的预测准确性仍有待提升,特别是对于跨数据集的预测更是如此。
2024年10月18日,中科院上海营养与健康所李虹研究员团队在Bioinformatics上发表文章Dual-view jointly learning improves personalized drug synergy prediction。

作者提出了JointSyn,利用双视图联合学习从药物和细胞特征来预测药物协同作用(Dual-view jointly learning for drug synergy prediction)。JointSyn的每个视图都捕获了药物协同作用相关的特征,并对药物组合的最终预测做出了贡献。此外,带有微调的JointSyn提高了泛化能力,可以使用少量的实验测量来预测新的药物组合。实验表明,JointSyn的性能超越了现有方法。
如图1所示,作者提出了一种名为JointSyn的新型深度学习方法来预测药物协同作用。JointSyn的输入是药物组合的联合图、两种药物的Morgan指纹图谱和细胞系的表达谱。JointSyn由两个视图组成:视图1提取药物组合在细胞系上的嵌入,视图2基于药物指纹提取药物的嵌入。随后,预测网络利用两种视图的嵌入来预测药物组合在细胞系上的药物协同作用。

图1 JointSyn结构图
对于每个三元组(药物A-药物B-细胞系),药物协同作用预测分为分类任务和回归任务。分类任务预测药物组合在细胞系上具有协同或拮抗作用。回归预测评分为Loewe评分。为了更好地表征药物的分子结构和理化性质,采用深度学习指纹和Morgan指纹作为药物特征。药物的SMILES取自PubChem。首先,使用RDKit将SMILES转换为分子图,其中节点是原子,边缘是化学键。DeepChem为每个节点计算了一个78维特征。其次,使用RDKit将SMILES转换为半径为6,维度为2048的Morgan指纹。将DeepChem指纹与Morgan指纹结合作为分子特征。对于细胞系特征,从CCLE数据库中收集细胞系的基因表达谱,将2087个基因的表达值作为细胞系的输入特征。
JointSyn由双视图组成,以捕获药物协同相关的特征。在视图1中,基于联合图的图注意力网络(GAT)处理的药物组合嵌入与基因表达嵌入连接,学习药物组合在细胞系上的嵌入。在视图2中,通过基于Morgan指纹和DeepChem指纹的多层感知机(MLP)对每种药物的嵌入进行处理,并与基因表达嵌入结合,然后将两种药物的嵌入相结合,了解药物在细胞系上的嵌入组合。
以上方法的难点在于视图1中获取两种药物的联合图。如图1C所示,作者提出了四种方法,共同构建出两个药物图的联合图。(1)超边:首先计算中间度来衡量每个药物分子图中一个节点连接其他节点的重要性,然后从两个药物图中选择中间度最高的两个节点,在这两个节点之间增加了一条边。(2)全节点:药物A中的每个原子与药物B中的每个原子建立边连接。(3)单个超节点:作者定义了一个超节点,它与两种药物中的每个原子相连。(4)三个超节点:超节点1连接到药物A中的所有原子,超节点2连接到药物B中的所有原子,超节点3连接超节点1和2。
经过上述过程,不同节点间的边可能被连接了不止一次,这意味着,联合图的不同节点的边权重是不同的,这意味着,可以使用图注意力网络(GAT),从联合图的初始边权重出发进行迭代,提取药物组合的嵌入。JointSyn模型基于三层GAT,每个原子可以看到它的三跳邻居,原子信息可以在药物之间传递。在GAT的最后一层之后,作者增加了一个全局池化层来聚合学习到的原子特征以获得嵌入药物组合。
接着,使用双层的多层感知机(MLP)对细胞系进行嵌入,输入特征为2087个基因的表达谱。然后,视图1将药物组合嵌入和细胞系嵌入拼接。类似地,视图2中学习细胞系上药物嵌入的组合,将每种药物的嵌入与细胞系嵌入相连接,然后输入到多层感知机中,得到一种药物在细胞系上的嵌入,再拼接可以得到药物在细胞系上的联合嵌入。通过以上两种网络,可以得到药物协同作用的双视图嵌入。通过拼接这两个嵌入并将其输入到多层感知机中,可以得到最终预测结果。
作者将JointSyn与一些具有代表性的方法进行了比较。回归任务采用皮尔逊相关系数(PCC)和回归系数(R2)作为指标。分类任务采用F1分数,Kappa分数和ROC-AUC作为指标,以上指标均越高越好。作者提出的JointSyn在所有指标上取得了最佳结果。

图2 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。消融实验中,JointSyn-Graph表示仅使用视图1(联合图),JointSyn-Fingerprint表示仅使用视图2(分子指纹)。作者使用t分布随机邻居嵌入(t-SNE)来可视化JointSyn最后一层的双视图嵌入(图3A)。与JointSyn-Graph(图3B)和JointSyn-Fingerprint(图3C)相比,结合双视图的JointSyn在嵌入空间中可以很好地区分协同三元组和拮抗三元组。这些结果表明,JointSyn的双视图表示在提取与药物协同相关的低维嵌入方面是成功的。
作者通过比较两种视图对每种药物组合的贡献来进一步检验模型效果。JointSyn的PCC>0.7的药物组合数为424,JointSyn-Fingerprint的药物组合数为363,JointSyn-Graph的药物组合数为332(图3D)。这些数字比基线方法要大。接下来,作者为每种药物组合选择PCC最高的最佳方法,并统计每种方法获得最佳性能的药物组合数。JointSyn方法对314种药物组合的PCC最高,而JointSyn-Fingerprint为67,JointSyn-Graph为90(图3E)。尽管在某些药物组合中,仅使用一种视图可能达到最佳效果,但是,由于捕获了嵌入空间的互补方面,双视图在大多数药物组合中实现了最佳性能。

图3 消融实验
作者还进行了案例分析。在前一部分中,作者通过随机数据分割来进行交叉验证评估JointSyn的性能,但真正的预测任务可能涉及未见过的药物组合、药物或细胞系。因此,作者通过三种分层数据分离场景进一步评估JointSyn,其中用于预测的药物组合、药物或细胞系不包括在训练数据集中,分别命名为PairOut、DrugOut和CellOut。图4A显示了每种方法在四种场景下的性能。与随机数据分割相比,分层数据分割的所有方法的性能都显著降低。DrugOut减少最多,其次是CellOut和PairOut。对于配对方案,模型仍然可以从共享药物的其他组合中学习;对于CellOut方案,模型仍然可以从类似的细胞系中学习;然而,DrugOut模拟了一种全新药物的预测,训练集中缺乏信息导致性能显著下降。在分层场景下,与其他方法相比,JointSyn在大多数指标上仍然取得了最好的性能。对于未知的药物组合,JointSyn平均F1为0.84,PCC为0.86;对于看不见的细胞系,JointSyn仍然可以平均达到0.75的F1和0.67的PCC,表明JointSyn是预测药物联合疗效的有效工具。
预测药物协同作用的未知数据是非常具有挑战性的。为了解决这一挑战,作者使用微调方法通过引入少量实验测量来提高JointSyn的性能(图4B)。对于CellOut分裂场景下的新细胞系,将该细胞系上的k种药物组合逐渐添加到训练集中(k-shot)。随着shot次数的增加,PCC和R2逐渐增大并趋于稳定(图4C)。150次shot时的性能指标接近随机分割。这意味着对于给定的药物列表,如果对细胞系实验测量21%(150/703≈21%)的组合,则可以很好地预测其余药物组合的协同作用。同样,k-shot微调提升了JointSyn在PairOut场景中的性能(图4D)。对于不在训练集中的药物组合,当将该组合在15%(5/34≈15%)细胞系上的协同得分加入到训练集中时,JointSyn可以很好地预测剩余细胞系上的协同作用。综上所述,带微调的JointSyn进一步提高了其预测泛化能力。

图4 案例分析
本文提出了一种新的深度学习模型JointSyn来预测双视图联合学习的药物协同作用。与其他方法相比,JointSyn在基准数据集上的性能最好,证明双视角嵌入对药物协同作用预测有显著帮助。更重要的是,JointSyn可以利用很少的实验测量来微调模型,提高其性能,不仅适用于数据集中不可见的子集,也适用于独立的数据集。
开发药物协同作用预测方法的一个常见瓶颈是实验测量的协同作用评分数量有限。未来的一个方向是在训练过程中加入大规模的无监督预训练,这样模型就可以学习更多的药物和细胞系,即使这些组合是未标记的。其次,JointSyn目前仅使用药物的分子图谱、摩根指纹图谱和细胞系表达谱来预测药物协同作用。更多的先验信息,如药物靶基因、药物-药物相互作用和药物干扰表达谱也可能是有用的。纳入更多的信息可以更充分地模拟药物和细胞系,甚至更好地捕获训练集中的药物和新药之间的关联。此外,药物剂量对于提高交叉研究迁移学习的准确性也很重要,但现有研究很少涉及药物剂量信息。未来可使用新的迁移学习方法来改进JointSyn,并将药物剂量纳入模型,以更好地解决交叉研究药物协同预测问题。
参考文献
Li et al. Dual-view jointly learning improves personalized drug synergy prediction. Bioinformatics. 2024
--------- End ---------