今天我想给大家介绍的论文是《KGML-xDTD: A Knowledge Graph-based Machine Learning Framework for Drug Treatment Prediction and Mechanism Description》,是一个基于知识图谱的机器学习框架,用于药物再利用预测和作用机制解释。
一、背景
传统药物开发是一个耗时的过程,从最初的化学鉴定到临床试验,最后到食品药品监督管理局批准,大约需要10-15年,并伴随着数十亿美元的投资开销和较高的失败率。考虑到新型疾病进化的速度很快,人们迫切需要找到一种更高效、更经济的药物发现方法。好消息是,一种药物通常可以有效治疗多种疾病。例如,沙利度胺最初被用作抗焦虑药物,后来人们发现它有治疗癌症的能力。因此,药物再利用也被称为“探索现有药物的新用途”, 寻求“老药新用”的可能性,可为我们带来希望。
阅读大量的文献后,我找到了一个不错的方法——KGML-xDTD:一种基于知识图谱的机器学习框架,用于可解释地预测治疗疾病的药物。它有两个模块,第一个模块可以预测某种药物治疗某种疾病的概率,第二个模块可以通过知识图谱的路径从生物学上解释该药物的作用机制。它可以有效减少“黑箱”问题,进一步加速新兴疾病药物研发的进程。
二、数据准备
首先是数据准备。随着生物医学数据库的可用性不断提高,将数据整合到生物医学知识图谱(Biomedical Knowledge Graph) 用于药物发现的做法近年变得流行起来。本方法采用的BKG是RTX-KG2c(the canonicalized version of the Reasoning Tool X Knowledge Graph 2),它是最大的开源BKG之一,包含约640万个节点和3930万条边,整合了约70个公共生物医学数据源,其中所有生物学概念(例如“布洛芬”)都表示为顶点,所有谓词概念(例如“布洛芬 - 增加 - GP1BA 基因的活性”)都表示为边。经过数据清洗后,剩下3659165个节点(33 个不同类别,如图)和18291237条边(74个不同类别)。除了RTX-KG2c,作者还用其他人工制作的数据和NLP衍生的数据集扩展BKG数据。
Ground Truth采用DrugMechDB,这是第一个由人工整理的基于路径的数据库,用于解释从一种药物到一种疾病的作用机制,其中有3593条路径,对应3327个独特的药物-疾病对。这些路径是从DrugBank、维基百科和其他文献中提取,然后由专家整理,保证权威。作者通过Node Synonymizer函数将它们与RTX-KG2c中使用的结点和边匹配。由于KGML-xDTD预测的作用机制路径的长度固定为3,即一共涉及4个结点。所以作者规定若这4个结点都完整出现在同一条DrugMechDB路径中,则被认为是正确匹配的路径。
三、模型模块
模型框架由两个模块组成:一个是药物再利用预测模块,另一个是作用机制路径预测模块,利用强化学习,有四个可学习的网络。
首先看药物再利用预测模块,输入药物A和疾病B,输出药物A可用于治疗疾病B的概率。对于每个节点,其嵌入的向量信息为节点属性和节点邻域。节点属性信息由PubMedBERT模型提供,这是一种针对生物医学文本设计的预训练语言模型,根据节点名称和类别为每个节点生成节点属性嵌入。节点邻域信息由GraphSAGE提供。之后,使用PCA将每个节点的嵌入向量压缩到100维,然后药物A和疾病B的向量拼接起来,形成一个更长的向量,作为随机森林模型的输入。随机森林模型将每个药物-疾病对输出为“不治疗”、“治疗”和“未知”类别之一,并给出每个类别的概率。
当药物再利用预测模块确定了药物A能治疗疾病B,另一个至关重要的问题随之而来:我们能否从生物学上解释这个预测?A到底是通过什么方法治疗B的?这就用到了作用机制路径预测模块。
首先需要有“演示路径(Demonstration Paths,如图)”作为强化学习的指导,即一组生物学上可能的路径(如药物K-> 基因G -> 蛋白质P-> 疾病D),它们是作者依照一定标准从BKG中提取出来的,一共396705条,演示路径可以辅助结点移动。该模块的最终会输出n条路径来解释A如何治疗B。
强化学习模型采用对抗性演员-评论家(Adversarial Actor-Critic)模型,其奖励如公式所示。从药A结点开始,不断移动,最终会停留到某一个结点——反复重复这个过程。如果最终停留到疾病B,则奖励为1;如果停留到某个疾病结点,且被药物再利用预测模块归为“治疗”类,则奖励为该模块给出的治疗概率ptreat,证明该路径的起始药物可以治疗一些潜在疾病,但还没有被人们发现;如果停留到某个疾病结点,且被药物再利用预测模块归为“非治疗”类,则奖励为0;如果最终留到某个和疾病无关的结点,则奖励为-1,代表错误决策。
对抗性演员-评论家强化学习模型由四个子网络组成,它们使用相同的多层感知机架构,但每个子网络有自己独立的参数,如图:
i代表每一个子网络的id:1)i为a时代表Actor网络——主要目标是学习一个路径寻找策略,智能体能够根据奖励指导自己在BKG中找到最佳路径。2)i为c时代表Critic网络——主要目标是估计在当前状态st下,采取动作at后所能获得的预期奖励QΦ(st,at)。3)i为p时代表Path Discriminator网络——主要目标是解决强化模型仅在路径终点收到奖励的问题,增加了中间奖励,具体操作为判别一个路径片段是来自演示路径(正样本)还是Actor网络自己生成的路径(负样本),通过提供判别结果并给予正负奖励,引导 Actor 网络寻找更合理的生物学的路径。4)i为m时代表Meta-Path Discriminator网络——该网络也提供了一个中间奖励,具体操作为判别一个Actor网络自己生成的路径(负样本)和来自演示路径(正样本)是否相似来给予正负奖励,如果相似则负样本就可以转变成正样本,从而增强Actor网络探索路径的能力。Path Discriminator网络、Meta-Path Discriminator网络提供的中间奖励与到达路径终点收到最终奖励并称为综合奖励。
四、结果
作者采用基于分类准确性的指标——Accuracy、Macro F1 score与基于排序的指标——平均倒数排名(Mean Reciprocal Rank,计算第一个相关答案的倒数排名,MRR越高,表示真实正样本在排序中越靠前)和前K名排名比例(Hit@K,计算真实正样本出现在前K个预测中的比例,Hit@K越高代表预测越准确)。
对于药物再利用模块的概率预测,使用了八个基于知识图谱的药物再利用。SOTA模型作为baseline,和KGML-xDTD及其变体进行比较,结果如图所示:
八个baseline的实验超参数如图所示:
五、实际案例
为了进一步评估KGML-xDTD模型在药物再利用预测与作用机制路径预测上的表现,作者通过两个不同的案例研究来展示该模型的潜力。两个案例研究关注的是两种罕见遗传病,即血友病B(Hemophilia B)和亨廷顿舞蹈症(Huntington’s disease)。
血友病B也被称为IX因子缺乏症或圣诞病,是一种罕见的遗传性疾病,患者容易发生持续性出血。它是由位于X染色体上的IX因子(F9)基因的突变引起的。该表列出了由KGML-xDTD模型预测的前十种药物/治疗方法,包括在训练集中使用的药物(用红色标出)和未在训练集中使用的药物:除了训练集中已知的药物/治疗方法外,列表中剩下的七种药物/治疗方法大部分得到了已发布的研究支持,并有潜力用于治疗血友病B。例如,活化的人源性凝血因子VII(Factor VIIa)和重组活化因子VII(rFVIIa)是促进血液凝固的关键蛋白,凝血酶(Thrombin)是维持正常止血功能的关键酶,
作为Ground Truth的DrugMechDB仅提供了Eptacog Alfa和Nonacog Alfa这两种治疗血友病B的药物作用机制路径,如图右半部分所示;作者使用它们与KGML-xDTD给出的前10条BKG路径解释路径进行比较,如图左半部分所示,两者相对应的生物学实体用红色高亮显示:
由于路径长度的限制以及自定义BKG中缺失某些语义关系,预测路径无法完全与DrugMechDB的路径匹配,但在预测的前10个路径的子图中,仍然可以找到对治疗血友病B至关重要的生物学实体(如factor VII, factor IX, and factor X)。