2023年11月29日,上海交通大学沈红斌教授、联合交大教授、数因智科创始人袁野、潘小勇,联合上海交通大学严骏驰教授,在Nature Communications上发表文章ZeroBind:a protein-specific zero-shot predictor with subgraph matching for drug-target interactions。
作者提出了一个具有子图匹配的蛋白质特异性零样本元学习框架ZeroBind(a protein-specific zero-shot predictor with subgraph matching for drug-target interactions),用于从蛋白质的结构预测蛋白质与药物的相互作用。在元训练过程中,ZeroBind制定了一个蛋白质特异性的训练模型,这也被认为是一个学习任务,每个任务都使用图神经网络(GNN)来学习蛋白质图嵌入和分子图嵌入。
ZeroBind的灵感来自于分子与蛋白质中的一个结合口袋相结合,而不是整个蛋白质结合的事实,它引入了一个弱监督子图信息瓶颈 (semi-supervised subgraph information bottleneck,SIB) 模块来识别蛋白质图中信息量最大的压缩子图作为潜在的结合口袋。此外,ZeroBind将单个蛋白质的模型训练为多个任务,其重要性通过任务自适应自注意力模块来自动学习,从而做出最终预测。结果表明,ZeroBind在DTI预测上取得了优于现有方法的性能。
背景
蛋白质与药物分子的相互作用是一个重要的研究课题,特别是面对训练集中未见的蛋白质和药物分子。然而,现有的DTI预测方法通常不能很好地推广到新的(未知的)蛋白质和药物。同时考虑蛋白质和分子的信息是解决这一问题的一个尚未被探索的想法。
方法
在本研究中,ZeroBind将DTI预测作为一个元学习任务,并提出了一个元学习框架来解决DTI预测中不可见蛋白质和药物的泛化问题。具体来说,元学习任务被定义为特定蛋白质的结合药物预测,其中利用信息瓶颈(IB)子图学习来自动发现压缩子图作为蛋白质中潜在的结合口袋,并设计了自注意机制来学习蛋白质的每个任务的权重。ZeroBind的流程图如图1所示。
图1 ZeroBind结构图
具体来说,ZeroBind使用基于网络的负采样作为数据增强来缓解标注不平衡(图1a)。图1b、c给出了基于网络的负采样在训练集上前后的正样本比例,说明基于网络的负采样在一定程度上缓解了标签不平衡。然后,它将DTI采样到支持和查询集中(图1d),其中支持集用于训练元学习器,查询集用于训练特定任务的模型。在重复N个内部步骤后,对所有损失进行加权,以梯度下降法优化元学习器。对于每个蛋白质,ZeroBind训练一个DTI预测任务。
图1e给出了ZeroBind中基本模型的架构,其中蛋白质图和分子图被馈送到主干图卷积网络(GCN)中,以学习药物和蛋白质的嵌入。此外,设计了一个弱监督子图信息瓶颈(SIB)模块来建模和发现蛋白质中潜在的结合口袋。SIB模块不仅减少了冗余信息以提高性能,而且通过识别蛋白质中的关键残基,为ZeroBind带来了可解释的见解。图1f介绍了一个自适应自注意模块来衡量蛋白质的每个任务的贡献,其中不同的DTI任务对元学习者的贡献不同。ZeroBind支持预测零样本和少样本场景下的DTI。前者使用元学习器直接进行预测,无需使用元测试中的蛋白质样本进行微调,后者使用蛋白质特异性模型进行预测,使用元测试中的蛋白质样本进行微调。
ZeroBind中基本模型的架构主要由三个模块组成:图神经网络(GNN)模块用于获得分子和蛋白质的嵌入,弱监督信息瓶颈(SIB)模块用于寻找最具预测性的子图作为蛋白质的结合口袋,以及连接蛋白质子图表示和分子表示的全连接模块(MLP)用于对相互作用进行评分。
结果
作者将ZeroBind与一些具有代表性的方法进行了比较,如图2所示。作者在零样本测试任务的直推式(transductive)测试,半归纳式(semi-inductive)测试和归纳式测试上分别进行对比。ZeroBind的AUROC和AUPRC均超过了现有方法(图2a)。对于不同维度(在图2b中用不同颜色的点区分)的蛋白质,ZeroBind的AUROC与现有方法均具有较高的相关性。在数据集中,与不同的蛋白质相关的分子数量不同,将其分为1-10个分子相关、10-100个分子相关、100-1000个分子相关这三档,在每一档中,ZeroBind预测正确的蛋白质数均显著超过现有方法(图2c),表明即使对于缺乏标签的蛋白质-分子对,ZeroBind也能预测其相互作用。在少样本测试任务上,ZeroBind的AUROC和AUPRC均超过了现有方法(图2d)。
图2 与其他方法对比
作者设计了模型消融实验。为了证明ZeroBind中单个模块的作用,作者测试了ZeroBind的如下变体:
ZeroBindMAML-:直接训练ZeroBind的基本模型,不使用元学习策略。
ZeroBindSIB-:使用蛋白质的所有节点嵌入来识别相互作用,而不是应用SIB模块在蛋白质图上查找ib图。
ZeroBindAttention-:ZeroBind无任务适应的注意模块,以平衡不同任务的重要性。
ZeroBindGIN:ZeroBind使用GIN代替GCN作为主干GNN。
ZeroBindRandom:ZeroBind随机设置节点分配矩阵。
结果如表1所示。完整的ZeroBind的AUROC超过以上变体,表明ZeroBind的每个模块都能够提升模型性能。
表1 消融实验
作者还进行了案例分析。图3a、b分别为预测结合袋与真结合袋及真结合袋的一阶邻域的Jaccard相似系数分布图。结果表明,尽管预测结合口袋与真实结合口袋之间存在一定差异,但预测的结合口袋大多在真实结合口袋附近,这表明ZeroBind中生成的IB-subgraph子图作为潜在的结合口袋是有效的,具有一定的生物学可解释性。
作者进一步进行了一个实验,随机取样残基作为潜在的蛋白质口袋,这里记为ZeroBindRandom。结果在消融研究中得到了证明(AUROC低于完整的ZeroBind)。如图3a, b所示,这里还计算了随机抽样的具有真结合袋和真结合袋的一阶邻居的结合残基的Jaccard相似系数。ZeroBindRandom得到的Jaccard相似系数远小于ZeroBind,随机选择的结合残基与蛋白质中真正的结合口袋或它们的邻居几乎没有重叠。结果表明,ZeroBind中的SIB模块学习的是潜在的绑定口袋,而不是其他不相关的因素,因为DTI绑定信息在一定程度上能够指导IB-subgraph模块定位潜在的绑定口袋。
作者进一步将生成的子图可视化为丝氨酸/苏氨酸蛋白激酶N1蛋白的潜在结合袋。图3c和d分别表示实验验证和ZeroBind预测的丝氨酸/苏氨酸蛋白激酶N1蛋白DTI结合口袋。蓝色部分表示实验验证的结合袋以及残基名称和编号,红色部分代表蛋白质的螺旋结构,黄色部分代表蛋白质的环状结构,绿色部分代表蛋白质的片状结构。可以看到,预测结果包含了大多数真实结合的残基。
图3 案例分析
总结
本文将药物-靶标相互作用(DTI)预测作为一个元学习任务,并提出了一个名为ZeroBind的元学习框架来解决DTI中新的的蛋白质和药物的泛化问题。具体来说,元学习任务被定义为对特定蛋白质的结合药物预测。结果表明,ZeroBind在零样本和少样本场景下优于现有方法。
由于图神经网络研究的快速发展,蛋白质和分子可以以比以往研究中的序列更自然的形式编码。此外,元学习策略还提供了一种更精确的描述蛋白质特异性DTI任务空间的方法,这也与真实药物实验中蛋白质的实验工作流程相一致。弱监督的信息瓶颈子图方法为理解表示学习提供了模型的可解释性。现有的基于子图的方法主要集中在药物分子上,而ZeroBind首次使用弱监督子图方法来建模蛋白质。
但是,ZeroBind也有一些局限性,比如元学习训练的难度较高,训练过程复杂,容易出现不稳定。此外,ZeroBind中的基础模型是GCN,在未来的工作中,可在ZeroBind中采用更先进的GNN。
参考文献
Wang et al. ZeroBind: a protein-specific zero-shot predictor with subgraph matching for drug-target interactions. Nat Commun. 2023
--------- End ---------