微生物、药物、疾病相关性研究:超实用资源
近年来,随着生物信息学和生命科学技术的快速发展,积累了大量生物医学数据,研究人员在此基础上开发了各种计算方法,以发现微生物、药物和疾病之间的潜在关联。近日《Briefings in Bioinformatics》发表综述文章,详细介绍了广泛使用的微生物、药物和疾病之间潜在关系的数据集,深入探讨了一系列具有代表性的计算模型,同时分析了这一研究领域可能面临的挑战和机遇,并提出了进一步提高预测性能的建议。
数据资源
识别潜在MDsAs, DgDsAs和MDgAs的数据库概览
微生物-疾病关联(MDsAs)
HMDAD覆盖了从61项之前的研究工作中选择的39种疾病和292种微生物(标记为DS1)之间的483种已知微生物-疾病关联。
Disbiome纳入了从1191篇已发表的学术论文中筛选出来的,372种疾病和1622种微生物组(标记为DS2)之间存在10922种已知关联。
MicroPhenDB包括新收集的22个人体部位中1781个微生物和542个人类疾病表型(标记为DS3)之间的5677个非冗余关联,以及27277个分支特异性核心基因和685个微生物之间的6969694个关联。
MDIDB包括1198种疾病、1065种微生物和44900种关联(标记为DS4)。
Peryton包括连接43种疾病和1396种微生物的7977个关联(标记为DS5)。
药物-疾病关联(DgDsAs)
2009年发布了CTD的第一个版本,这是一个强大而开放的数据库,为潜在的DgDsAs预测提供手工整理的化学、基因、蛋白质、疾病信息及其关系。除CTD外,DrugBank、TTD和OMIM等数据库也包括与DgDsAs有关的数据集。
微生物-药物关联(MDgAs)
MDAD包含从993篇文献中收集的180种微生物和1388种药物(标记为DS15)之间的5505种关联。
aBiofilm包含了1988-2017年报道的5027种抗生物膜制剂(1720种特异性)的生物、化学和结构细节,这5027种药剂针对140多种微生物(标记为DS16),包括革兰氏阴性、革兰氏阳性细菌和真菌。
DrugVirus总结了118种针对83种人类病毒的化合物/药物的活性和发展状况,其中包含1281种关联(标记为DS17)。
MDsAs(DS18), DgDsAs(DS19)和MDgAs(DS20)数据集之间的关系
MDsAs, DgDsAs和MDgAs的生物医学数据因其成对相互作用而密切相关;上述每个数据库都可以应用于不同的预测问题。
计算模型
近年来,基于上述数据库,人们提出了许多计算方法来预测微生物、药物和疾病之间的潜在关系。
针对潜在MDsAs, DgDsAs和MDgAs预测的计算方法概述
基于网络的方法(network-based)
基于网络的方法主要是采用基于不同数据库构建的不同网络的拓扑信息来推断潜在的关联性。基于网络的方法可以大致分为八个子类:KATZ Measure,网络嵌入(NE),标签传播(LP),随机游走(RW)或双随机游走(BiRW),HeteSim Score,加权网络(WN),网络一致性投影(NCP)和协同过滤(CF)等。
其中,KATZ Measure可以在大规模网络中同时重建潜在的关联,但GIP内核相似性的计算会对那些已知的关联造成不可避免的偏差。LP和RW算法效率高,使用简单,但大多数基于它们的预测方法包含的生物信息较少。在NE中使用的元路径的概念可以明确地捕获基本的高阶接近性。然而,当向网络添加更多的信息时,训练嵌入的难度会增加。基于WN的方法和基于HeteSim的方法具有捕获潜在细微语义关联的强大能力,但在没有任何已知关联的情况下,无法完成对微生物(药物、疾病)的预测。
基于矩阵分解的方法(Matrix factorization (MF)-based)
基于MF的方法的核心思想是将输入矩阵分解为两个低维矩阵,同时保证这两个低维矩阵的乘积近似等于原始输入矩阵。主要有图正则化非负矩阵分解(GRLNN-MF)、逻辑矩阵分解(Logistic-MF)、相似约束矩阵分解(SC-MF)、核贝叶斯矩阵分解(KB-MF)、协同矩阵分解(Collaborative-MF)等。
基于矩阵分解的方法可以挖掘更深的潜在联系。同时,矩阵分解具有相对较低的空间复杂性。然而,基于MF的方法通常包含更多的参数。因此,选择最佳参数更具挑战性,模型训练也很耗时。此外,基于矩阵分解的模型是不可解释的。他们在优化模型时只更新观察到的项目,而不考虑未观察到的东西。
基于矩阵补全的方法(Matrix completion (MC)-based)
矩阵补全的目的是通过矩阵分解将一个缺失值的矩阵分解为两个或多个矩阵,然后将这些分解矩阵相乘,以获得原始矩阵的近似矩阵,从而将缺失值的矩阵恢复为完整矩阵。在MDsAs预测方面有BMCMDA和MCHMDA等模型,DgDsAs预测方面包括DRRS和HGIMC等模型。
主要有三种补全模型:基于核范数松弛的矩阵补全模型、基于矩阵分解的矩阵补全模型、基于非凸函数松弛的矩阵补全模型。基于核范数松弛的矩阵补全模型的优点是属于凸优化模型,存在全局最优解,核范数近邻算子具有封闭的分辨率,但该模型的解释涉及复杂的奇异值分解,求解效率有限,且核范数不能逼近目标矩阵的实际排列。基于矩阵分解的补全模型避免了复杂矩阵奇异值分解,可以分布式实现,但属于非凸优化,可能存在非全局最优解。
基于正则化的方法(Regularization (RL)-based)
基于RL的方法旨在建立不同的正则化最小二乘分类,这是一种基于核的平方损失正则化网络,用于解决不同的预测任务,其泛化性能受到其核参数和超参数设置的严重影响。在MDsAs预测方面有LRLSHMDA和MdAKRLS等模型;在DgDsAs预测方面有LRSSL、RLSDR和DR2DI等模型;2021年LRLSMDA模型提出,其基于LAPLS算法,利用成本函数的最小化来计算两个目标函数,并进一步用线性平均法转化为预测矩阵。
正则化方法产生了较少的模型参数,从而节省了时间,提高了稳健性。同时,基于RL的模型具有很强的拟合和泛化能力。这些模型通过引入正则化项来增强模型的可解释性。然而,正则化可能会带来计算的复杂性,而且在正则化中加入惩罚项很容易使模型欠拟合。此外,基于正则化的模型也很难进行校准。
基于神经网络的方法(Neural network (NN)-based)
基于NN的方法进一步分为六个不同的子类,如卷积神经网络(CNN)、基于图卷积网络(GCN)的自动编码器、基于图注意力网络(GAT)的自动编码器、条件变分自编码器(CVAE)、稀疏自动编码器(SAE)和深度神经网络(DNN)。
神经网络在预测领域得到了广泛的应用。与传统的神经网络相比,CNN具有参数共享机制,可以有效避免过度拟合,取得更好的性能。但是池化层会丢失很多有价值的信息,忽略了局部与整体的关联性。GCN改善了翻译不变性对非矩阵结构数据的不适用性,但它的灵活性和扩展性较差。GAT可以有效地提高图神经网络的聚集效果,但它很难聚集高阶邻域,而且对参数初始化很敏感。SAE可以有效地学习重要特征,抑制次要特征,并提取维度更低、更稀疏的抽象特征,但它不能指定某个节点是活跃的还是隐藏的,而且稀疏度参数设置得很差。CVAE可以通过选择标签生成特定的数据,但其通用性较弱。
随后,研究团队还对MDsAs、DgDsAs预测领域的模型做了性能评估,由于缺乏数据和代码的再现性,就没有进行MDgAs预测的实验比较。
在MDsAs方面,HMDA-Pred代表的基于网络的方法可以在留一验证(LOOCV)中实现最佳性能;BPNNHMDA在10折交叉验证(10-fold CV)中可以实现最佳性能;融合微生物和疾病的多种相似性可以显著提高模型的预测性能;需要将多源数据和各种相似性计算方法作为入口,以提高性能和模型泛化能力;另一个提高预测可靠性的措施是为每个微生物定义分类级别,然后在同一级别进行预测。此外,分类法的引入有利于准确识别微生物数据中的微生物,有助于将微生物基因组序列和患者衍生的微生物宏基因组、转录和代谢等微生物组整合到MDsAs预测中;最后,现有的大多数模型不能解决没有任何已知关联的新疾病和微生物的预测问题;这个问题可以通过引入相似性来解决,而不需要依赖微生物疾病关联网络的已知拓扑信息。
在DgDsAs方面,研究团队选择了五种有代表性的方法,例如MBiRW、MSBMF、DR2DI、BNNR和DRHGCN。与其他选定的方法相比,基于MF的方法MSBMF和基于神经网络的方法DRHGCN可以获得更好的预测性能。此外,在DRHGCN中,融合了来自不同领域的不同特征嵌入,避免了未区分和混合的网络拓扑信息造成的大量网络特定信息的丢失。同时,DRHGCN采用注意力机制来增强特征表示能力。
每种类型的选定方法都有其自身的优势和劣势。例如,基于NN的方法更广泛地用于预测潜在的DgDsAs,而基于网络的方法更广泛地被用于检测潜在的MDsAs。此外,基于MF的方法,如NMFMDA,在DgDsAs预测中表现较好,但在MDsAs预测中未能获得满意的结果。基于机器学习的方法适合于处理大量的数据,在药物-药物相互作用预测领域SSI-DDI表现更好。
挑战和前景
为单一任务整合多类型数据
为了获得更好的预测性能,最简单的想法是将数据资源部分所有典型数据库作为一个整体集成在一起,以预测任何单个问题,因为它们彼此密切相关。此外,其他一些相关的数据包括微生物之间的相互作用(MMIs)、药物之间的相互作用(DgDgIs)和疾病之间的关联(DsDsAs)也可以作为补充,为MDsAs, DgDsAs和MDgAs的预测问题做出贡献。
DgDgIs数据
在过去的几年里,研究人员构建了一系列与DgDgIs相关的数据集。例如DrugBank、KEGG DRUG、TWOSIDES等。
引入新机制
大多数现有的计算方法通过比以前的算法丰富更多的实体相似性来提高它们的性能。除了这种策略外,许多其他的方法,如异质图神经网络(GCN)和注意力机制也适用于这个问题。此外,大多数现有的计算方法都是有监督的。有限的已知关联数据集被用作训练集和测试集,这将严重阻碍预测模型的实用性和性能。无监督的方法和丰富的数据可能会解决这类问题。
基准评价
LOOCV和K-fold CV在上述所有文献中都得到了广泛应用,是链接预测的基准评估框架。此外,视觉上有吸引力的ROC图和AUROC提供了预测器性能的概述,通常用于评估上述预测问题的预测结果。针对MDsAs, DgDsAs和MDgAs的预测问题所开发的计算方法总是使用非常不平衡的数据集,ROC图在应用于不平衡预测的情况下可能会产生误导。替代措施,如F-score、阳性预测值和PR图的使用频率较低。此外,研究人员报告说,在处理高度倾斜的数据集时,PR曲线可以提供算法性能的更多信息,而优化ROC下面积的算法并不能保证优化PR曲线下面积。因此,探索合理的基准评价在微生物、药物和疾病预测三个方面的互动中是至关重要的。
处理阴性样本
在本文提出的这些预测任务中,没有收集和使用任何实际的阴性样本。阴性样本的丢失会显著影响该模型的预测性能。因此,一方面,从生物医学数据库和文献中收集阴性样本至关重要。另一方面,开发计算方法生成高质量的阴性样本是解决这个问题的另一种选择。到目前为止,通过选择高质量的阴性样本来提高预测性能的工作还很少。此外,研究表明,选定的阴性样本可以在蛋白质-RNA相互作用识别领域实现实质性的性能改进。
多类型关联识别
我们从生物学数据到计算方法的分析表明,微生物、药物和疾病之间的成对关系密切相关。然而,很少有人在生物医学数据和计算方法上做出努力来同时识别MDsAs, DgDsAs和MDgAs的多类型关联,这可以让我们对它们之间的关系有新的见解。此外,多任务学习(MTL)作为处理多类型关联预测的计算框架之一,在生物信息学中得到了广泛的应用。