报道人 | 于洲
今天我们介绍2022年在圣母大学组织的一个网络生物学未来方向研讨会,本文由研讨会参与者合著,总结了研讨会的讨论,预计其将帮助塑造网络生物学未来计算和算法研究的短期和长期愿景。网络生物学是一个跨学科领域,集计算科学和生物科学于一体,对于深入理解细胞功能和疾病至关重要。该领域存在约20年,仍处于初级发展阶段。由于多种因素导致该领域发生了快速变化和出现了新的计算挑战,包括数据复杂性的增加和不同组织水平上多种数据类型的出现以及数据量的增长。这意味着该领域的研究方向也需要发展。因此,汇聚了网络生物学各个计算和算法方面的活跃研究者,以确定这个领域的紧迫挑战。讨论的主题包括:生物网络的推断和比较、多模态数据整合和异构网络、高阶网络分析、网络上的机器学习以及基于网络的个体化医学。
生物网络的推断与比较
从非网络数据中推断出一个网络
计算机推断的生物网络可分为三大类:关联网络、相关网络和调控网络(图2A)。
物理蛋白质相互作用(PPI)网络通过高通量实验直接获得。另一方面,虽然关联网络可能包含实验推导的交互作用,但它们也包含从各种可能的数据源计算推导的交互作用。例如,除了物理PPI之外,STRING关联网络还包含从序列或三维结构相似性、遗传互作用、文献挖掘边或其他类型的成对蛋白质关联推导的PPI,这与蛋白质之间的物理结合不同。相关网络通常从多个样本(时间点、组织、患者、年龄、药物或其他条件)收集的组学数据计算。基因共表达网络是最突出的相关网络类型之一。具体来说,给定包含多个样本中基因表达水平(即mRNA丰度)的转录组数据,可以通过在表达水平高度相关的基因之间建立边来构建基因共表达网络。尽管相关网络存在多个已知局限性,但由于其简单性以及轻松生成和解释的特点,相关网络在生物医学应用中被广泛使用。
调控网络捕获调控因子和其目标之间的定向关系,并描述生物分子之间的因果(而不仅仅是相关)关系。基因调控网络是推断调控网络的常见类型,其中调节因子是转录因子蛋白质(或其他影响基因表达的分子,如微RNA),目标是基因。存在多种方法来推断基因调控网络。尽管该领域存在多种方法,但有效地整合多种组学数据类型以准确推断特定条件下的调控网络仍具有挑战性。后续章节会接触到这一挑战。
链接预测:从现有网络数据推断新交互作用
物理PPI网络的局限之一是存在大量的假阴性(即缺失的链接),也存在假阳性(即报告的但实际上不存在的链接)。补全缺失的PPI通常以两种方式之一进行(图2B):(1)基于现有PPI网络的拓扑特性推断新PPI(或删除现有PPI);(2)仅使用氨基酸序列确定蛋白质是否结合,这在仅有蛋白质序列数据可用时至关重要。
基于网络的新PPI预测通常使用相对简单的规则(例如,链接具有高度的节点可能是可取的,拥有许多共同的交互伙伴的节点,共享许多路径的节点,或者拓扑相似的节点),或者更复杂的基于扩散的网络嵌入。然而,规则和嵌入的组合非常重要,特别是因为物理与关联PPI网络中的交互模式可能非常不同。深度学习方法在基于序列的PPI预测中较成功。这些方法侧重计算速度。也就是说,它们旨在预测蛋白质序列是否交互,而非交互方式,以便为网络中的所有蛋白质对进行预测。然而,一些基于序列的方法设法隐式地并入蛋白质三维结构信息。例如,D-SCRIPT使用预先训练的蛋白质语言模型并隐式学习模糊的联系图表示。如何同时利用基于网络和序列的链接预测仍是一个开放问题。此外,评估链接预测方法和尤其是混合方法具有挑战性。这是因为现有的真实网络(除HURI之外)存在偏差。所以,想出公平的性能指标具有困难,这些指标不会偏向节点度,也不会偏向网络方法而不利于序列方法。另一方面,基于序列的方法在已知交互蛋白质对的近同源体上表现更好。
推断特定条件下的网络
尽管现有的广泛实验获得的生物网络数据是难以置信的资源,但它们并没有捕捉生物网络中的交互作用在不同条件下的变化,即它们是无上下文的。计算方法在推断特定条件下的网络方面发挥着重要作用。计算推断特定条件下网络的方法可以分为几大类:(1)评估疾病中观察到的突变是否改变蛋白质交互;(2)将突变数据或特定条件下的基因表达数据与PPI网络相结合,以识别特定疾病中失调的PPI或特定条件下活跃的PPI,即推断特定条件下的PPI网络;(3)使用基因表达数据推断与感兴趣的条件或样本相关的相关网络;(4)与前述方法类似,但应用于调控网络而不是PPI或相关网络。
突出的应用包括研究癌症、组织特异性、衰老和基因组范围的关联。例如,将癌症相关基因突变数据与PPI数据相结合,以识别PPI网络中可能在癌症中活跃的部分。这样的癌症特异网络不一定是连接的,即它可能由多个连接组分组成,每个组分可以视为一个癌症特异路径或子网络。识别特定条件下的网络时的一个重要问题是确定结果网络是否仅由分子测量数据或PPI网络拓扑引起,还是两者的结合。最近的工作表明,在一些应用中,两者都对识别疾病失调的子网络有贡献。与第三类方法相关,特定条件下的相关网络通常是通过在相关样本子集上应用相关度量来派生的。但是,最近开发的方法可以推断“样本特异性相关”。也就是说,给定一组基因表达样本(可以跨样本测量相关性),这些方法可以为输入数据集中的每个单独样本估计一个网络。
最后,遗传变异可以通过多种方式影响基因调控网络。存在多种方法来从各种组学数据类型推断特定条件下的调控网络。例如,PANDA被应用于GTEx基因表达数据的子集,以推断38个组织特异性基因调控网络。另外,一些方法可以用于为不同组学数据类型推断样本特异网络。
差异网络分析:特定条件网络的比较
差异网络分析经常考虑具有相同节点集但边不同的特定条件网络。许多方法已经开发出来,以识别网络区域之间最大的差异;希望这样的区域负责基础生物学差异,如健康和疾病状态,不同组织或年轻和年老之间的差异。总体上,解决这个任务的方法可以用几个方面来描述。
一类方法基于网络分析的阶段,即在什么时候测量特定条件网络之间的差异。给出特定条件网络后,一种选择是首先计算每个特定条件网络中网络区域(节点、边、网络聚类等级)的某个拓扑特性,然后测量该特性在不同网络/条件之间的变化范围;目的是识别拓扑性改变最大的网络区域。一个潜在问题是一些拓扑特性,如旨在从最重要到最不重要对网络中的节点进行排名的中心性度量,在网络内有意义,但不一定适用于跨网络比较。另一种方法是首先使用特定条件网络推断一个差异网络,直观地捕获条件之间的边差异(图2D);然后计算差异网络中所需拓扑特性(例如每个节点的中心性),以识别与基础特定条件差异最相关的网络区域。
另一类方法基于拓扑结构的层次,即在网络的哪个层次上测量差异:节点、边、聚类或整个网络。在节点层次上,中心性(如度或介数)的差异常用于识别网络连接性变化最大的生物分子。例如,基因调控网络间的基因目标差异与标准基因集富集工具结合,用于识别胰腺导管腺癌亚型中的超表征生物过程。在边层次上,目标通常是确定特定条件的边。可以通过多种方式实现,例如取特定百分比的最高权重边、超过给定阈值的所有边、在一个条件中权重比其他条件更高的边,或这些的组合。另一方面,节点中心性虽然常在每个特定条件网络中确定后进行比较,但也可以在由特定条件边定义的网络中计算。总之,差异网络分析可以在不同层次上进行。
本文对差异网络分析的两个额外方面发表评论。首先,尽管一些特定条件网络来自多个数据样本,但样本特定网络具有考虑其他潜在相关生物医学信息进行比较的额外好处。例如,差异基因表达分析中使用的相同统计工具可用于确定节点、边、聚类和网络层次拓扑特性在一组样本特定网络之间的显著变化。重要的是,这使得拓扑特性可以与相关生物学和表型变量以及潜在混杂变量一起评估。其次,虽然上述讨论适用于所有条件类型,但本文明确希望更多地评论网络随时间变化的方法。一个突出的应用是研究PPI网络拓扑结构随年龄的变化。总之,差异网络分析可以采用不同的方法和在不同的层次上进行。
网络比较的其他类型
差异网络分析是网络比较的一种类型,其中比较的网络具有完全相同的节点,仅在边(或边权重)上不同。换句话说,比较网络之间的节点映射是已知的。网络比较的互补类别包括比较节点映射未知时的网络的方法。这里有两种不同类型:(1)网络比对或基于比对的网络比较和(2)无比对网络比较。
基于比对的网络比较旨在找到比较网络之间的节点映射以优化某种目标函数;这通常意味着在网络之间保留许多边和一个大的子图。这种方法类别对于比较不同物种的生物网络以识别网络的进化保守部分非常有用。因此,网络比对允许在比较物种之间的比对网络区域内传递生物学知识(例如蛋白质的功能注释或蛋白质相互作用);此外,它可以通过允许根据蛋白质的PPI网络而不是(仅)序列相似性来识别蛋白质同源关系来补充序列比对。注意,即使在比对同质网络时,网络比对问题也可以看作是将这些网络整合到一个异质(具体地说是多重)网络表示中。
相反,与基于比对的比较相比,无比对网络比较“简单地”旨在量化网络之间的整体拓扑相似性,而不考虑网络之间的节点映射,也不打算识别任何保守的网络区域;这通常意味着比较网络之间的某些拓扑属性,例如它们的(图形)度分布。无比对网络比较最常用于评估随机图(例如无标度或几何图)与实际网络的拟合程度;此外,它可以识别拓扑结构相似的网络组/家族。考虑到无比对网络比较方法不旨在在比较的网络之间产生节点映射,而基于比对的方法确实旨在产生节点映射,所以前者通常比后者在计算上更有效。
多模态数据整合和异质网络
概述
从细胞到生态系统的生物系统的网络表示本质上是异质的,由多种类型的节点和相互作用组成。本节着重探讨与异质网络推断和分析相关的突出计算挑战。本文广泛地将异质网络定义为多模态数据的表示,其中每个数据模式对应于不同的节点或边类型。在文献中,“异质网络”一词经常被用作多重网络、多层网络或多尺度网络的同义词。挑战在于,有时不同的术语被用来表示相同的概念,或者相同的术语被用来表示不同的概念;异质网络相关的不一致术语可能反映了它们框架中的细微差别。本文对这些术语的理解如下(图3A)。
多重网络/多层网络是一种特殊类型的异质网络,只有一种节点类型,但节点之间有不同类型的边;这些可以看作是由不同的网络层组成,这些层共享相同的节点集(复制品),但每个层都有不同的边类型。生物学中的这种类型的一个例子是捕捉蛋白质之间不同类型关系(如物理相互作用、功能关系和序列相似性)的关联PPI网络。在这里讨论的典型异质网络包括不同的节点类型和(按定义)不同的边类型。一个例子是表示基因、转录本、蛋白质和代谢物等异质节点类型之间关系的分子网络。另一个例子是表示诸如基因、患者、药物和疾病等节点类型之间语义关系的知识图。另一级复杂性是处理不同生物组织级别的不同节点类型,例如,来自表观遗传组学、转录组学、蛋白质组学和代谢组学实验的数据模态的节点类型以及来自非分子文本和图像数据的节点类型。在这种情况下,本文正在处理一种称为多尺度网络的异质网络类型。网络中的网络是多尺度网络的一种特殊情况,其中给定尺度的节点在较低尺度上是一个网络。例如,PPI网络中的节点(蛋白质)可以表示为蛋白质结构网络,其中节点是氨基酸,边连接蛋白质3D折叠中足够接近的氨基酸。本文对异质网络的定义包含了所有多重/多层网络、典型异质网络和多尺度网络,以及一般来说,任何不是同质(单一节点类型和单一边类型)网络的网络类型。
异质网络是具有多种节点或边类型(或两者)的复杂系统的多种数据模态表示、整合和分析的强大框架,允许调解互补测量并提供系统的整体视图。这里,本文讨论了以下涵盖异质网络的主要研究方向:从多模态数据推断异质网络,用于解释多组学数据的通路重建,网络比对,生物医学知识图的推理,以及网络中的网络分析。这不是异质网络主题的详尽列表,其他部分触及了额外的主题。
通过多模态数据推断异质网络
异质网络推断是从多模态数据(通常是多组学数据)中推断图连通结构的计算任务。绝大多数方法都是通过使用批量组学数据集来推断代表基因、蛋白质和代谢物等生物分子的节点之间的连接。单细胞组学数据集为网络推断带来了新的机遇,其中节点可以代表单个细胞。根据方法对边的示例标签的依赖程度,异质网络推断方法可以分为几类。
最简单的方法将边的正负示例以及来自多模态数据的配对节点特征向量作为输入,并训练二分类器来区分具有边的节点对和没有边的节点对。这种二分类方法假设所有节点对都是独立的,因此其利用已知的图连通性结构的能力受到限制。嵌入方法将不完整的图以及作为节点特征的多模态测量数据作为输入,根据图的部分结构和测量值学习节点的嵌入表示,然后用于基于链接预测或矩阵完成来推断边。图嵌入方法放宽了二分类方法的独立性假设。随着图嵌入方法捕获更多的网络连接性,它们可能需要更少的训练数据来进行与简单二分类一样好的预测。图神经网络提供了利用更全局的网络信息来指导推断任务的新方法。上述方法最大的局限是需要正的训练数据(边)以及负示例(非边)并非真正观察到的,而是假设为正集的补集的一部分。另一方面,无监督的图结构学习方法将节点层次的测量作为输入,仅从这些测量中推断图结构,而不需要任何边/非边的标记示例。这些方法可以从基于相关的网络(其中节点表示不同的多模态数据之间的成对依赖关系)到更一般的基于概率图模型的方法。在概率图模型中,节点被建模为随机变量,边对应统计依赖关系,每个数据模态都表示为不同的节点类型。一旦网络定义好了,它们可以进一步聚类成模块来识别节点之间的潜在功能分组。从多组学数据中无监督学习图结构自然适用于基因调控网络的推断,其中节点类型表示目标基因和蛋白质调节因子。根据其观察到的mRNA水平或隐藏的活性水平,可以进一步对蛋白质调节因子建模。虽然这种方法不需要任何边层面的信息,但如果有任何潜在的嘈杂信息可用,则可以将其作为先验知识引导结构学习。处理多种测量时的关键建模挑战是为每种数据模态指定适当的概率分布。由于概率图模型(如贝叶斯网络)的结构学习可能会遇到可扩展性问题,一些启发式方法(如关注有希望的父节点,利用分子网络的模块化等)使这些模型扩展到成千上万个变量成为可能。
单细胞多组学数据集的可获得性也带来了异质网络推断可以解决的挑战。一个这样的问题是推断细胞-细胞网络,其中节点对应细胞,节点类型对应不同的模态(例如scRNA-seq,scATAC-seq)或时间点(或两者兼有),边表示不同的语义,如相似性或谱系关系。由于数据的大小和稀疏性,在推断网络结构之前通常先执行维度降低。非负矩阵分解、独立成分分析和变分自动编码器是单细胞多组学数据集的常用维度降低方法。
多组学数据的通路重构用于解释数据
异构网络为多组学实验中常见的缺失和噪声测量提供了一个强大的整合、解释和协调的框架。通路重构任务以不同生物分子类型的多组学测量数据为输入,和一个庞大的背景分子网络,输出一个含有相关生物分子的稀疏子网络(图3C)。背景网络通常包含蛋白质相互作用,也可能包括蛋白质-DNA、蛋白质-RNA或蛋白质-代谢物的相互作用,以匹配可用的组学数据。在背景网络中从一个相关生物分子到另一个的路径有助于修剪不相关的生物分子,并识别那些可能在整个生物过程中发挥关键作用但在组学测量中被遗漏的分子。注意,这个任务可以看作是推断同质特异性网络(通过第二类方法)的异构版本。
得到的稀疏子网络取决于优化算法及其参数的选择。一些通路重构算法在计算上是高效的,基于最短路径或网络流。尽管算法简单,这些方法仍然可以有效地优先考虑生物学相关的节点和相互作用。基于网络流的方法可以通过依赖多商品流方法来扩展多个实验,识别在条件间唯一和共享的节点与边。通用整数线性规划方法支持任意节点、边和路径约束。这些为特定的多组学数据集提供了最大的定制化,但可扩展性和跨应用的可重用性较差。中间方法如带奖励的最小斯坦纳森林在精确求解上计算困难,但可以高效地逼近。例如,基于带奖励的最小斯坦纳森林算法的组学集成器软件给应包含在稀疏子网络中的节点添加奖励,根据边的可靠性给边添加成本。参数控制节点奖励与边成本之间的权衡,对包括高度节点的惩罚,以及对子网络连接组件数目的惩罚。
异构通路重构尤其强大,因为可以组合不同类型生物分子之间的网络连接来揭示更完整和解释性的通路。例如,通过RNA测序检测到的差异表达基因可能被推断为由通过质谱检测到的上游磷酸化激酶所调控的转录因子激活。一项卡波西肉瘤相关疱疹感染的研究阐明了多组学通路重构涉及的数据类型、算法和获得的生物学见解。作者使用质谱描绘了病毒感染引起的内皮细胞的蛋白质组和磷酸化蛋白质组变化,使用RNA测序检测基因表达变化。他们使用转录因子结合位点和基因表达数据的统计富集测试来识别潜在相关的转录调节因子。然后,他们应用组学集成器将转录调控因子、蛋白质组变化、磷酸化蛋白质组变化和蛋白质相互作用背景网络结合,以获得内皮细胞对感染响应的整体视图。最终,这种分析揭示过氧化物酶相关蛋白是响应的一个重要部分。这个网络分析得出的见解通过后续的湿实验得到了支持。
网络对齐
在网络生物学中,传统上使用网络比对来比较物种的PPI网络。在这种情况下,网络比对的目的是在发现高度拓扑(通常是序列)保守区域的比较网络之间找到一个节点(蛋白质)映射,并假设结果对齐的节点和网络区域是进化保守或功能相似的。寻找这样的节点映射与NP完全子图同构问题密切相关,使得网络对齐问题变为NP困难问题。
即使在比较同构的PPI网络时,网络对齐也可以看作是一项多模态数据集成任务。这是因为在“组合视图”中的对齐(即节点映射)会产生一个异构(具体来说,多路/多层)网络,其“超级节点”包含来自单个同质网络的映射节点,其边具有不同类型,表明给定边在给定节点映射的比较网络中的哪个(s)中(图3D)。最近,有人提出了在生物学和其他领域对齐异构网络的方法。下面,本文讨论同质网络的传统对齐算法原理,然后对异构网络的对齐进行评论。
与序列比对类似,同质网络的比对可以是局部的或全局的。两者都有优点。此外,网络对齐可以是成对的(恰好在两个网络之间)或多重的(在两个以上网络之间)。后者传统上被认为会带来更深层次的生物学见解,因为它同时比对所有被考虑的网络,而不是一次比对一对;然而,最近的一项评估显示情况并非总是如此。同时,多重网络对齐在计算上更加复杂。
网络对齐有两个主要的算法组件。首先,通过一定程度的节点保守计算比较网络中节点之间的拓扑相似性;基于graphlet的方法属于最先进的方法。其次,一种对齐策略可以快速识别出在给定的节点映射下优化某些目标函数的对齐,这些目标函数既可以占全部节点,也可以在理想情况下保持边缘。也就是说,一个好的对齐既要映射相似的节点,又要保留许多边。最初的对齐策略为种子-延伸型。围绕高度相似的“种子”节点进行扩展,通过逐步添加映射节点来构建一次一步的对齐,目的是显式地改善结果对齐的节点守恒,但边缘守恒只是隐式的。为了在构建对齐时明确地改善边缘保守性,而不是只在事实发生后评估它,另一种类型的对齐策略-搜索算法被引入。在这里,本文探索了整个队列,并使用遗传算法或模拟退火,返回基于给定(基于边缘保守)目标函数的评分最高的队列。
最近网络对齐的算法已经从无监督转向有监督的数据驱动对齐。传统的网络对齐使用拓扑相似性的概念来量化同构两个节点的扩展网络邻居的接近程度。一个主要的问题是,不管考虑的相似性度量,对齐的节点通常不对应于应该实际映射的节点,即功能相关的节点。具体来说,当比较物种的PPI网络时,对齐的节点并不对应于参与相同生物过程的蛋白质。这就是为什么从优化拓扑相似到从数据中学习什么样的拓扑相关对应着功能相关,而不假设拓扑相关意味着拓扑相似。例如,拓扑相似性的目标是将一个网络中的一个三角形匹配到另一个网络中的一个三角形,将前者中的一个正方形匹配到后者中的一个正方形。然而,由于PPI数据中的生物变异或噪声,也许是第一个网络中的三角形在功能上相关,因此应该匹配到正方形,而不是第二个网络中的三角形,这是拓扑关联的目标,将从数据中学习。这导致了传统的无监督比对(节点的功能标签,例如PPI网络中蛋白质的生物过程,只有在它产生后才用于评估比对)转向有监督的数据驱动比对(节点的功能标签在构建比对的过程中使用,以学习拓扑关联的模式)。一种开创性的数据驱动网络对齐方法使用了传统的机器学习,即用户预定义的(基于graphlet)特征和标准分类器(例如逻辑回归),而后续工作使用了深度学习,特别是GNN。
最后,回到异质网络的比对,生物学中较早的尝试仍然是将同质网络彼此对齐,其中的异质性来自于被比较的个体同质网络具有不同类型:一个是节点为蛋白质的人类PPI网络,另一个是节点为疾病的疾病关联网络。然后,比对这两个网络的目标是确定致病基因/蛋白及其潜在的疾病家族通路。但是,由于每个被比较的网络都是同质的,因此一个同质的网络对齐方法就足以对它们进行比较。最近的一项工作是将一个异质网络与另一个网络(每个网络都有不同的节点和边类型(或颜色))对齐,将现有的基于同质graphlet的节点相似性/守恒以及同质边守恒(如上所述)的概念扩展到它们的异质(或颜色)对应的网络中,然后对现有的种子-扩展匹配策略或搜索匹配策略(如上所述)进行扩展,以寻找相对于新的异质性保护措施的高评分匹配。在对合成和真实生物网络的评估中,与同质方法相比,异质性方法导致了更高质量的对齐和对数据中噪声的更好鲁棒性。考虑两种类型的异质生物网络:首先,PPI网络彼此对齐,节点(蛋白质)根据它们是否参与衰老、癌症和/或阿尔茨海默病进行着色;第二,蛋白质-GO术语网络相互对齐,该网络有两种类型的节点(蛋白质和GO术语)和三种类型的边(PPI、蛋白质-GO术语注释和GO术语-GO术语语义相似性关联)。这一努力使异构网络在全球范围内对齐。同时,提出了一种局部对齐的方法。相关的工作是基于机器学习的异构网络嵌入在生物学和其他领域,可以扩展到异构网络对齐。然而,据本文所知,这种扩展尚未在生物学领域进行,但已在其他领域进行,如社会、信息或技术网络。
生物医学知识图谱的推断和推理
描述生物医学实体之间语义关系的生物医学知识图(BKGs)是异构网络中最丰富的例子之一。BKGs旨在结合关于不同生物医学实体的事实,这可以从基因到个体患者以及与他们相关的测量。BKGs使用“主-谓-客体”三元组作为基本单位来表示生物事实,主和客体对应图中的节点,谓词(也称为关系)对应节点之间的有向边(可能是不同类型的)。例如,Chlorin e6-PDT(主语)减少(谓语)细胞增殖(宾语)(图3E)。典型的活跃的BKG项目,每个都采取了独特的方法,包括可扩展的精准医学知识引擎(SPOKE)、BioThings Explorer、Wikidata的生物医学“角”以及PrimeKG。
BKGs已成为多种生物医学应用的强大框架,包括药物再利用(例如Hetionet和SPOKE)、罕见疾病诊断和生物标志物发现(例如SPOKE)。BKGs利用Neo4j和Virtuoso这样的图形数据库,以及资源描述框架这样的语义web标准作为其后端。BKGs利用了超过100年的图论来实现对第一个邻居、路径、中心和其他网络组件的操作,以及语义、推理和推理。为了最大限度地提取BKGs中编码的信息,用于从BKGs的构建到BKGs的推理等各种生物医学应用,出现了许多计算挑战。例如,指定节点和边缘类型的高级多跳查询对于导航生物医学知识的异构网络表示是必不可少的。许多这些挑战已经使用类似的网络推理方法来解决,如前所述(如链接预测)以及图表示学习方法。同样重要的是生物医学和生物文献的表示问题,以实现高级查询和推理。传统的BKGs假设所有知识都可以表示为主-谓词-对象元组,并使用基于机器学习的元组提取技术来构建。一个简单的后处理算法可以从任何句子中提取元组,并将它们表示为BKGs上节点之间的链接。然而,传统的BKGs忽略了事实的条件(如患者的年龄或环境),这为知识的探索和推断提供了必要的上下文。最近,一种新的BKG被引入,即条件感知BKG(CondBKG),它在生物医学声明中同时考虑事实和它们的条件。与只有一层主-谓词-对象元组的传统BKGs不同,CondBKG是BKGs的三层信息无损表示。第一层为生物医学概念节点和属性节点;第二层以谓词短语的节点表示生物医学事实元组和条件元组,与第一层的主、客体相连接;第三层的节点表示语句语句的文本属性,并连接到第二层的事实和/或条件元组。CondBKG由机器学习模型的输出元组构造而成。给定一篇科学文章中的一个陈述句及其上下文(例如,邻近的句子),该模型从句子的多种输入信号(例如,单词嵌入和部分语音标签)中学习,并预测一个或多个元组。CondBKG拥有1810万个事实元组、750万个条件元组、1090万个概念节点和70.3万个属性节点。与传统的扁平BKGs相比,CondBKG从非结构化文本中保存了更多的知识,可以用于回答定制的问题,如什么因素增加或减少细胞增殖及其条件。CondBKG能够很好地理解生物医学和生物声明,并支持生物医学知识发现的多种应用。
网络的网络分析
生物系统在不同规模的组织中发挥作用。因此,多尺度和具体的网络-网络分析是一个令人兴奋的、仍相对未被探索的研究领域。这一话题近年来才受到越来越多的关注。这可能是因为人们越来越认识到可以获得各种生物数据的网络-网络表示:鉴于不同的疾病往往表现在不同的组织中,疾病相似性网络中的节点(疾病)可以表示为其相关的组织特异性PPI网络;PPI网络中的节点可以表示为蛋白质结构网络;相互作用分子网络中的节点可以表示为分子图;包含药物与其靶蛋白相互作用的二部图中的节点可以分别表示为药物分子图和靶蛋白结构网络。请注意,并不是所有现有的网络-网络研究都起源于生物学领域。一些已经在其他领域提出和评估,如文本和社交网络数据集。
分析生物网络中的网络数据的研究通常执行不同的网络分析和应用任务,如下所示。节点排序任务用于候选疾病基因的优先排序。链接预测任务用于预测蛋白质之间的相互作用,药物等分子之间的相互作用,以及药物与其靶蛋白之间的相互作用。引入了一种新的任务——实体标签预测任务——它融合了两种传统的孤立任务:在包含PPI网络的较高尺度上的节点(蛋白质)分类任务和在包含蛋白质结构网络的较低尺度上的图(也是蛋白质)分类任务。该任务被应用于蛋白质功能预测。由于针对不同的任务/应用提出了不同的方法,它们通常没有相互评估。目前还不清楚不同的方法是否可以有效地用于任务/应用,而不是它们被提出的任务/应用,以及每种方法在方法学层面上有什么(缺点)优势。随着网络的网络数据越来越多,网络的网络分析的方法越来越多,对适当的方法评价的需要只会越来越重要。这将要求所有研究都将其数据和代码公开并易于使用。根据本文对上述现有的网络-网络研究的探索,这并不总是正确的。
高阶网络分析
对生物系统高阶图表示的需求
本文主要讨论传统的配对图(Pairwise Graphs),它通过节点间的配对互动来表示生物系统的组织。但是,这些互动通常还涉及其他组件,而互动本身也可以由其他组件调节。换句话说,本文通常需要捕捉多于两个节点间的互动,而不仅仅是配对图中刚好两个节点间的互动。为了克服配对图的局限性,文献中提出了几种高阶图的想法。
这些想法可以分为两大类。第一类仍然使用配对图,但依赖于两个节点间的高阶依赖关系或小子图。例如,考虑节点间的高阶依赖关系,以及使用子图(如环或团)来捕捉配对图中多个节点之间的一阶依赖关系。第一类的方法无法直接描述网络中多于两个节点之间的互动。另一种方法是第二类高阶图的想法,即显式考虑高阶图结构,如超图。图例(graphlets)、超图以及超图例(hypergraphlets)在生物学领域受到广泛关注。
图例
图例(graphlets)是网络的小子图,可以看作网络的基本组成块。它们是图的连通的、非同构的、诱导子图。由于在大网络中统计大图例很耗时,实践中通常研究包含2-5个节点的图例。图例最初是针对无向、同质、静态、无序的配对图提出的。近期,它们被扩展到有向图例、异质图例、动态图例、有序图例以及超图例等。
在图例中,节点可以对应不同的对称群称为自动同构轨(orbits)。例如,在路径图例中,两个端点节点属于同一轨,中间节点属于自己的轨。图例轨可以用来量化节点的扩展网络邻域为15或73维的嵌入,称为节点的图例度向量(GDV)。通过计算网络中每个节点的GDV,可以得到网络的GDV矩阵。
GDV矩阵可以用作节点(边、节点对)扩展邻域内部或跨网络比较的特征,以及整个网络结构比较的特征。这可广泛应用于网络对齐、图分类、节点分类、网络去噪、网络聚类、节点中心性计算等任务。
超图
超图通过将边从两个节点扩展到涉及多个节点的超边,来提供比传统图更强大的表示。例如,蛋白质复合物中的多个蛋白质只作为一个组起作用,可以用无向超图表示,节点是蛋白质,超边是复合物。有向超图可以表示信号通路,节点是蛋白质,有向超边是反应。
图4给出了TGF-β信号通路的9个反应及其在高阶图框架中的表示。这些信号反应可以用有向超图捕捉,节点是蛋白质,有向超边是反应(图4A)。不考虑有向超边,本文可以得到一系列重叠的蛋白质复合物(图4B)。与只捕捉这条级联中蛋白质间物理相互作用的图(图4C)相比,有向超图和无向超图提供了更多信息。
如果处理图4C中的配对图,可以用图例来描述一个节点的局部拓扑(图4D)或整个网络。如果处理图4A-B的超图,可以用下文将提到的超图例来量化拓扑结构(图4E)。
配对图表示多组分互动的缺点是,一些路径可能丢失,也可能产生虚路径。超图可以减少表示损失,算法上也有优势。但超图在生物网络分析中的应用受数据和注释的限制。随着技术进步和数据积累,解决超图基本问题的算法有望指导数据生成和注释整理。
超图算法
在计算机科学社区,存在用于最短路径、随机游走和聚类等问题的超图算法。在网络生物学中,超图用于研究代谢网络、PPI网络的簇以及信号通路的最短路径。后者是网络生物学中有向超图最成熟的应用。定义有向超图的可达性比配对图复杂得多。一个关键原则是,超边的头部节点只有在尾部所有节点从某源可达时,才从该源可达。这表达了所有反应物必须存在才能形成产物的概念。B-可达性形式化了这个想法。计算具有最少边数的B-超路径是NP完全问题。早期方法使用混合整数线性规划计算最优超路径。后续技术放宽了B-超路径的定义来解决问题。其他高效启发式方法处理循环超路径。在代谢网络中,最短路径概念推广为工厂,还考虑反应化学计量关系。混合整数线性规划可以找到具有最少反应的工厂,并适应两种负调控。
超图的统计学习
超图可以近似为配对图,但这样的近似不能保留超图的所有属性。因此,直接针对超图数据进行学习的方法具有实际优势。已经出现了多种这类方法,但是超图的准确学习通常受NP难问题的影响。处理超图数据的方法通常以可扩展性换取准确性。统计学习超图的共同主题是找到通常高维的表示或嵌入,然后应用传统机器学习。这些方法可以在整个图水平进行图分类,也可以在节点或边水平进行节点或边分类和链接预测。一个著名的图分类问题是预测化学分子的毒性,节点是原子,边是不同类型的键。节点/边分类的例子包括在PPI网络中预测蛋白质/蛋白质复合物的功能或在蛋白质结构网络中预测氨基酸残基的功能。链接预测的例子是PPI网络自身的去噪和补全。嵌入通常形式化为基于核或表示学习的方法。性能良好的核方法包括随机游走和超图例计数。超图例是小的、连接的、根超图,通常有限数量的节点和边类型。作为图例的非平凡扩展,基于图重构猜想,超图例计数具有吸引力。尽管只在某些类型的图上证明,图重构猜想表明从所有大小为n-1的子图的计数可以重构一个大小为n的大图。一种更强的猜想允许用某k<n-1< span="">大小的子图重构。在这些条件下,超图例计数方法可以导致允许在超图数据上进行泛化逼近的嵌入。基于神经网络的图嵌入方法可以将基于超图的方法扩展到非常大的图。基于自注意力的GNN可以有效地学习异构超图的节点嵌入和预测超边,增强泛化能力。这种方法及其扩展已被应用于学习染色质生物学和预测基因组互作,尤其是三基因互作,从而大大拓展了对高阶互作的定量特征。
局限
采用基于超图的表示在网络生物学中面临三大问题。像Reactome这样的数据库包含了可表示为广义有向超图的经过良好策划的反应网络。第一问题是这些资源仍不完整,依赖手工策划。一个有前途的研究方向是分析配对图来自动推断反应。一个优雅的例子是使用和弦图的属性将信号通路图表示转换为嵌套的蛋白质复合物树。由于PPI网络不一定是和弦图,作者增加了额外的边,如连接弱同级节点。如果得到的图是和弦图,可以表示为团的树,删除人为增加的边后转换为原图的复合物树。这种方法应用于TNF-α/NF-κB和信息素信号通路。为进一步利用超图,重要的是推广这种方法以应用于更大的图类,并将自动重构方法与手工策划结果统一起来。制定混合网络表示以结合配对图和超图的特征也可能有价值。新的表示需要开发算法集可能阻碍其在社区的广泛采用。第二问题是有向超图理论远不如配对图发达。在配对图上有多项式时间解的问题在有向超图上变成计算上不可行。结合调控的最短路径定义仍具有挑战性。像簇、流、随机游走或卷积等图论概念在超图上的推广具有挑战性或在生物学中的应用有限。第三问题是高阶表示比配对图表示更好的条件或应用不明确。论据通常依赖视觉和定性推理。本文鼓励社区提出成熟的数据集、评估指标和基准框架,以正式提出这些问题并发展可推广的标准。
网络上的机器学习
总览
机器学习作为一种强大的范式,可以创建在结构化数据(如图、空间几何、关系结构和流形)上操作的参数化函数形式的预测模型。将机器学习方法应用于网络数据在大量生物网络分析任务中展现了潜力。最近的方法设计产生图的表示作为紧凑的数值向量(或嵌入),对应于各种图元素,如节点、边、子图和整个图,并捕获这些元素的拓扑信息。这些学习到的表示可以馈入针对下游分析任务训练的模型。可以通过非监督、自监督和监督学习在各种网络上创建预测模型,包括同质、异质、时态和空间网络,并在模型上施加额外约束和领域知识。利用在大规模通用图数据集上预训练的深度图学习模型,可以调整预训练表示以适应预测和生成建模中的不同用例。随着图上的机器学习持续发展,适当的模型基准测试是必要的,以确保任务特定的评估指标定义良好,预测公平且稳健。本节讨论了这些主题,也在图5中进行了概述。
无监督、自监督与监督图学习
无监督图表示学习通过优化参数化策略(如GNN、图变换器或多层神经消息传递模型)来聚合节点在网络中邻居的信息,并优化表示,使得嵌入空间中的实体之间的接近度反映它们在网络中的接近度。采样节点邻域的流行策略包括有偏和无偏随机游走以及自适应邻居采样。这些方法的目标函数旨在最大化网络中相邻节点在潜在空间中的嵌入相似度。例如,连接的节点在潜在空间中应该嵌入得更近(即嵌入更相似)。但是,无监督学习方法有局限性,主要是没有充分利用网络提供的丰富信息。自监督图表示学习利用模型运行的基础网络中的信息。存在四类自监督图学习:节点、边、子图和图级预测。自监督节点分类任务的例子是预测每个节点的度。基于自监督目标的边分类任务链接预测预测一对节点之间是否存在边。子图和图的自监督任务例子包括预测子图和图属性,如最短路径长度的分布统计、网络直径以及特定高阶结构和图例的存在或不存在。学习表示的所需属性决定了任务类型。因此,自监督图表示学习在生物学和医学应用中是灵活和通用的。无论是无监督还是自监督,图表示学习都可以应用于任何类型的网络,包括但不限于同质、异质、时态、空间和物理网络。例如,在异质网络中,GNN和图变换器模型利用基于节点和边的注意力权重来聚合依赖于节点和边类型的邻居信息。其他方法将每个边类型视为同质图,应用图表示学习模型,然后整合边类型特定的节点表示到最终表示中。此外,可以通过元路径采样子图以自监督的方式学习异质网络中的语义细微差别,如通过对比学习。这些图表示学习的进展影响了癌症生物学、药物发现和疾病诊断等领域。监督图表示学习利用网络中标记数据直接优化特定预测任务的模型。在这种范式中,节点、边或整个图与地面真值标签相关联,学习过程最小化模型预测与这些标签之间的差异。常见应用包括节点分类,其中单个节点被赋予预定义的类别,以及图分类,其中根据拓扑特征对整个图进行分类。与无监督和自监督模型不同,监督图学习直接使用标签信息,通常导致更特定任务和更准确的表示,但需要标记数据。
通过知识图、空间约束、等量性和对称性将知识整合到机器学习模型中
在许多生物医学应用中,标准的图表示学习往往不能满足要求。在这些情况下,可以通过施加从预先知识中提取的约束来增强模型的预测精度。典型策略包括将多模数据纳入生物医学知识图,为GNN增加定制架构,以及应用特定域不变性。
生物医学知识图有助于建模生物医学实体之间的异质关系。生成的潜在空间反映了基础知识图的拓扑,可以对其操作以推断现有和新关系。联合建模生物医学知识图中的多种关系类型可能具有挑战,因为知识图不完整,且可能存在涉及异质实体的高阶关系。将通路知识隐式地作为正则化网络嵌入的约束,或以贝叶斯方式直接作为生物医学知识图结构和参数的先验,已被证明可以提高预测性能。根据生物问题的复杂性,利用生物医学知识可以从高维或小样本数据集中提取稳健模式。监督机器学习方法通常需要大量样本来识别生物学意义模式,这可能限制了其在少见疾病等样本有限的领域的适用性。应用于生物医学知识图的自监督图学习进展显示了其在少见疾病研究中的前景,并可能对样本稀少而数据高维的应用都提供信息。
时间和空间数据可以表示为网络,但需要专门的神经体系结构来对时间/动态网络进行最佳学习。时间图表示学习方法通常涉及两个主要组件:GNN体系结构用于为每个时间点生成嵌入,递归神经网络用于通过利用序列中元素之间的时间关系执行序列学习。现有方法将GNN用作节点和基础拓扑的特征提取器,递归神经网络用于时间学习和包含额外元数据信息。最近,静态GNN扩展处理动态图,方法是将时间点视为层次状态,或应用于不规则时间序列数据,在传递神经消息时考虑每个传感器的时间间隔以及传感器之间。可以将蛋白分子构型描绘为蛋白质结构网络,其中氨基酸节点由其残基的3D物理接近程度链接,氨基酸空间坐标信息编码为节点属性。深度学习模型,特别是使用等变GNN,可以同时获得高性能并保持蛋白质网络在3D空间中的平移、反射和旋转变换。例如,建立一个不变的空间取向模型,需要整合强制旋转不变性的约束。从等变神经网络推导的方法论,如AlphaFold,可以通过利用进化数据从原始氨基酸序列推断蛋白质结构,并可能生成现实的分子构形,从而补充基于序列的语言模型。
生成图模型
生成图模型是一类专门用于生成新图或图的部分,以某种方式类似于给定示例图集的机器学习模型。这些模型学习捕捉训练图中的潜在模式和结构,然后可用于生成具有类似训练图属性的新图。例如,在分子生物学中,分子结构的固有图性质使得GNN成为创造现实合成分子的理想工具,通过从真实分子数据中学习潜在模式和属性来指导生成过程。一种这样的方法是变分图自动编码器,它学习分子结构的嵌入,并用它们生成新的分子图。其他生成模型如GraphVAE、GraphRNN和MolGAN也已开发生成现实的图结构数据。受生成式对抗网络的启发,MolGAN使用生成器模型生成图,鉴别器模型区分真实和生成的图。此外,图变换器网络最近被提出用于分子图生成,展示了通过在大规模化学数据库上训练来生成具有期望属性分子的能力。当应用于蛋白质设计时,GNN展现出设计折叠成特定结构的蛋白质序列的令人印象深刻的结果。基于图的方法如PotentialNet显示了蛋白质-配体结合预测的前景。类似地,DeepSite使用3D卷积神经网络预测蛋白质-配体结合位点。此外,最近的生成模型如ProteinMPNN利用消息传递神经网络体系结构生成现实的蛋白质序列和结构,进一步扩大了蛋白质设计的可能性范围。通过使用GNN,蛋白质和药物设计领域可以利用分子结构的学习表示来生成具有期望属性的分子和蛋白质,从而大大推进计算生物学的能力。
迁移学习
图表示学习方法生成的表示质量取决于标签的可获得性。然而,在网络生物学领域,由于标注的策展和验证需要大量资源,标签通常供应不足。解决这一挑战的有效方法是迁移学习。这种方法首先通过自监督预训练在大型参考网络上训练图表示学习模型,然后通过在少量标记示例上进行监督学习(微调)将结果模型或其输出调整为不同的目标任务。在大型网络上预训练模型,然后使用小量标记数据集微调模型,允许模型利用网络实体的现有信息(即从用于预训练的大型网络)服务于具有有限任务特定标签的各种任务。
迁移学习在开发与生物条件相关的特定条件网络的预测模型方面显示出可观的潜力。网络通常从上下文无关数据(如人参考PPI网络)或在特定条件下生成的数据(如某种疾病的基因共表达网络)构建。生物医学实体及其相互作用可以在各种生物学条件(如组织、细胞类型和疾病状态)之间变化。然而,将上下文无关网络的知识概括到上下文特定问题中存在可观的挑战。例如,参考PPI网络推断组织或细胞类型特异性交互需要算法创新。一种解决方法涉及构建上下文特定网络并对其应用独立的浅层网络嵌入层,根据网络拓扑和组织层次结构学习节点表示。另一种策略是在上下文无关网络上学习浅层网络嵌入,使得在相同上下文中操作的节点彼此之间的嵌入比在不同上下文中操作的节点之间更相似。最近的方法以数据驱动的方式并入上下文,使用单细胞转录组数据构建细胞类型特异性PPI网络。这些网络通过细胞类型和组织层次网络统一,可以用来学习适合每个细胞类型上下文的独特蛋白质表示。
理解预测模型、基准测试和跨不同任务的严格评估
随着图学习方法论的快速发展,构建严格基准来有效评估这些新技术的性能变得越来越迫切。Benchmarking GNN和Open Graph Benchmark等开放科学评估平台为通用图基准测试提供了重要资产,而其他资源正在专门为网络生物学域进行策展。
为提供全面评估,这些资源需要扩展以包括在各种图水平定义的任务,包括节点分类、链接预测、子图分类和聚类以及整图分类和回归。除了预测任务的模型基准测试外,还需要评估框架用于生成图模型。它们还应涵盖各种类型的生物图,如异构、空间和时间图。一个关键因素是基于网络的机器学习技术的性能,这为与先进的图表示学习和GNN方法论进行比较设定了基准。此外,基于图的学习的解释性在生物医学领域可以提供重要见解。因此,通过检查预训练图表示和基于注意力的深度学习模型中的注意力机制映射等方式检查学习算法同等重要。随着本文在网络生物学中广泛应用机器学习模型,对这些模型相关的不确定性、错误和效用进行适当量化不可或缺。鉴于这些模型存在相当大的不确定性,需要有效的不确定性量化技术来全面理解给定模型的预测能力和局限性。当模型目标具体时,如治疗建议、疾病诊断与预后以及稳态或瞬态网络行为预测,面向目标的不确定性量化方法可以是有益的。这种方法允许本文根据对预测和干预任务的预期性能的影响来量化不确定性。最终,这可以为优先选择主动学习策略选择的最信息性数据点的实验设计技术铺平道路,有效减少模型不确定性。
基于网络的个性化医疗
总览
精准医学的总体目标是开发针对个体患者定制的诊断和治疗策略,同时还考虑到每个治疗所需的精确度水平。对个体或群体的个性化表征可以包含各种数据类型,包括分子、医疗保健、环境、生活方式和行为信息,通常建模和分析为网络。通过整合不同模式的数据,精准治疗可以增强其潜力,并增强抵御各种数据噪声的弹性。已有研究证明多源数据融合有效推进了精准医学。
病人分层
精准医学旨在提供个性化的诊断和治疗策略。根据不同的疾病亚型(图6A)为特定患者群体开发定制治疗,这将改变医疗保健中普遍采用的一刀切的方法。网络方法可以整合多模态数据来识别具有连贯的遗传、基因组、生理和临床概况的患者组,即使基础数据不完整且嘈杂。这些方法假设具有相似临床特征和相似组学特征的患者具有相似的临床结果。患者之间的相似性可以通过患者相似网络有效表示;在这些网络中,节点表示患者,加权边表示根据临床和生物分子患者属性推导出的相似度。每个患者数据属性(如年龄、性别、突变状态或基因表达谱)都可用于创建基于成对患者相似性的网络。然后,所有这些网络的集合可以看作是多重网络,每个属性对应一个层。可以采用各种相似性度量来评估跨不同数据集的患者相似性,不同的数据集对应于不同的属性。构建多重患者相似网络后,可以通过检查网络内的社区(聚类)结构来识别患者亚型。社区被描述为节点的子集,它们彼此之间紧密相连,而与不同社区中的节点松散相连。因此社区是紧密/强烈相连的患者组,可以揭示不同的疾病亚型。
与非网络方法相比,网络方法具有明显的优势,后者通常难以处理集成数据集的复杂性。基于网络的方法ologies越来越多地应用于患者分层,这可以阐明复杂的生物学互作,尤其是在疾病突变图景中,如癌症或稀有遗传性疾病。在这种网络表示中,基因-基因互作的复杂性变得更加明显,包括互斥性、共生性以及物理和功能关联等方面。通过对个性化基因调控网络的网络分析深入研究这些互作,可以更好地理解由每个患者的遗传背景、环境接触和参与疾病的特定细胞类型比例引起的疾病驱动的个体间变异。这些洞见可以提高患者分层的准确性,这通常被测量为将患者分类为已知疾病亚型的能力,或识别疾病生物标志物的能力,这些生物标志物在应用于模型未见过的新数据时能够保持性能。这些洞见还可以指导治疗策略的优化,确保它们针对特定患者群体进行最佳定制。
识别与疾病亚型和患者群体相关的途径
识别群体特异性突变为与疾病相关的潜在生化通路提供了有价值的洞见(图6B)。这些通路可以概念化为网络,为深入理解疾病机制奠定基础。将个体突变或表达数据纳入基于通路(即基于网络)的方法有助于识别可靶向的突变。这种方法在确定在疾病传播性突变的表达响应中发挥作用的功能通路方面尤其相关,利用通路中心性的概念。
例如,通过网络整合基因组、临床和治疗数据,医生可以根据AR、PTEN和BRCA2等特定基因突变对难治性前列腺癌患者进行分类。识别这些突变有助于采用个性化疗法,针对每个患者肿瘤概况中特有的异常通路。因此,这种定制的治疗策略具有实现更安全、更有效治疗的潜力。此外,最近的研究阐明了组织特异性调节网络及其包含的通路的重要性,这些通路在特定患者组中经常表现出遗传突变。这种理解来自表达和染色质可访问性数据的综合分析,揭示了一种先前未确定的组织特异性干细胞样治疗抵抗性前列腺癌亚型,可能是干预的目标。类似地,慢性淋巴细胞白血病和对照组织源的染色质结构网络的比较结构分析显示,驱动这种癌症类型的基因不仅在慢性淋巴细胞白血病细胞的染色质结构网络中,而且在健康细胞的染色质结构网络中也表现出特定的局部线路模式。这使得成功预测与这种癌症类型相关的新DNA元件成为可能,更重要的是,它表明通过调查健康起源细胞的染色质结构网络,可以在其他癌症类型中识别与癌症相关的DNA元件,这是一个关键的新见解,为新的治疗策略铺平了道路。
疾病失调功能模块的鉴定
研究疾病失调的功能模块可以推进对疾病的理解,超越孤立的突变或通路失调。疾病相关的行为可以表现为紧密互作的蛋白质簇,形成功能模块,而不仅仅是通过单个基因突变或基因表达失调引起的。
从分子网络中发现疾病相关功能模块的努力是一个长期存在的挑战,对精准医学有着重要意义。目前发现疾病模块的主要方法依赖于这样一个假设,即互作基因倾向于与类似的表型相关联。例如,基因共表达网络分析已被用来确定在乳腺癌中表现出类似共表达模式的基因模块。值得注意的是,这些基因簇与患者中的不同转移进展模式相关。鉴于癌症的固有异质性,识别与连续表型极端表现相关的疾病模块的研究备受关注。对于沿着连续谱而不是二元结果表现的表型,确定极端值更为直接。通过共表达网络等替代技术确定的疾病模块可用于细化疾病诊断。它们还可以预测单个细胞系对特定抗癌药物的反应,并可能建议个体化的药物组合。差异网络分析补充了这些技术,可以揭示不同条件下分子网络的差异连接或重组。这补充了传统的差异基因表达分析,为研究各种条件下的变化提供了一个稳健的框架,并由此延伸到不同的患者群。精准医学在识别候选抗癌治疗方面的应用已经拓宽了其范围,可以检测与其他疾病和衰老相关的分子变化。最近的研究利用多组学策略确定了潜在的靶向溃疡性结肠炎和类风湿关节炎的新型治疗目标。其他研究已深入分子生物标志物、其调控通路和与年龄相关的改变,这些研究旨在制定适合不同年龄人群的治疗方案。除了关注衰老外,分辨患者性别特异性差异的兴趣也在不断增长。这些研究的动机来自流行病学数据,其中描绘了复杂疾病的发病率、进展和预后在性别和年龄段上的差异模式。
药物再利用和药物基因组学
与传统药物开发相比,药物再利用(图6C)具有成本低、风险小、药物开发周期短等显著优势。虽然早期的成功再利用药物是通过巧合发现的,但大规模的组学和知识数据的可获得性以及计算技术的进步为系统地推断现有药物的新适应证创造了机会。网络科学和机器学习模型已经展示了令人印象深刻的能力,但临床应用的门槛很高。例如,集成网络方法已被用来识别针对COVID-19病毒复制的药物再利用候选药物。对最有希望的计算预测在实验室中的验证产生的候选药物效力比非引导的实验筛选高出一个数量级。在药物基因组学中,在异构的药物-药物相互作用网络上训练的图卷积神经网络识别了由多药治疗和同时使用药物引起的不良事件。此外,通过嵌入PPI网络使用张量补全算法解码对患者特异性药物再定位至关重要的药物-细胞连接数据的努力正在加速。
医学影像在精准医学中的作用
除组学数据外,医学图像作为一种重要的新数据模式出现,可以促进精准医学,包括疾病检测、诊断和治疗干预。医学图像通常包含目标实体的不同拓扑模式,可以作为诊断签名或生物标志物,如气管的树突结构或免疫细胞的聚集行为。将这些拓扑签名与深度学习算法相结合为各种医学图像分析工作提供了重大优势,包括分割、分类、配准和跟踪,并可以帮助解释深度学习模型。构建计算成像数据的拓扑和深度学习表示的工具开辟了细致分析的新途径,揭示复杂数据集中的隐藏模式和复杂相关性。这些发展催生了用于无数应用的融合拓扑的深度学习技术,涵盖从分割视网膜血管到区分视网膜动脉/静脉并预测蛋白质语义相似性。
基于网络的精准医学的一个重要应用位于脑障碍,这里医学图像分析与网络和组学数据交织在一起(图6D)。具体来说,获得多模态神经成像、神经网络配置、遗传标志物和其他生物分子签名的进展提供了前所未有的研究机遇。这些允许对人脑的神经架构、网络拓扑对其功能的调节以及对应特定脑模式的遗传互作进行深入洞察。一门新兴的学科连接组学预示着对人类神经连接性的精确描绘,揭示其与认知、行为及个体神经环路变异的遗传基础的关系。结合数据科学方法的图挖掘技术已被设计出来,通过利用连接组学的多面数据来实现诊断和治疗的个性化。近期基于图神经网络的深度学习模型的出现进一步加深了本文对这些数据中的复杂变化的理解,推进了对神经系统疾病及其在患者人群中的异质性的认识。
社会与联系网络在医疗保健中的作用
生物网络对推进个性化医疗具有重大前景。与此同时,社交、支持和接触网络与个体健康结果相关(图6E),为患者行为和情感提供了有价值的洞察。这些网络为患者倾向提供实时视角,如对治疗依从性的偏好。此外,它们可以模拟与用药相关的患者行为,以制定个体化的干预策略。健康和社交网络的汇聚被利用来预测个体健康结果,包括焦虑和抑郁等心理健康参数。这些预测来自丰富的数据源组合,包括异构社交网络数据和可穿戴健康监测的组合,以及动态社交网络交互。
在全球卫生紧急情况下,详细人际接触的网络在预测疾病传播方面至关重要。COVID-19大流行促成了将接触信息与个体患者属性整合的复合模型的创建。在这些模型中,节点表示个体,而链接-静态或时态/动态的-描绘个体间的交互。不同的个体特征,如健康状态(例如健康或康复)被封装为节点关联的特征向量。这些方法基于易感-传染-恢复模型的理论基础,细致入微,可以解释真实世界的接触模式。它们允许模拟和评估公共卫生应对策略,从限制措施到疫苗接种运动。例如,根据接触行为针对个体设计疫苗接种策略可以预防疫情暴发。然而,除了与设计疫苗接种策略相关的政治和社会问题外,这种细致入微、以接触为中心的模型的模拟需要显著的计算能力,特别是对于矩阵操作。
基于网络的精准医疗的开放性问题
尽管网络方法在精准医学方面取得了显著进展,但仍存在几个挑战。这包括模型基准测试和比较、整合来自单个患者的多模态数据以及在保护患者隐私和最大化这些方法的效用之间实现复杂平衡的策略。由于建立真实基准以评估各种网络策略极具挑战性,所以评估新方法很复杂。评估体内精准疗法面临更大挑战,因为不可能对同一患者在特定时间节点追溯性地改变治疗模式。收集关于单个患者的多模态数据也存在困难,因为不同的数据类型在质量和完整性上存在差异。鉴于这些复杂性,需要针对数据密集型多模态网络定制图学习算法。重要的是,新的网络嵌入方法学可能会将这些复杂性简化为更易于理解和计算的新的建模范式。此外,培育擅长以保护隐私而不损害科学强度和安全性的方式处理患者数据的计算范式至关重要。
精准医学有望实现疾病诊断、治疗干预和整体患者护理的转型式进步。网络方法和多模态数据整合对实现这些雄心壮志至关重要。解决与缺乏统计力的小样本数据集相关的内在挑战,以及放大方法易受误解和性能不稳定的影响至关重要,以推进其初显成就。克服这些障碍需要涉及网络生物学家、临床医生和医疗政策制定者的跨学科研究,以确保精准医学作为一种疾病诊断、预防和治疗范式发展,通过考虑生活方式、社会经济因素、环境和生物特征中的个体差异,对所有患者都同样有效。
研究讨论及未来展望
即使是网络生物学中已建立的研究主题/问题,比如网络推断,也存在许多已知的局限性和相关的开放性问题。新兴的研究问题,比如网络的网络分析或确定大规模语言模型爆炸如何造福网络生物学,由于这些问题直到最近才开始受到关注,预期会面临更多挑战,这些挑战在下文中讨论。新兴问题同时也带来令人兴奋的新机遇。在以下部分,本文基于前面部分关于局限性和开放性问题的讨论,联系之前各节的共同主题,并通过引入额外的开放性问题和机遇来补充之前的内容。
比较为同一目的而设计的不同类别的方法的需要
到目前为止讨论的几个主题的一个共同点是,对于给定目的的不同类别的方法之间在方法论优势/劣势以及在哪些网络分析任务或生物医学应用中可能(不)合适使用方面的比较还不清楚。例如,在网络比对中,来自生物和其他(如社交)网络领域的方法很少相互评估;在网络的网络分析中,现有方法是为不同的网络分析任务或生物医学应用提出的,还没有相互比较;在超图与成对图分析中,不同任务实际上能从基于超图的方法中得到多大程度的改进还不清楚。
关注网络比对,为生物网络引入的方法通常已经彻底相互比较,包括不同方法类别的公平比较,如全局与局部网络比对、成对与多重网络比对以及静态与动态网络比对。另一方面,在网络生物学中引入的网络比对方法很少与社交网络等其他领域中引入的方法进行比较,尽管它们具有相似甚至相同的目标——映射跨网络的相关节点或网络区域。这可能是因为生物网络节点显著较少,可能比其他(如社交)网络更嘈杂。这也可能是因为不同领域的网络包含不同类型的数据,这使得方法定制于其特定的数据类型,从而使其比较具有挑战性或需要方法扩展和新发展。或者,这可能是因为不同领域的方法开发者来自不同的科学社区,可能不知道彼此的科学发现。无论哪种情况,了解不同领域方法的方法论优势/劣势都至关重要。它们的全面公平比较可能是朝这个方向迈出的一步,指导更强大且可能更普适的网络比对方法的开发。网络生物学传统上依赖于直接作用于图拓扑的方法。相比之下,近年来该领域关注网络嵌入的兴趣日益浓厚——无论是较早的基于谱的或基于扩散/传播/随机游走的方法,还是更近期的深度学习方法——这些方法首先将图拓扑转化为紧凑的数值表示向量,即嵌入,然后作用于这些图表示。一项在广泛背景下比较不采用嵌入直接作用于图拓扑的方法与网络嵌入方法的对比研究得出:在准确性方面,根据上下文和评估指标,有时直接的图方法优于网络嵌入方法,有时结果相反;在计算复杂度/运行时间方面,嵌入方法大多数时间优于直接的图方法。这表明需要更深入地结合这些方法。
网络生物学传统上依赖组合方法或图论技术,即依赖手工设计或用户预定义的节点或图的拓扑特征(该领域还依赖其他方法类型,如网络科学领域中的物理社区方法,但这些不是本文讨论的重点)。例如,革命性的图论类型的突出研究问题是在图中计数图形/子图;然后各种基于这些计数的节点、边或网络级特征可应用于许多下游计算任务和生物医学应用。近年来,网络生物学已经从深度学习(如GNN)的繁荣中获益,后者可以通过图表示学习自动生成相关的网络拓扑特征。目前还不清楚图论与深度学习方法(即手工设计与自动生成的网络拓扑特征)哪个更好以及在什么上下文中更好。关于超图与成对图分析,尽管超图能够捕获多重(多层)网络中节点间的复杂多样性,但与成对图相比,其计算复杂性更高。这限制了超图中的图论方法和多层GNN方法的规模。因此,很难确定相对于仅基于成对图的方法,超图方法在多大程度上提供了改进。全面比较超图方法与只考虑网络中的成对关系的方法,以量化超图分析的实际改进,是值得的。如果改进有限,则基于成对图的可扩展方法可能会胜过超图方法;如果改进很大,则值得投入更多研究来扩展超图方法以处理大规模超图。类似地,动态超图引入了时间维度,使网络分析更具挑战性。评估静态超图方法相对于仅考虑网络快照的方法以及动态超图方法相对于静态超图方法的改进程度也很值得。
总而言之,提供不同网络分析方法类别之间的全面比较非常重要,包括在生物网络中使用和其他领域中使用的方法。这有助于识别每种方法在哪些方面表现良好或差强人意,指导它们的联合使用以发挥各自的优势。它还有助于指导新方法的开发,以弥合现有方法中的差距。进行这种比较需要来自不同学科背景的研究人员开展跨领域合作。它还需要公平的比较框架,如标准数据集、评估指标和实现。我希望看到网络生物学社区启动这种努力,因为它将大大推进该领域。
调和不同方法范例的算法改进
一种算法解决方法是设计混合方法,结合所有相关学科的技术。例如,可以将深度学习方法与网络传播方法相结合,以改进多个网络的嵌入结果。或者,可以提出理论来统一不同的方法范式。例如,神经算法推理领域致力于开发能模拟组合算法的深度学习模型。一个实例是,最初用于自然语言处理的Transformer神经网络架构被重新设计来解决组合旅行商问题。该学科的主要目标是研究图神经网络学习新组合算法的能力,特别是针对需要启发式方法的NP困难挑战。换句话说,目的是确定深度学习是否可以比人工设计的启发式方法更有效地从数据中提取启发式方法,因为后者对NP困难问题可能需要数年时间才能制定。
另一种方法层面的潜在解决方案依赖于当前GNN方法主要采用网络生物学以外的其他领域的深度学习。因此,需要理解深度学习模型中代表考虑的生物机制的正确归纳偏置。例如,GO或疾病本体等本体的层次结构是否以及如何可以并入用于预测蛋白质功能或疾病关联的GNN结构中的可见神经网络工作表明,将细胞的层次结构和功能并入深度学习模型架构是有效的,并且可解释性好,因为模型的组件自然对应生物实体。甚至网络的网络的层次思想不仅对表示和分析多尺度生物数据很有用,也可以作为一种新的图表示学习方法论,用于流行的不一定是多尺度性质的网络分析任务。例如,一些研究采用多个同一尺度的网络作为输入,然后通过新颖的层次方法执行图嵌入或分类任务,如图的图神经网络或基于矩阵分解的数据融合。此外,不确定性量化提出了一系列独特挑战。网络数据集的固有结构和复杂性引入观察到的细微差别与其他数据类型不同。主要挑战在于区分数据相关的随机不确定性和模型相关的认知不确定性,同时有效减轻可能扭曲预测性能的潜在偏差。随机不确定性源自固有生物变异和实验技术的局限,包括自然随机效应和固有数据中的自然变异。例如,在PPI网络中,固有生物变异可能导致节点或边的属性的不确定性。另一方面,认知不确定性源于知识或建模假设的局限性。这种不确定性在基于图的任务中尤为明显,因为图可以用许多方式表示、处理和解释。例如,GNN模型架构或图池化策略的不同选择会引入不同程度的认知不确定性。有效量化和处理这些不确定性对确保可靠稳健的结果至关重要,特别是基于这些模型做出关键决策时。
关于方法的泛化性与专用性也是一个相关问题。一个常见问题是选择合适的相似性度量。例如,在决定GNN产生的嵌入中图的哪个属性应指示节点的接近度时就会出现这个问题,或者在通过连接节点的边推断相关性或调控网络时就会出现判断生物分子关系的问题。为特定任务或应用选择最佳相似性度量通常需要广泛的经验评估来评估多种度量。确定是否存在通用的、原则性的相似性度量仍然是一个挑战。答案可能对个别任务、应用或类似任务的广泛类别具体化。对泛化性的强调也提出了其可取性的问题;有时应着眼于特定的任务、应用或受众。此外,在某些上下文中,不相似(或距离)可能比相似性更相关。例如,尽管目标相同,蛋白质之间可以产生相反的作用。作为另一个例子,相邻边可能意味着不同的含义,如基因的上调或下调。一个关键考虑是选择具有理论基础以促进有效优化的距离,包括可证明满足三角不等式的距离和定义在光滑流形上的距离,从而产生对称正定距离矩阵。此外,在典型的高维空间中,选择牺牲理论特性的距离时造成的妥协可能很大,可能会扭曲解释和后续分析。
适当的经验方法评估的其他考虑因素:基准数据、性能度量、代码和数据共享、最佳实践
建立适当的基准数据集(包括用于训练和测试/评估预测模型的真实数据)、评估测量和基准框架对于系统、公平、无偏的方法比较至关重要。需要制定网络生物学评估的最佳实践和指南。从关键评估蛋白质结构预测(CASP)、反向工程评估与方法对话(DREAM)和关键蛋白质功能注释评估(CAFA)等生物医学领域的挑战中吸取的经验教训可能有助于为网络生物学制定最佳评估实践。但是,实验者不太可能相信仅从合成数据或仅在此类数据上评估的计算方法得到的任何科学发现。此外,获得正面实例和反面实例(如不存在于细胞中的PPI或蛋白功能关联)都非常重要。要允许恰当的方法评估,原创作者必须公开发布完整易用的代码和数据。同时,确保合规性仍然是一个问题。另外,由于网络数据固有的关系性,准确估计机器学习模型的绝对性能和相对性能以及性能估计的不确定性也具有挑战性。
网络完整性和相互作用因果关系
大部分网络生物学依赖于具有显著局限性的老化技术。聚焦于物理PPI,诸如酵母双杂交系统、交联质谱和蛋白复合物结构确定等生物技术已经集体生成了系统级数据,这些数据已经导致了网络生物学中的关键方法进步。当然,这些获得物理相互作用组的努力已经被与系统级相关网络推理相关的有价值的数据收集和网络推理努力所补充。然而,随着计算方法的成熟,数据开始落后。
高分辨率、高通量的数据生成技术,能够直接识别各种实验和临床背景下分子事件的途径和顺序,是对分子系统更深入理解的下一个前沿。需要从物理和相关网络扩展到因果关系或可模拟的动力学模型。为此,需要改进生物技术的数据收集,以允许收集更高质量的数据来构建更好的因果网络和更完整的网络。这还将需要开发新的(类别的)方法,以处理捕获的因果关系。即使/当本文拥有高质量的因果网络和有效、准确的用于分析的方法时,这是否足以理解生化机制。当人们知道生化机制时,可以推断出因果关系。然而,因果关系不能帮助完全理解生化机制。
指导数据生成工作的算法研究
将多组学网络数据与BKGs集成可能会有利于为罕见疾病提供精确而有针对性的治疗。这种具有更丰富语义的网络数据将更直接帮助建议生物学假设或通过主动学习支持迭代的数据生成和分析。使用计算研究的预测来指导实验室实验可能是推进建立更完整和准确的数据的一条途径,这可能会导致开发新的更高级的网络分析方法来进一步指导和改进实验室实验。网络生物学(主要是算法研究)如何最好地支持多模式数据的收集和分析是一个非常重要的问题,特别是在为同一人收集多模式数据时,包括构建个性化(即特定个体的)网络。这里的一个答案可能是首先弄清楚在哪个任务/应用中会提出什么问题,然后设计一个数据收集策略。人们可能希望定义最佳数据集。或者,人们可能希望在数据模态中找到统一因素;这正是为什么需要来自相同个体的多模态数据的原因,至少是一些数据/个体。这可能需要系统的、全面的和资金充足的合作研究。也许主动学习等算法方法可以帮助优先确定应该收集什么数据,例如来自特定人群或关于特定生物功能的数据。本文如何制定原则性的指南来建议为什么样的研究问题收集什么样的数据?随着在实验上收集或计算推断各种类型的生物网络的成功继续改进,研究工作可能应该转向获得个性化网络的预测理解。此外,即使在单个个体内,分子网络也因组织和细胞类型的不同而有所不同,这为定义特定个体的网络带来了额外的挑战。
网络动态
当前缺失或非常稀缺的数据组成部分是网络动态。各种类型的时间依赖扰动数据可以帮助推断动态生物网络。极少的任务/应用受益于生物学中的动态网络分析。一个例子是网络比对的任务:与比较静态网络的传统网络比对不同,最近,对齐动态网络的问题已经定义,并且已经为解决新定义的问题提出了几种算法。这里的挑战是缺乏实验获得的动态生物网络数据,这就是为什么这些方法是在合成网络、计算推断的动态生物网络或其他领域的动态网络上评估的原因。
另一个例子是关于蛋白质折叠过程动力学的最近网络研究。一个关键的挑战是缺乏关于蛋白质折叠中间体的大规模数据,即蛋白质在折叠过程中采取本机结构时的3D构象。即使在小规模上,这种类型的实验数据也缺乏。传统的基于模拟的计算研究以及最近的基于网络的工作,都从蛋白质的最终3D结构来近似蛋白质的折叠中间体。获得蛋白质折叠中间体的实际实验不太可能很快发生,特别是在大规模上,因此仍需要计算工作。随着蛋白质结构预测的最新突破,例如AlphaFold,这一需求为计算研究提供了一个很好的机会,以帮助获得、建模和分析所产生的动态数据。
最后一个例子是对衰老过程的动态网络分析,即从动态的老化特异性PPI网络中预测新的与衰老相关的基因。这里的一个关键挑战是,令人震惊的是,使用通过较新的生物技术获得的更新的与衰老相关的基因表达和PPI网络数据来推断动态的老化特异性网络,其对衰老相关基因的预测准确性不如使用10多年前动态网络分析衰老奠基时获得的较早数据。在关于主动模块识别的不同研究中也观察到,使用更新的网络数据通常并没有导致更有生物学意义的结果。回到衰老问题,目前尚不清楚问题出在基因表达数据、PPI网络数据、将两者集成以计算推断动态的老化特异性网络的方法、从老化特异性网络中提取特征的网络方法、哪些基因与衰老相关而哪些不相关的基准数据,还是完全其他的原因。
迈向包容和公正的精准医学
计算(包括网络)生物学和生物医学的进步受到缺乏涵盖广泛人类多样性的组学数据的阻碍。对人类遗传多样性的代表性不足极大削弱了将惠及所有人群的生物学发现,导致健康差异。针对“典型”患者设计的传统一刀切的医疗保健模式可能不适用于所有人。为响应这一点,美国国立卫生研究院旨在邀请全美各地100万人帮助构建历史上最多样化的健康数据库之一,通过“我们所有人”计划欢迎各个背景的参与者。包容性是该计划的核心:参与者在种族、民族、年龄组、全国地区、性别认同、性取向、社会经济地位、教育、残疾和健康状况方面都是多样化的。预计通过该计划收集的数据将导致关于本文的生物学、环境和生活方式如何影响本文健康的发现。与集中在某种疾病或人群的传统研究不同,该计划旨在建立一个多样化的数据库,可为各种健康状况的成千上万项研究提供信息。包容和多样化的组学数据的可获得性、精心考虑这种数据的研究设计、以及开发以公平和无偏见的方式处理此类数据的计算方法和评估框架,对促进所有人群的计算生物学和生物医学,实现健康平等都至关重要。
除了代表性不足的问题之外,某些人群本质上规模有限,例如罕见疾病,临床病例本身有限。对一个小规模人群的相当大比例进行研究,生成的数据仍可能无法产生与大规模人群相当的健康结果。在这种情况下,积累更多数据可能不可行,导致小样本数据集可能缺乏统计功效,放大计算模型易受误解和性能不稳定的影响。网络分析技术可以发挥关键作用来解决此挑战。少样本机器学习和网络方法的域自适应等技术,对于使计算模型从小数据集中学习模式并推广到新获取的数据至关重要。这些模型可以跨多样化人群进行自适应和推广,从而增强来自小样本数据集的健康结果的鲁棒性和适用性。
网络生物学和大型语言模型的界面
大型语言模型(LLM),如ChatGPT和GPT-4,正在自然语言处理和人工智能方面取得进展,这要归功于它们广泛的适用性。然而,LLM通常作为黑盒模型使用,在全面获取和访问事实知识方面存在局限性。相比之下,BKGs是结构化的知识模型,可以系统地存储大量的事实信息。BKGs有望通过提供推理辅助和提高可解释性的外部知识来增强LLM。但是,构建BKGs是复杂和动态的,对现有方法产生新事实和表示以前未见过的知识提出了挑战。因此,集成LLM和BKGs的方法可能会成为一个有价值的策略,统一利用它们的优势。
传统文本和结构化知识图之间的潜在协同效应越来越明显。语言模型预训练在从文本语料中提取知识以支持各种下游任务方面已被证明非常宝贵。然而,这些模型主要关注单个文档,通常忽略文档间的依赖关系或更广泛的知识范围。最近的进展通过将文本语料概念化为互联的文档图来解决此限制。通过将链接的文档放在共享上下文中并采用结合屏蔽语言建模和文档关系预测的自监督目标,这些方法可以在多跳推理和少样本问答等任务中取得显着进展。在一个平行的前沿上,虽然基于文本的语言模型获得了大量关注,但知识图可以补充文本数据,提供结构化的背景知识,为推理提供有用的支架。这些方法通过统一两个自监督推理任务(屏蔽语言建模和链接预测)来预训练模型,这标志着网络生物学未来进步的一个激动人心的方向。LLM与自然语言处理传统相关联,但其灵活性使其实用性超越了文本数据。底层架构,尤其是BERT和GPT变种等转换器基础设计,可以适应学习任何顺序数据。在生物学中,这种适应性意味着LLM可以在生物序列(如DNA、RNA和蛋白质)上进行训练。这些模型可以同化核苷酸或氨基酸序列,而不是处理单词或句子,从而捕捉基因组和蛋白组数据中的复杂模式和依赖性。LLM在跨学科方面的这些进步凸显了它们在推进计算生物学前沿的潜力。除了LLM等大型基于序列的预训练模型之外,一个新兴的基于结构的预训练模型领域致力于生成新的网络结构,如蛋白质和小分子网络。
可解释性、可再现性和透明性
这三个原则在推进本文对复杂系统的理解中发挥着枢纽作用。可解释性涉及阐明复杂现象(如肿瘤生长和免疫响应)的潜在机制,这需要整体策略。相反,深度学习模型是黑盒系统,由于它们产生的输出往往难以解释,因此立即的可解释性有限。这给那些需要清晰见解的领域带来了挑战。例如,尽管降维技术和图表示学习算法分别产生高维数据和图的压缩表示,但它们通常以牺牲所产生特征的可解释性为代价。相反,图论签名(可能捕捉网络基模、图例或其他子结构)可以通过阐明相关的结构模式来增强本文对数据的理解。
网络生物学研究的可再现性是一个多方面的挑战,原因如下。(1)图构建:图的构建方式可以极大影响从中获得的洞见。例如,考虑推断PPI关联网络的问题。仅包含直接相互作用而不是直接和间接相互作用的决定会导致完全不同的网络拓扑结构。选择一个阈值来确定边缘(例如,特定强度的相互作用或置信水平)也可以显着改变图形。(2)边缘定义:边缘的构成可能是主观的,并且通常基于特定上下文。例如,在基因共表达网络中,边缘的定义可能基于特定的相关系数阈值。这个阈值的轻微变化可能导致包括或排除大量交互,从而改变网络的结构和潜在推断属性。(3)潜在嵌入:用于计算嵌入的基于图的机器学习方法可能对结果产生重大影响。不同的嵌入技术捕获不同类型的结构和特征信息,导致诸如节点分类或链接预测等任务的变化。(4)生物网络的动态本质:生物系统本质上是动态的。一个时间点或一组条件下的PPI网络可能与另一状态下的网络不同。因此,重现结果需要相同的方法和相同或等效的生物条件。(5)最后,图采样:在许多情况下,由于网络的大规模或计算约束,采样子图或样本。如果不仔细控制,这种采样中的方法和随机性可能导致结果不可再现。方法的一致性和所有决策(从图构建到分析)的完全透明性至关重要。Nextflow和Snakemake等工作流管理系统可以通过组合软件包和各种工具来实现计算工作流的快速原型设计和部署。清晰的文档、代码和算法的开源共享以及原始数据和处理后的数据的可用性可以确保结果不仅是一次性发现,而且可以被更广泛的科学界一致地重现和建立。
迈向算法创新广泛采用和将其转化为实际和社会影响的努力
上述讨论的推荐方法评估和数据生成改进不仅对方法开发者(通常是计算科学家)来说是必需的,以便他们能够正确地评估他们的新方法相对于现有方法,而且更重要的是,供最终用户(实验科学家采用,从长远来看,临床医生、医护人员和患者。计算科学家和实验科学家之间的脱节,即使他们致力于共同的科学目标,暗示需要努力来克服跨学科研究领域中的技术和社会挑战。计算科学家可能需要考虑不仅是传统的算法评估指标,如精度、召回率和其他性能标准,还需要评估将方法集成到科学和临床工作流中的实用性和可行性的指标。此外,计算科学家的主要激励是开发新算法和原型软件。相比之下,实验和临床科学家期望的工具稳健可靠,在实践中出现的故障很少。由独立的跨学科研究人员对与下游应用直接相关的任务进行的权威评估对此至关重要。在网络生物学中,应优先考虑快速广泛传播这些评估、建议和最佳实践指南。
网络生物学的重大里程碑
网络生物学成功的巅峰可能是对不同条件和生命阶段下整个细胞或有机体互作用组的全面和动态理解。这将包括蛋白质相互作用、基因调控、代谢途径、细胞信号传导等。本文可以想象一个有机体中每种生物学相互作用的完整地图,从基因和分子的层面到组织和器官,并能够放大细节并看到不同时间或条件下的动态变化。另一个重要的里程碑是无缝集成网络生物学与其他学科,以提供对生命的整体理解。这意味着将分子互作用组与组织级网络、器官系统以及像共生或生态系统中看到的生物体间相互作用进行连接。从实际的角度来看,一个重要的成功测度是应用网络生物学的见解来开发新的和更有效的治疗干预措施。这可能意味着识别关键的网络节点或相互作用以治疗疾病,从而导致创新性治疗。
与参考人类基因组相呼应,网络生物学的等价物可以是一个参考互作用组,即人类细胞内所有已知生物学相互作用的标准化和全面的地图。这将为研究疾病、发育、衰老和其他生物过程提供基线。特定细胞类型、条件或疾病中的任何偏离这一参考的都可以进行详细研究。就像AlphaFold在预测蛋白质结构方面引起轰动一样,网络生物学中的一个可比成功可能是开发可以从其基础网络准确预测生物系统新兴属性的工具。给定一组相互作用,这意味着该工具可以预见系统对药物的响应、在某些条件下的行为或随时间的进化。
关于科学界、教育和多样性的额外讨论
计算生物学家的定义困难。本文的研讨会达成共识,计算生物学家应该对开发核心计算方法和理解基本生物机制都感兴趣且知识渊博。这提出了如何培训更多这样的研究人员来推进计算生物学的问题,包括将生物系统建模为网络并分析的网络生物学子领域。据部分与会者的经历,网络生物学课程中的学生可能仅喜欢计算或生物学方面之一。所以,需要努力说服学生对两者都感兴趣。识别当前培训中的差距,启动新的跨学科培训项目,以及获得资助机构的支持都很必要。
高效培训的要点包括:易用的软件工具、公共数据库、让学生接触跨学科团队。计算生物学教师的招聘和晋升也很重要。目前学科间存在藩篱,以计算或生物为重点的部门在聘用时可能偏向相应背景的候选人,但两种背景的人都很适合跨学科计算生物学研究。招聘和晋升组需要新的思考方式。即使在计算导向的计算生物学研究中,不同社区使用不同术语表示相同概念,存在交流隔阂。本文的计算导向研讨会致力弥合这一差距。女性与会者占42%,高于国际计算生物学会的女性比例。该学会的民族多样性统计也显示了非欧洲裔的比例。每个人都应为提高领域内多样性做出贡献。
参考资料
Zitnik M, Li M M, Wells A, et al. Current and future directions in network biology[J]. arXiv :2309.08478, 2023.