Basic Information
- 英文标题:A compendium of human gene functions derived from evolutionary modelling
- 中文标题:源自进化建模的人类基因功能汇编
- 发表日期:26 February 2025
- 文章类型:Article
- 所属期刊:Nature
- 文章作者:Marc Feuermann | Paul D. Thomas
- 文章链接:https://www.nature.com/articles/s41586-025-08592-0
Abstract
Para_01
- 一个全面且可计算的人类基因组内编码的所有大分子的功能表征是生物学和生物医学研究的基础资源。
- 基因本体联合会一直在为此目标努力,通过生成关于基因功能的结构化信息,现在包括了超过175,000篇出版物中关于人类基因和实验上可处理模型生物基因的实验发现。
- 在这里,我们描述了一个大型国际努力的结果,该努力旨在整合所有这些发现,以创建尽可能完整和准确的人类基因功能表征。
- 具体而言,我们对所有人类蛋白质编码基因应用了一种专家策划的、明确的进化建模方法。
- 这种方法将可用的实验信息整合到相关基因家族中,构建出在进化时间尺度上功能特征的获得与丢失的模型。
- 这些模型以及由此产生的包含68,667个整合基因功能的集合覆盖了大约82%的人类蛋白质编码基因。
- 功能表征揭示了显著的分子调控功能倾向,而这些模型提供了有关人类基因功能进化起源的见解。
- 我们展示了我们的功能描述集可以改进广泛使用的基因本体富集分析这一基因组技术。
- 每个功能特征的实验证据都被记录下来,从而使得科学界能够帮助审查和改进这一资源,该资源已公开提供。
Main
Para_01
- 人类基因是编码制造分子机器——主要是蛋白质,但也包括非编码RNA——的基因组片段,这些分子机器执行创造和维持人体的功能。
- 确定这些基因产物的整个功能库对于理解人类生物学和治疗疾病至关重要。
- 之前发表的试图全面构建和分析人类蛋白编码基因所编码的整个功能库的研究,在2001年人类基因组序列草图报告中有所体现(参考文献3、4)。
- 这两篇出版物报告了当时最先进的使用Pfam5和PANTHER6等蛋白家族识别软件以及新兴的基因本体论(GO)来定义功能类别的对人类蛋白编码基因集的分析。
- 这些研究报告称,大约40%的4和58%的3的人类蛋白编码基因具有已知或可预测的功能特征。
- 然而,这些初步研究存在几个局限性,包括基因功能仅被描述为高层次的,并且没有可追溯到支持实验证据的链接。
- 因此,大多数基因被分配到一个单一的、宽泛的功能类别中,这种分配的准确性难以验证,这使得随着更多实验结果的出现,很难在此基础上进行进一步分析。
- 自那时以来,已经开发了多个包含人类基因功能的资源8,9,10,包括我们在GO联盟中的工作11,12,但这些都没有系统地旨在对人类基因进行全面的、可计算的表示。
Para_02
- 我们在这里描述了我们的工作,即在目前可用的数据基础上,使用基于明确进化建模的方法尽可能全面地开发一个人类蛋白编码基因功能的表示。
- 这一过程需要大规模构建进化模型:总共,在PANTHER数据库中的6,333个系统发育树以及GO知识库中所有可用的实验信息中构建了模型。
- 在所得到的表示中,每个基因的整体功能由一组多个功能特性(注释)来描述。
- 每个特性由GO本体(一个正式的基因功能本体)中的选定术语表示,并且得到了可追溯的实验证据的支持,同时可能具有独特的进化历史。
- 我们已经在https://functionome.geneontology.org公开提供了这套人类基因功能的信息。
Creating a genome-wide set of functions
Para_01
- 我们的过程用于创建一套全面的人类基因功能集如扩展数据图1所示,并在方法部分详细描述。该过程依赖于专家的人工整理和广泛的计算支持。
- 第一步涉及识别报告了关于基因功能实验发现的出版物,从中生物信息学科学家(具有数据科学专业知识的生物学家)创建了‘主要GO注释’。
- GO注释将一个基因与一个功能特性联系起来,并附带该断言的证据。
- 该功能特性是从GO本体提供的类图(或术语)中选择的,这是一种信息系统结构,使复杂的生物学实验结果能够以易于计算的形式表示。
- GO本体定义了三种广泛的功能特性类别:分子功能(MF;基因产物在分子水平上执行的功能);生物过程(BP;细胞和有机系统水平上的功能);以及细胞组分(CC;基因产物活跃的细胞结构)。
- 目前的主要GO注释包括来自超过175,000篇同行评审、已发表论文的发现,其中大多数来自模式生物的研究。
- 这些主要GO注释可以说是关于基因功能的功能信息最广泛使用的来源之一。
- 然而,它们并不能构成人类基因功能的全面表示。
- 首先,每个主要注释的范围仅限于在单篇出版物中实验性证明的基因功能特性。
- 因此,主要注释往往更多地反映了实验的细节而非基因的基本功能。
- 此外,对同一基因的注释可能彼此部分或完全冗余,即使它们指的是显然不同的GO术语(见方法部分的例子)。
- 主要注释也受到已发表文献中的偏差影响;例如,研究倾向于只关注人类基因的一小部分。
- 但也许最重要的是,对人类基因功能的直接实验知识仍然是不完整的。
- 因此,人类基因功能的全面表示需要利用在各种其他生物体中获得的大量实验知识,因为许多编码蛋白质的基因在进化过程中高度保守,可以提供重要的信息。
Para_02
- 为了应对这些局限性,我们实施了第二步,以审查和整合主要的人类以及相关非人类基因的GO注释,从而形成一个全面且最小冗余的人类基因功能描述。
- 这一步骤创建了主要GO注释的综合,类似于综述文章如何综合初级研究出版物的发现。
- 在我们称之为使用基因本体进行系统发育注释(PAN-GO)的方法中,我们执行了以下操作:(1)系统地审查了基因家族进化树中相关基因的所有功能证据;
- (2)选择了一组最大信息量且独立的功能特性;
- (3)构建了每个选定功能特性在基因家族中的进化模型(即它何时出现,以及在许多情况下随后丢失)。
- 然后,这些进化模型被用来为每个人类基因提供集成的PAN-GO注释。
Para_03
- 显式的进化建模方法代表了超越以往工作的进展,利用同源信息19,20,这些信息分为两大类。
- 使用蛋白质家族(例如,Pfam5和InterPro2GO21)或亚家族或直系同源群(例如,PANTHER15或COGs22)的方法在早期的人类基因组功能分析中被使用3,4,现在已经被更新并定期扩展。
- 然而,它们仍然局限于表示在整个家族或亚家族中广泛保守的功能特性,因此可能缺乏覆盖范围和精确性。
- 相比之下,使用同源性23或直系同源性24,25的成对识别的方法基本上将每个同源基因对和每个功能特性单独处理,而不是整合多个相关基因的实验信息。
- 最近,基于深度学习的方法显示出前景26,27,但仍面临类似的挑战。
- 在这类方法中,序列水平上的同源关系被用来对基因功能的进化做出隐含推断。
- 据我们所知,这里提出的工作是首次在全基因组规模上明确地建立进化模型。
PAN-GO evolutionary modelling process
Para_01
- 我们首先使用泛素激活酶(UAE)家族的例子来说明建模过程。这个家族在文献中已有广泛研究,使我们能够将我们的进化模型与先前发表的研究结果进行比较。
- UAE 家族存在于所有生命王国中,并包括十个人类基因。
- UAE 家族的成员可以激活一系列泛素样修饰物(UBLs),这些小蛋白一旦被激活就会附着到其他蛋白质上以标记它们用于调节。
- 图 1a 显示了进化建模工具称为系统发育注释和推理工具(PAINT;有关详细信息,请参阅方法部分)中的部分 UAE 基因家族树,重点是包含人类 ATG7 基因的分支。
- 建模过程考虑了基因树(这里指示 ATG7 分支起源于真核生物最后共同祖先(LCA)之前的起源)以及树中基因的功能稀疏实验知识(主要 GO 注释)(图 1a,绿色方块和标注)。
- 选择了最具有信息量且不重叠的一组功能特征(GO 类别),然后创建了一个进化模型,指定了每个特征在进化过程中出现在树上的分支(图 1a,底部标注)。
- 图 1 所示的模型对应于最简单的进化模型,该模型解释了给定基因树中的进化历史的这些实验观察结果。
- 最后,通过应用进化模型,假设继承了功能特征(GO 术语)‘Atg12 激活酶活性’和‘Atg8 激活酶活性’(GO 术语标签用单引号表示),对人类 ATG7 进行了 PAN-GO 注释。
- 在这个例子中,人类基因功能的证据来自对其他生物相关基因的实验。
- 例如,人类 ATG7 的‘Atg8 激活酶活性’得到了小鼠32和出芽酵母33实验的支持。
Fig. 1: PAN-GO annotation process illustrated using the UAE family.
- 图片说明
◉ PAINT软件工具(方法)展示了创建人类ATG7基因的功能进化模型的过程(顶部),该模型整合了相关基因的功能信息。◉ 系统发育树(左侧)显示了在不同生物体中发现的基因之间的进化关系。树节点代表物种分化事件(圆圈)和基因复制事件(方块);现存基因用UniProt五字母物种代码51和可用的基因符号标记。◉ 对于每个现存基因,在右侧显示稀疏的实验功能注释(绿色方块,每列是一个不同的GO类别)。◉ 基因树和主要的GO注释(绿色标注)中的信息用于构建一个简约的功能进化模型(底部标注,深蓝色),在这个模型中,选定的功能特性首先出现在一个祖先性的、类似于ATG7的基因中。◉ 这些功能随后通过遗传传递给人类ATG7基因(虚线黄色箭头)。◉ b,PAN-GO进化模型和PAN-GO MF注释显示了阿联酋家族中所有人类基因的激活酶(AEs)的不同功能,这些基因在分子水平上(如图所示)、细胞水平和有机体水平上具有不同的功能。◉ 基因复制事件和功能进化导致了十个人类基因作为激活酶(AEs)的存在,它们具有不同的功能。◉ PAN-GO功能进化模型由表示功能获得的圆圈、表示功能丢失的叉号和表示祖先功能遗传的橙色箭头组成。◉ 该家族的最后一个共同祖先具有‘硫酸转移酶活性’(标记为1的功能获得),这个功能传递给了人类MOCS3基因(从1出发的箭头),但在其他后代中进行了修改(标记为2-11的功能丢失和获得)以形成对不同UBL具有不同特异性的典型AEs。◉ 例如,人类UBA5专门针对称为UFM1的UBL。◉ 分支长度表示每个位点的氨基酸替代数量。该树使用iToL工具52绘制。
Para_02
- 图1b展示了PAN-GO模型,该模型涵盖了整个UAE家族中的MFs,其中包括除ATG7外的其他九个人类基因,以及来自古菌和细菌的同源基因。
- 这个模型展示了PAN-GO过程的几个重要特征。
- 首先,同一家庭的不同成员可以具有高度不同的功能注释。
- 相比之下,先前对人类基因功能描述所使用基于家族的方法3,4没有为UAE家族中的任何基因分配功能特性(参见Pfam5 PF00899),因为功能的多样性阻止了适用于所有成员的功能分配。
- 其次,该模型旨在尽可能地表示实际的进化事件。
- 由于描述功能的GO类别是离散的,我们将进化过程中每个功能变化的模型表示为GO类别的增益和损失的组合。
- 例如,在通向ATG7的分支上,祖先的"硫酸转移酶活性"(由细菌基因分支中的实验注释和支持,以及包括人类MOCS3的一个真核基因分支)演变成了特定于ATG12和ATG8家族UBL的UBL激活酶活性。
- 在PAN-GO模型中,这种功能变化被建模为‘硫酸转移酶活性’GO术语的丢失(因为这个术语不再是新演化功能的准确描述)和两个GO术语的获得:‘Atg12激活酶活性’和‘Atg8激活酶活性’。
Para_03
- 仅使用基因树和实验性的GO注释,我们的建模过程构建了一个功能进化模型,该模型捕捉了该家族中的主要进化事件,这些事件之前是通过高度劳动密集型的详细研究确定的。
- 在我们的模型中,MOCS3分支保留了祖先的‘硫酸转移酶活性’,这与之前的断言一致,即MOCS3提供了与该家族中古菌酶的进化联系34,35。
- 尽管系统发育树没有重建早期基因复制的顺序(如图1b所示,多个分支从单一祖先基因下降),但我们的模型确实允许我们区分发生得更晚的基因复制和功能修饰的顺序,从而产生了三种人类基因UBA1、UBA6和UBA7。
- 对于这三种基因,我们的模型在基本细节上与之前发表的一个模型36一致:(1)祖先基因是特异性针对泛素的;(2)导致UBA6复制的发生早于导致UBA7复制的发生;(3)UBA7从泛素特异性转变为ISG15特异性(我们将其建模为‘泛素激活酶活性’的丧失和‘ISG15激活酶活性’的获得)。
The PAN-GO set of human gene functions
Para_01
- PAN-GO 进化模型涵盖了 6,333 个基因家族,结合了对一小部分(61)未包含在 PANTHER 家族中的人类基因的主要 GO 注释,最终形成了对 17,079 个人类蛋白编码基因(占 UniProt 报告的 20,851 个共识基因集的 81.9%)的功能综合 GO 注释集,共计 68,667 条。
- PAN-GO 注释覆盖了 GO 本体论的三大主要类别,包括 18,499 条 MF、22,022 条 CC 和 28,146 条 BP 注释。
- 每一大类 GO 术语对基因的覆盖率如扩展数据图 2 所示,每个基因的注释分布情况如扩展数据图 3 所示。
Para_02
- 为了描述PAN-GO注释并展示它们的效用,我们对PAN-GO注释进行了深入比较,与其他可用的人类GO注释集进行了对比。
- 这包括与来自已发表文献的GO注释以及使用经过广泛测试和审查的方法预测的GO注释的比较,其中包括在Critical Assessment of Function Annotation评估或类似评估中基准化的几种自动功能预测方法。
- 比较的详细信息在补充信息中描述,这里我们总结了主要发现。
- 首先,PAN-GO为人类基因添加了43,206个新的注释,这些注释在人类主要GO注释集中之前不存在。
- 在这新增的注释中,有5,570个涉及相关但更具体的GO术语,因此增加了更多的功能细节。
- 然而,大多数(37,636个)属于本体的不同分支,并代表从人类实验注释集中缺失的功能特性。
- 如方法部分所述,我们使用了一种已建立的程序来估计这些新注释的‘可靠性’在90%到97%之间。
- 其次,人类基因的大多数实验GO注释被排除在PAN-GO集合之外。
- 这是因为选择了在进化模型中包含的大部分独立且信息量最大的GO术语。
- 使用之前已发表案例研究的数据集(补充信息),PAN-GO集合在富集分析中的表现优于所有GO注释的集合,因为PAN-GO避免了这些分析中的一个主要混淆因素,即高度注释的基因。
- 因此,PAN-GO集合不仅因其新增注释而有价值,还因其去除的噪声原始注释而有价值。
Experimental evidence for gene functions
Para_01
- 如上所述,每个PAN-GO注释都有一个或多个实验证据支持。
- 我们将每条证据分为直接证据(基于给定的人类基因实验)或基于同源性的证据(基于同源人类基因或另一种生物体中的同源基因的实验)。
- 图2显示了这些来源的分布,它们之间存在大量重叠。
- 值得注意的是,只有25,997(38%)的PAN-GO注释由直接的主要注释支持(图2中的黄色椭圆)。
- 其余42,670个PAN-GO注释(62%)是通过基于树的同源性推断过程得出的。
- 因此,同源性推断对最终的PAN-GO审查的人类基因注释集的贡献几乎比直接实验注释多1.8倍。
- 近一半的基于同源性的注释(42,653个中的21,098个)仅由模式生物数据支持,没有来自人类基因本身或人类旁系同源基因的实验证据。
- 此外,即使基于人类旁系同源基因的数据支持,几乎所有基于同源性的注释仍然主要由模式生物数据支持(如图2所示,蓝色区域几乎是红色区域的完全超集)。
- 即使对于具有直接实验支持的人类基因注释,超过70%的情况下也有来自模式生物的额外证据(图2中黄色区域与蓝色区域重叠部分)。
- ,
Fig. 2: Sources of experimental evidence for PAN-GO annotations.
- 图片说明
◉ 展示根据用于PAN-GO注释的实验证据来源的人类基因PAN-GO注释数量的维恩图。
Para_02
- 我们确定了每种模式生物对人类PAN-GO注释的贡献(扩展数据表1)。
- 总体趋势表明,这些贡献既依赖于模式生物与人类的进化距离,也依赖于对其实验研究的深度。
- 小鼠的数据(与人类分歧约8000万年前)支持了大约60%的人类PAN-GO注释,而大肠杆菌的数据(与人类分歧约40亿年前)支持了大约3%,
- 这一结果突显出即使远缘相关的生物体也能为人类生物学提供见解。
The landscape of human gene functions
Para_01
- 我们使用了GO本体结构来将PAN-GO注释分组到广泛类别中,以洞察人类蛋白质编码基因功能的全景(图3)。
- 我们分析了基因功能的两个不同方面:蛋白质单独执行的分子水平功能(MF;图3a)以及与其他蛋白质共同执行的系统级过程(BP;图3b)。
- 对于MF,最显著的特点是调控功能的盛行,这些功能特别控制其他基因和蛋白质的活动。
- 这些功能不仅限于DNA结合、基因特异性转录因子(这之前已有报道3,4,40),还包括以下其他主要类别:
- (1)蛋白质修饰催化活性,包括蛋白激酶和蛋白酶,这些酶通过共价修饰其他蛋白质来调节其功能;
- (2)通过特定的非共价结合相互作用调节MF的调控因子;
- (3)信号受体;
- (4)受体的配体;
- (5)GTP酶,主要是大G蛋白和小G蛋白,这些是通过结合来调节其他蛋白质的分子开关;
- (6)转录共调控因子,其中大多数通过修改染色质使DNA的特定区域对转录因子开放。
- 这些类别合计包含5,882个基因,占已知MF基因近一半。
- 因此,大量的人类蛋白质编码基因似乎参与了对其他蛋白质功能的精确控制,这是一个具有创建高度复杂生物程序潜力的‘部件清单’。
- 在更高的生物学组织层次上,图3b提供了由多个基因共同执行的生物程序(GO BP)的概述。
- 这些范围从主要发生在细胞水平上的程序(例如,生物合成、分解代谢、细胞结构的生物发生和修饰)到更大规模的多细胞系统。
- 在细胞水平上,涉及最多基因的过程包括:信号传导(即检测、传递和整合信号和其他刺激);
- 转录调控(控制基因表达水平和对信号传导的主要响应);
- 细胞分化(细胞发展成具有特定生理功能的特定类型);
- 以及细胞骨架组织(维持和改变细胞形状)。
- 涉及多细胞过程(如解剖结构发育、免疫系统过程以及神经系统过程包括突触信号传导)的基因数量明显少于涉及细胞过程的基因数量。
- 鉴于所有蛋白质都在细胞中表达,因此几乎所有基因都与其他蛋白质一起在该细胞中执行某种细胞水平的功能,这一结果并不令人惊讶。
- 相比之下,只有部分基因参与协调不同细胞之间的动作。
- 此外,对于许多多细胞过程,特定基因的作用不如对细胞过程的理解清楚。
Fig. 3: Overview of the set of human protein-coding gene functions categorized by high-level GO classes.
- 图片说明
◉ 人类基因根据分子功能(编码蛋白质在分子水平上的活动)分类,PAN-GO中有12,117个基因具有分子功能注释。◉ 人类基因根据生物过程(蛋白质对较大系统功能的贡献)分类,PAN-GO中有13,982个基因具有生物过程注释。◉ 对于每个面板,面积与给定功能类别中的基因数量成正比。◉ 颜色对应于一些宽泛的类别,这些类别并不完全对应于GO类,但有助于组织GO类。◉ 请注意,对于GO类,有些是其他类别的子类别,在这种情况下,注释仅分配给最具体的类别。◉ 例如,注释为'小分子代谢过程'的基因不会被包括在更一般的'代谢过程'中。◉ 还请注意,如果一个基因具有不同类别的不同GO类别的注释,则该基因可以被分配到多个类别。
The evolution of human gene functions
Para_01
- 尽管我们构建进化模型的特定目的是创建对人类基因功能的全面表示,但这些模型还提供了关于这些功能进化起源的见解。
- 图4a显示了人类基因功能首次进化的时期分布,这些时期由我们模型中的LCAs(最近共同祖先)所代表。
- 这些分布显示出峰(功能创新更集中的时期)和谷(创新较少的时期),其中有四个明显的峰:
- (1)真核生物的进化;
- (2)涵盖动物(真后生动物)和两侧对称动物进化的时期;
- (3)涵盖脊椎动物(全骨类)和陆地动物(四足类)进化的时期;
- 以及一个较小的峰在(4)胎盘哺乳动物的进化期间。
- 先前对于人类基因年龄的研究已经观察到了类似的模式41,这预计会在某种程度上与基因功能的进化相关联。
- 然而,基因年龄在非常古老(在细胞生命最后的共同祖先(LUCA)之前的时期)和相对较新的(从胎盘哺乳动物到灵长类动物的时期)时间范围内显示出额外的主要峰值。
- 这种差异可能部分是由于给基因分配年龄的挑战42,这表明直接考虑功能的重要性。
Fig. 4: Distribution of the age of human gene functions.
Para_02
- 在我们的模型中,大多数人类基因功能很久以前就进化了,有些甚至在40亿年前(图4a,在LUCA下方的黑色条形)。
- 值得注意的是,超过一半的人类蛋白编码基因继承了一种功能特征(图4a,灰色条形),这种特征在我们遥远的单细胞祖先中进化而来(在动物多细胞进化至少7.15亿年前之前)并且超过三分之一自那时以来功能没有改变(黑色条形)。
- 相比之下,进化到胎盘哺乳动物(真兽亚纲)共同祖先几乎1亿年前之后,相对较少的人类蛋白编码基因功能进化。
- 重要的是要注意,我们的模型中的功能特征仅限于对一个人类基因或相关基因具有实验支持的GO术语,并且往往会低估进化过程中的真实功能变化。
- 例如,在PAN-GO模型中,对于细胞色素P450家族(PTHR24300),18个人类基因从一个共同祖先继承了GO术语‘异生物质代谢过程’,该功能特征在超过10亿年前的祖先中进化。
- 这个功能描述是正确的;然而,在目前GO术语尚未捕获的更详细的层面上,不同的人类细胞色素P450家族最近进化出了对不同类型异生物质化学物的不同特异性。
- 尽管如此,图4a中两个分布之间的差异表明,我们的模型确实识别了许多功能变化的实例。
- 如果一个基因的所有功能特征在同一时间出现,灰色和黑色条形将相同。
- 因此,差异是由于在进化过程中较晚出现的附加功能特征导致的。
- 例如,1300个人类基因可以追溯到至少一个LUCA的功能特征(底部灰色条形),只有470个基因(底部黑色条形)没有经历进一步的功能变化。
- 在脊椎动物共同祖先出现前的短时间内,许多基因在功能上发生了变化(灰色条形与黑色条形相比)。
- 在大多数情况下,这些变化是由于已知的基因复制在脊椎动物基因组进化中的显著作用。
- 图4a显示了基因复制如何在基因功能进化中表现为功能修改,其中副本获得了和/或失去了某些功能特征,同时保留了其他功能特征。
Para_03
- 我们使用GO基因本体结构创建了人类基因组,这些基因组在不同层次的分辨率下共享相同类型的函数特征,并绘制了该特征进化的分布情况(同一功能组内的不同基因可能在同一时间段或不同时间段内进化出该功能)。
- 图4b比较了选定功能组的分布情况。
- 在高层次的功能分组(大组且包含许多基因)中,代谢功能倾向于较早进化(大多数出现在真核生物共同祖先之前),而信号功能则明显较晚进化(与整体分布相似)。
- 免疫系统功能出现得相对较晚(主要在脊椎动物到哺乳动物期间)。
- 在较低层次的分组中,我们获得了更多的分辨率。
- 在代谢过程中,与先前的研究一致,碳水化合物代谢和糖酵解等基本细胞过程在进化早期就出现了,大部分在LUCA之前。
- 人类DNA复制功能大多在真核生物共同祖先之前进化,但与其他系统发育研究一致,我们的模型表明,尽管细菌和真核生物的核心DNA复制机制之间缺乏同源性,一些组件的功能却存在于LUCA中。
- 大多数人类信号过程出现得较晚,只有少数如胞内磷脂酰肌醇介导的信号传导,在真核生物共同祖先之前进化。
- 转录调控显示出从Opisthokonta共同祖先(动物和真菌的共同祖先)到Eumetazoa(动物)共同祖先的一个额外广泛的创新高峰,在此期间,许多新的转录因子家族进化出来。
- 信号通路在动物和随后在脊椎动物中得到了显著扩展。
- 例如,WNT信号通路在Eumetazoa共同祖先之前(早期动物进化时期)进化,血小板衍生生长因子(PDGF)信号通路在脊椎动物共同祖先之前首次进化,并在四足动物共同祖先之前进行了进一步的修改。
- 对于参与免疫系统过程的人类基因,我们在脊椎动物共同祖先之前观察到了一个高峰,并在胎盘哺乳动物共同祖先期间有一个长尾,这反映了适应性免疫系统的进化出现及进一步的完善。
Discussion
Para_01
- 我们在这里提出了人类蛋白编码基因功能的一个初步表示,旨在尽可能全面和准确:一个草稿人类基因‘功能组’。
- 通过明确的进化建模和专家评审,我们将过去25年来在GO知识库中积累的所有经过实验支持的知识整合起来,涉及人类基因及相关高度研究模型生物的基因。
- 与之前发布的功能组以及GO知识库中之前可用的注释相比,这一功能组有多项改进(补充结果)。
- 值得注意的是,人类基因的覆盖率更高,82%的基因与至少一种功能特性相关,而之前文献报道的比例为40-58%,目前GO知识库中的主要注释覆盖率为67%(扩展数据图2)。
- 此外,每个PAN-GO功能特性都有一个完全可追溯的证据链,最终链接回基于它的实验(无论是直接在人类基因上、相关基因上还是两者兼有)。
- 最后,PAN-GO注释代表了一种综合,简洁地总结了每个基因的所有可用GO知识库注释,形成一组非冗余的功能特性。
- 我们表明,与其他来源的GO注释相比,PAN-GO注释在人类基因中相对一致(扩展数据图3)。
- 此外,在富集分析中直接使用PAN-GO减少了由于高度注释的基因而产生的主要偏差(参见补充结果中的‘基因集富集分析结果比较’部分)。
- 与其它来源的GO注释不同,PAN-GO中的每个选定的GO术语都是为了表示一种独特的功能特性,因此注释集最小化了冗余性。
- 这一特性可能对许多GO知识库用户来说是不熟悉的,他们可能会认为更多的注释总是更好,并且不同的注释总是代表不同的功能。
- 这一特性也可能使PAN-GO注释集作为机器学习预测基因功能的训练集变得有用。
Para_02
- 进化建模方法使我们能够对人类基因功能的演变得出一些初步结论。
- 我们发现大多数人类基因功能是从非常古老的祖先那里继承来的,这些祖先存在于多细胞动物出现之前。
- 实际的比例可能更大,因为通常情况下,系统发育方法在蛋白质序列高度分化的蛋白家族中低估了基因年龄,对于这些家族而言,基于蛋白质序列相似性来可靠地建立同源性是不可行的。
- 然而,由于缺乏实验数据和基因本体论(GO)术语的精度不足,我们可能低估了在进化过程中发生的最近的、相对细微的功能变化的数量。
- 我们的模型还表明,在不同的时间周期内,不同类型的基因功能出现,并且通过增加额外的功能组件而进一步发展。
- 这导致了多种独特的进化模式。
Para_03
- 非人类基因的功能信息对于实现PAN-GO注释的高度覆盖和特异性至关重要。
- 然而,这也表明即使包含了模式生物研究中的广泛知识,目前对人类功能组的集体认知仍然不完整。
- 在PAN-GO注释集中,大约30%的人类基因要么没有任何注释,要么只注释了GO本体的一个方面,这与另一个近期对‘未知领域’的估计相似。
- 我们预计PAN-GO注释将有助于识别我们知识中的空白,这些空白可以通过新的实验和尚未纳入GO知识库的现有出版物来填补。
- 我们鼓励社区审查他们在专业知识范围内的人类基因功能,并提交应添加到GO知识库并纳入PAN-GO注释集的建议出版物。
- 我们还预计,通过对人类细胞和组织中基因敲除的高通量表型分析(https://morphic.bio)以及小鼠胚胎的研究,将为特征不充分的人类基因添加更多的功能信息。
- 因此,我们在这里提出的人类基因功能的全面集合不应被视为终点,而应视为一个快照,它将在未来几年内不断被细化和扩展,建立在一个大型国际实验、计算和生物注释科学家社区的工作基础上。
Methods
Primary GO annotations
主要的GO注释
Para_01
- 创建GO一级(实验性)注释的过程已在先前的详细描述中说明了54。
- 从额外出版物中添加的新注释大约每月增加4,000个,如果某些注释由于新的实验结果或本体中捕获的生物表示更新而变得过时,则会进行修订或删除。
- 尽可能地,用于支持实验性GO注释的科学出版物会被标记PubMed链接55,并可以在https://pubmed.ncbi.nlm.nih.gov/?term=loprovGeneOntol%5bSB%5d检索。
- 少数额外的出版物没有被PubMed索引。
- 我们的分析使用了GO知识库版本22-03-2022的本体和注释(https://release.geneontology.org/2022-03-22/index.html,https://doi.org/10.5281/zenodo.6399963)。
- 共有713,330个一级注释,包括对人类基因的147,872个注释和对其他生物体基因的565,458个注释。
- 对于所有注释数量,我们排除了直接注释到类‘蛋白质结合’的所有注释,因为这些陈述代表观察到的相互作用,但并不像其他GO注释那样是对功能的描述,因此不被认为是PAN-GO集的一部分。
Overview of the evolutionary modelling approach
进化建模方法概述
Para_01
- 我们的方法汇集了所有基因家族成员的所有实验支持的GO注释,在一个表示这些基因如何相互关联的系统发育树的背景下,生成了一个模型来解释成员是如何获得现在所具有的功能的进化过程。
- 这是一个长期以来的标准方法,用于重建物种性状或特征的进化,该方法通常应用于物种。
- 在这里,我们将类似的方法应用于基因树而不是物种树,并应用于功能特性而不是表型特征。
- 然而,建模基因功能特性涉及的主要额外挑战是实验数据稀疏且分布极不均匀。
- 根据科学和医学兴趣,基因的研究程度各不相同,这种兴趣主要集中在人类基因和少数模式生物上。
- 为了解决这一挑战,我们还使用了许多其他证据,如蛋白质结构域结构、已知活性位点残基以及UniProtKB/Swiss-Prot知识库中的自由文本功能描述等。
Para_02
- 对于每个基因家族,我们生成了一个进化模型,该模型指定了每个功能特性(由一个GO类表示)在进化过程中是如何获得或丢失的。
- 具体而言,我们用三种类型的事件来描述功能的进化:根事件、获得事件和丢失事件。
- 根事件被定义为推断存在于蛋白家族最后共同祖先(LCA)中的GO类。
- 获得事件被定义为未存在于整个家族最后共同祖先中(或无法有信心地推断其存在),而是在树上的特定分支后来出现的GO类。
- 丢失事件被定义为早先通过根事件或获得事件出现(但随后在树的特定子分支上丢失)的GO类,也就是说,在原始根事件或获得的某些后代中丢失,而不是所有后代中。
Para_03
- 每个根或获得事件必须由至少一个,但通常是多个后代中的直接实验证据支持。
- 因此,每个事件都是基于可追踪的实验证据和馆藏员对进化过程中(根或树中的特定分支)该功能首次出现的时间的推断的结合。
- 使用了证据和结论本体(ECO)57证据代码IBD(ECO:0000319‘来自生物后代推断’)来表示这种类型的证据,所有具有实验证据的基因都被存储为元数据以提供可追踪的证据链。
- 获得事件阻止GO类被特定子支系继承,这些子支系从获得事件衍生出来;损失事件的证据在下面有更详细的描述。
Para_04
- 然后使用该家族的进化模型根据树中祖先的遗传关系为每个家族成员创建推断注释:除非在树中的路径上遇到同一类别的丢失事件,否则所有子节点都将继承根节点或该类别的获得事件的GO类别。
- 因此,如果家族只有根事件,则所有家族成员将收到相同的GO注释;但如果树中特定内部分支上有任何获得或丢失事件,则注释将不同。
- 这些推断注释构成了我们在此描述的人类基因功能集合,并且可以在GO知识库中通过ECO代码‘来自生物祖先的推断’(IBA)(ECO:0000318)来识别。
- 每个IBA注释还包括以下元数据以提供可追溯的证据链:(1)注释继承自的树节点的持久标识符(注释的获得分支的根节点或终端节点);(2)用于支持根或获得事件的实验数据来源。
PAN-GO evolutionary modelling process
PAN-GO进化建模过程
Para_01
- 更详细的PAN-GO注释的生成和更新过程如扩展数据图4所示。
- 该过程包括使用PANTHER系统发育树和主要GO注释作为输入,为每个家族手动构建进化模型。
- 根据用户反馈、本体中生物学知识的变化、主要注释的变化以及PANTHER系统发育树拓扑结构的变化,进行自动和手动更新。
- 基于这些更新后的模型,每月生成更新的PAN-GO基因注释(IBA)。
- 本节将描述最终PAN-GO基因注释的形成过程中涉及的不同步骤。
Phylogenetic trees
系统发育树
Para_01
- 基因树是从PANTHER知识库获得的。
- 这里展示的PAN-GO注释集是使用2020年发布的知识库v.15.0版本生成的。
- 基因树是通过GIGA树重建算法构建的,该算法用于跨越生命之树的142种生物体中的编码蛋白质基因。
- 选择这些生物体(https://pantherdb.org/panther/speciesTree.jsp)时存在偏向性,目的是重建人类和研究较多的模式生物的基因组演化。
- 这些树与已知的物种树完全进行了协调,并且所有节点都根据事件类型(分化、基因复制和水平基因转移)以及分化节点的共同祖先物种或分支进行了注释。
- 每棵树都有一个相关的蛋白质序列比对,用于重建系统发育。
- 蛋白质序列来自UniProt参考蛋白质组资源,该资源在每个基因组中选择每个编码蛋白质基因的一个典型蛋白质序列。
Creating curated models of function evolution
创建经过精心策划的功能演化模型
Para_01
- 为了实施PAN-GO过程,我们创建了一个特定的软件工具来进行功能进化模型的手动注释,我们称之为PAINT13。
- PAINT用户界面提供了系统发育树、按本体关系结构化的实验GO注释矩阵、用来自UniProt/Swiss-Prot记录37的功能位点和Pfam资源5的域注释的多序列比对。
- 它还显示了系统发育树中每个基因的蛋白质产物的简短自由文本描述、蛋白质名称以及指向包括UniProt/Swiss-Prot和模式生物数据库的知识库页面的链接。
- PAINT使专家生物注释科学家能够将输入信息(系统发育树及其终端(叶)节点上的实验GO注释)转化为上述描述的输出进化模型。
- 关于如何构建蛋白质家族的功能进化模型的具体指南,以促进进化模型的一致性和可重复性,详细见https://wiki.geneontology.org/PAINT_User_Guide。
- 注释者也定期开会审查每个注释者的样本家族,审查和交叉检查进化模型。
- 进化模型被保存到一个关系型数据库,并可以在https://pantree.org访问和查看。
- 从模型导出的PAN-GO注释以基因注释格式(GAF)(https://geneontology.org/docs/go-annotation-file-gaf-format-2.2/)导出,并存入GO知识库。
- 它们也被包含在如UniProt-GOA59等GO注释提供者的分发数据中。
- 这些注释带有证据代码IBA,并包含有关证据或起源的元数据细节,包括继承其功能的注释树节点(表示为稳定的PANTHER树节点标识符)和提供原始实验证据的基因。
- PAINT工具的源代码可在GitHub(https://github.com/pantherdb/db-PAINT)获取。
Inspection of the phylogenetic trees
系统发育树的检查
Para_01
- PAN-GO 编纂过程的第一步包括分析系统发育树的结构,以收集关于家族进化的线索。
- 物种分化、复制和水平转移事件被密切考虑。
- 物种分化事件定义了家族的年龄以及不同分支中相关基因的分类分布。
- 这些信息有助于根据树或子树中存在的物种所知的功能来指导选择 GO 类。
- 更古老的祖先(通常导致更广泛的物种分布)可能会导致更为保守的注释,因为重建古老功能存在不确定性。
- 树还可以为识别功能进化事件提供其他重要线索。
- 复制事件被仔细检查,因为这些事件常常会导致功能的获得和/或丧失。
- 水平基因转移事件也被仔细评估,这包括一些来自原始细菌共生体的真核生物线粒体或质体基因,因为转移后的基因可能已经改变了功能特性。
Application of taxonomic restrictions
分类限制的应用
Para_01
- 由于生物种类的多样性,不可能用一个与分类无关的本体覆盖所有物种,并且在GO本体的许多分支中存在固有的分类特异性。
- 一个典型的例子是细胞组分‘线粒体’,它是真核生物特有的。
- 显式形式化分类约束用于避免分类不适当的注释。
- PAINT注释工具在构建进化模型时会突出显示分类约束和注释之间的任何不一致。
Analysis of the experimental evidence
实验证据的分析
Para_01
- 对所有可用实验数据的分析使得可以选择在基因家族的进化模型中使用的最相关类别。
- 一个重要的指标是与系统树中代表的不同物种的各种成员相关的MF、BP和CC类的一致性。
- 如果相关基因的一个分支中的注释是一致的,那么它们很可能从其LCA继承了这些功能方面,这表明这些功能在LCA之前已经进化。
- 如果不一致,策展人试图识别出进化出不同功能或获得或失去功能的一致亚分支。
- 评估在本体结构中未明确关联的GO类之间的致性具有挑战性,通常需要策展人具备深厚的生物学知识。
- 为了决定哪些类别适合与蛋白质家族的成员相关联,PAN-GO策展人使用额外的资源:他们可以通过PAINT工具提供的直接链接审查模式生物数据库或UniProtKB/Swiss-Prot(https://www.uniprot.org)的内容。
- 策展人经常评估额外的参考资料以确认或否定某些数据。
- 最后,特定预测位点和域(活性位点、跨膜区或蛋白质域)的存在可能为特定功能沿着树中的特定分支进化提供更多支持。
Selection of the most informative annotations
最具有信息量的注释选择
Para_01
- 原则上,对于每个通过实验证据被至少一个家族成员注释的GO类,在PAN-GO注释过程中可以产生一个进化根或获得事件。
- 然而,在实践中,这些GO类之间常常存在大量的冗余和重叠,并不是所有术语都代表实际上不同的功能特性。
- 因此,PAN-GO注释过程是选择性的。
- 我们提供了下面的一些例子。
- 为了定量估计这种选择性,我们计算了每个家族中非冗余功能类的数量(即排除了在本体中更一般类别的注释)。
- 这些是非冗余功能类,它们在该家族的进化模型中可能被使用。
- 然后,我们计算了在本体每个方面实际用于进化模型的类的数量。
- 扩展数据表2显示了所有家族这些值的平均数。
- 平均而言,只有24%、28%和13%的实验注释MF、CC和BP GO类分别被注释为根或获得事件。
- 通常,这种高度的选择性是由于该过程的综合性:考虑了所有家族成员的所有实验GO注释作为一个整体。
- 相比之下,实验GO注释旨在捕捉来自单篇论文报道的特定实验发现。
- 结果,PAN-GO注释员可以从实验注释中选择最能说明问题的GO类,并识别出不同的实验注释可能与同一基本功能有关。
- 通常,功能相关的术语在本体中也是相关的(PAINT工具将层次相关术语组合在一起,以便于选择过程)。
- 然后,注释员可以区分家族成员之间表面上的功能差异和实际的功能差异。
- 扩展数据表2显示,PAN-GO注释过程导致选择相对较少比例的GO生物过程类与其他GO本体的其他方面相比。
- 这在一定程度上是因为本体中的生物过程分支的复杂性(约30,000类与MF和CC各自不到10,000类相比),部分原因是参与过程的标准不如其他方面的严格。
- 许多被排除的类别要么是相关的但信息量较少的类别,要么是基因主要功能的下游效应,如外围功能或表型以及读数,这些表型和读数代表了基因功能的后果,但并不能准确描述功能本身。
Para_02
- BP类选择的一个例子如扩展数据图5a所示:细胞质模式识别受体信号通路的调控是各种白细胞介素的生产和下游靶点转录的观察(实验读数)。
- 同一基础功能的主要注释经常使用相关但不完全相同的GO类的原因有几个:主要注释在空间和时间上都是分散的,而且通常每种物种由不同的注释者处理。
- 此外,一些功能特性(GO术语)在少数物种中很重要,但对于纳入进化模型来说过于具体。
- 此外,从主要注释所依据的文章中使用的术语差异很大。
- 仅由大规模实验(通常是细胞定位)的数据支持或与家族所有其他可用数据不一致的主要GO注释将被搁置,直到有其他注释的强有力支持为止。
Para_03
- 在许多情况下,父类和子类(表示功能特征的较不具体的表现形式)都被用于整个家族的主要注释,但在PAN-GO过程中只选择了最相关的那些(扩展数据图5b):GO术语‘先天免疫反应的调节’和‘细胞对病毒的反应’是更普遍的概念‘抗病毒先天免疫反应’的更一般类别,这更能代表家族中基因的功能。通过整合分析家族及其主要注释,PAN-GO策展人能够选择最适合包含在进化模型中的类别(或类别组合)。
Para_04
- 正如‘三个盲人摸象’的寓言,主要注释描述了单独的实验观察,通常是正确的,但有时只能讲述故事的一部分。
- PAN-GO 编纂的目标是在可能的情况下提供一个更集成的画面,同时仍然提供一套全面的 GO 功能注释。
Capturing loss of function and preventing inheritance of low-confidence annotations
捕获功能丧失并防止低置信度注释的遗传
Para_01
- 功能丧失基于可用的具体类型的证据。
- 在某些情况下,负面的主要GO注释(由NOT限定符指示)是可用的,在这种情况下,损失事件(如根和获得事件)使用IBD证据代码。
- 在其他情况下,当重要的残基或结构域已知对功能是必需的时候,多序列比对可以揭示在某些分支中这些重要特征的缺失,并提供功能丧失的证据;这些被标记为‘从已知残基推断’(IKR)(ECO:0000320)证据代码。
- 由于特定氨基酸(如活性位点残基)突变导致的功能丧失在一些家族中已有充分记录(例如,PTHR24418,非受体蛋白激酶家族)。
- 对于基因相对研究得较好的家族,通常可以通过缺乏支持性的GO注释来推断该功能已经丧失;在这种情况下,策展人会检查UniProtKB/Swiss-Prot知识库以及文献以提高此类推断的信心。
- 在研究较少的家族(即,实验性GO注释稀少)中,策展人可能会决定引入一个损失(特别是在基因复制后),以避免假阳性注释。
- 这些事件由‘从快速分化推断’(IRD)(ECO:0000321)证据代码表示。
- 此步骤的主要目的是在PAN-GO推断过程中保持保守,以确保产生的注释集的质量。
- 应该注意的是,用IBD或IKR标记的损失事件会产生负面的GO注释(表明基因不具有给定的功能特性),这些注释可在GO知识库中找到。
- 然而,为了清晰起见,我们在https://functionome.geneontology.org上提供的人类基因功能的PAN-GO集中不包括负面注释,这些注释仅出现在进化模型中。
Annotations for genes that were not in a PANTHER family
注释那些不在PANTHER家族中的基因
Para_01
- 有 994 个人类基因目前不在 PANTHER 家族中,这些基因主要编码短蛋白,其中许多没有表现出明显的进化保守性。
- 这些基因中只有 114 个具有主要注释。
- 在这 114 个基因中,我们能够选择信息丰富的主注释,并将其包含在 PAN-GO 人类基因功能集合中。
- 对于这 114 个基因中的 61 个,我们能够选择信息丰富的主注释,并将其包含在 PAN-GO 人类基因功能集合中。
Staying current with evolving knowledge
跟上不断发展的知识
Para_01
- 随着基因本体论(GO)术语和主要基因注释不断根据新的实验数据和解释进行扩展和修订,PAN-GO过程包括在每次新的GO知识库发布(大约每月一次)或每次新的PANTHER发布(每年一次)后进行自动更新和发布步骤。
- 此外,来自GO策展人和更广泛的GO用户社区的反馈所发现的问题会导致对祖先注释(或者,在非常罕见的情况下是树)进行适当的手动审查。
- PAN-GO项目开发了一套广泛的软件工具来支持这些更新和改进。
Addressing changes to GO classes and annotations
关于GO类和注释的变更
Para_01
- 每月自动化更新步骤在每次新的 GO 知识库发布后进行,处理由于本体类(术语)或实验性 GO 注释的变化所需的任何操作,这些变化曾作为进化模型中功能演化事件的证据。
- 这些操作包括对已废弃和合并类别的更新,以及移除任何不再由实验数据支持或不符合分类单元限制的注释。
Para_02
- 进化模型也会根据新实验数据和后续主要GO注释的可用性进行更新,因为新的类别和新的注释不能自动集成,而是需要通过人工分析实验证据。
- 例如,在对与转录相关的本体进行全面审查期间,创建了类别‘组蛋白伴侣活性’,并且主要注释被修订。
- 这个新类别被用来更新适用的PANTHER家族的进化模型,如PTHR21315或PTHR12040。
Addressing updates to the topology of phylogenetic trees
关于系统发育树拓扑结构的更新
Para_01
- 系统发育树在发布新的PANTHER版本后进行了更新,基于UniProt参考蛋白组和Quest for Orthologs项目的年度蛋白质序列数据发布。
- PAN-GO进化模型直接引用稳定的树节点标识符;也就是说,每次获得和丢失事件都与该事件发生分支末端节点的标识符相关联。
- 只要可能,树节点标识符在PANTHER的不同版本之间保持不变,因此那些分支上的PAN-GO注释被保留在PANTHER树的新版本中。
- 然而,树重建算法的改进以及更多物种的加入有时会导致家族结构的修改:一些家族可以拆分成几个较小的家族或合并成一个较大的家族。
- 因此,某些分支可能会从一个家族移动到另一个家族或者丢失。
- 当这种情况发生在已被PAN-GO进化模型注释的分支上时,受影响的家族将添加‘需要审查’的通知,并且策展人会在必要时审查和修订进化模型。
Addressing user feedback
处理用户反馈
Para_01
- 来自几个模式生物数据库的专家的广泛反馈允许在PAN-GO进化模型中增加一个额外的质量控制层。
- 反馈是通过GitHub中的GO注释问题跟踪器处理的(https://github.com/geneontology/go-annotation/labels/PAINT%20annotation)。
- 反馈票证的最大贡献者是PomBase,Schizosaccharomyces pombe(裂殖酵母)的科学资源(https://www.pombase.org/)62,它提出了近600个更新请求。
- 其次是FlyBase,Drosophila melanogaster(果蝇)的科学资源(https://flybase.org/)63,在七年期间提供了超过200个更新请求。
- 果蝇物种的基因组包含许多或多或少古老的重复事件的痕迹,这也有助于更好地理解整个系统发育树中的这些事件,并有助于改进我们对功能获得或丧失的进化模型。
- GO联盟中的其他资源,包括模式生物数据库和UniProtKB,也参与了注释验证(总计100个更新请求)。
Analysis methods
分析方法
Accessing and using the human PAN-GO annotations
访问和使用人类PAN-GO注释
Para_01
- PAN-GO 注释用于此处展示的分析可以从 https://functionome.geneontology.org/download/functionome_release.gaf.gz 下载。
- ,
Estimating the reliability of PAN-GO annotations
估计PAN-GO注释的可靠性
Para_01
- 没有绝对的真理来源使我们能够评估GO注释的正确性。
- 为了解决这个问题,之前提出了一种称为‘可靠性’的替代度量标准,该标准可以用于计算GO注释。
- 这种度量方法利用了GO注释随着时间的推移被添加和删除的事实,并且可以在不同的时间点进行比较,以计算较旧注释的可靠性。
- 具体来说,如果后来在GO知识库中添加了一个实验注释,该注释与较旧注释相同或更具体,则认为较旧注释得到了确认。
- 相反,如果后来在GO知识库中添加了一个实验注释,使用了NOT限定符(表示已经证明基因不具有该功能特性),并且该注释与较旧注释相同或更不具体,则认为较旧注释被拒绝。
- 由于NOT注释在GO知识库中很少见,因此实际上被拒绝的注释数量很低,从而导致可靠性被高估。
- 先前的研究建议还可以计算另一个属性,即后来被删除的较旧注释的数量,基于假设它们后来被认为是错误的。
- 然后他们定义可靠性为:
Para_02
- Nconfirmed 是在较早版本(时间点 t0)的一个注释集中存在的 GO 注释数量,在时间点 t1 之前被后来确认的数量,Nrejected 是在时间点 t0 存在但在时间点 t0 和 t1 之间被拒绝的 GO 注释数量,Nremoved 是在时间 t0 和 t1 之间被移除的数量。
Para_03
- 我们使用这种方法计算了PAN-GO注释的可靠性。
- 我们首先从GO知识库中收集了2019年10月至2022年3月间的所有主要注释,使用了每个注释上的日期戳。
- 然后,我们将它们与GO知识库2019年10月版本中的PAN-GO注释进行了比较。
- 比较包括了对同一组4,007个人类基因的11,102个新的主要注释和21,145个PAN-GO注释。
- 如果新主要注释中的GO类别与PAN-GO注释中的相同或更具体,则认为该PAN-GO注释被确认。
- 根据这一定义,共有1,608个基因的2,354个PAN-GO注释被确认。
- 扩展数据表3显示了通过证据代码确认的主要注释的细分;大多数这些注释来源于对特定基因产物的直接测定(IDA),只有29个来自高通量研究(HDA)。
Para_04
- 在新的实验注释中,有54个否定(NOT限定词)注释,其中只有三个与PAN-GO注释不一致。
- 审查了这三个否定注释后,我们发现其中一个特定于一种蛋白质异构体,但不是由基因编码的规范蛋白质(因此PAN-GO注释是正确的),其余两个针对同一个转运蛋白基因,并指锌作为底物(SLC30A10 NOT ‘锌离子跨膜转运酶活性’,和SLC30A10 NOT ‘细胞内锌离子稳态’)。
- 然而,其他论文(支持其他主要GO注释)已经证明了SLC30A10具有相同的这些功能,从而证实了PAN-GO注释。
- 因此,没有否定的GO注释可以被认为是拒绝PAN-GO注释的。
- 我们认识到54个否定注释是一个小样本,这将低估实际的PAN-GO错误率。
- 根据先前描述的方法38,我们也检查了出现在我们2019年10月发布的PAN-GO注释,但后来被移除的注释。
- 我们发现有4,809个PAN-GO注释被移除,但在大多数情况下,注释被移除是因为与其他更信息丰富的PAN-GO注释冗余(注释集的微调),而不是因为错误。
- 为了估计错误率,我们审查了一组随机抽取的500个被移除的注释,并将每个注释分类为正确但不符合PAN-GO选择标准(所选注释模型的微调)、错误(进化模型中实验注释的选择实际上是错误的)或不确定(在同源物中得到证明,但可能对注释的人类基因错误)。
- 我们发现其中有7个(1.4%)是错误的,20个(4%)是不确定的。
- 假设这些百分比大致适用于整个被移除的注释集合,我们估计有67个(因为错误而被移除,4,809 × 1.4%)到260个(因为错误或不确定而被移除,4,809 × 5.4%)被移除是因为错误。
- 这将使PAN-GO注释的可靠性(如上所述公式(1))在90%(260 /(2,354 + 260))到97%(67 /(2,354 + 67))之间。
Para_05
- 一个明显的错误PAN-GO注释出现在肉毒碱O酰基转移酶家族(PTHR22589)中。
- 与CPT1A和CPT1B直系同源物不同,CPT1C在线粒体中没有‘肉毒碱O棕榈酰转移酶活性’,而是定位在内质网中,在那里它表现出‘棕榈酰-(蛋白质)水解酶活性’。
- 这种由于古老复制事件而错误推断功能保守性的类型,以及因此导致的进化建模错误,是我们审查过程中发现的最常见的错误之一。
- 当发现此类错误时,PAN-GO进化模型会被更新以纠正错误。
Para_06
- 相对频繁的情况是PAN-GO注释的重要微调,这涉及到BP的GO术语与相应过程调控的GO术语之间的有时微妙的区别。
- 通常,从实验得出的主要注释(通常是基于基因操作如删除的效果)使用调控术语。
- 然而,其他实验可能显示该蛋白直接参与了该过程(导致对过程本身的注释而不是对其调控)。
- 我们更新了几项PAN-GO注释(在我们500个样本中的5项)以一致地反映参与过程与调控过程的区别。
- 其他常见的更新是由于酶复合物主要注释到GO术语‘复合体组装’的一致性问题(在我们的随机500个样本中有10项),我们认为这是微调,因为即使不具高度信息量,它们也是正确的。
Broad functional categories on the PAN-GO website
PAN-GO网站上的广泛功能分类
Para_01
- 为了便于浏览PAN-GO注释,并在图3中可视化人类基因功能的全景,我们将每个注释映射到一组选定的相对较高层次的GO类别。
- 广泛的功能类别取自通用GO子集,该子集可在https://release.geneontology.org/2022-07-01/ontology/subsets/goslim_generic.obo获取。
- 请注意,这些是注释的类别,而不是基因,因此一个被多个不同的GO术语注释的基因可能会出现在多个类别中。
- 还请注意,其中一些广泛的类别是其他类别的子类别;在这种情况下,基因仅被分配到更具体的子类别,而不是更一般的类别,以尽量减少类别之间的重叠,从而便于可视化和浏览。
PAN-GO annotation browser
PAN-GO注释浏览器
Para_01
- 我们开发了一个简单的基于网络的工具来探索人类基因功能的集合,包括所有实验证据和系统发育树的链接。
- 它使用ElasticSearch实现,并可在https://functionome.geneontology.org/获取。代码可以从GitHub (https://github.com/pantherdb/pango) 获取。
Contributions of experimental evidence from model organism annotations
模式生物注释的实验证据贡献
Para_01
- 主要的GO注释(由已发表的实验证据支持)用于所有PAN-GO注释。
- 我们详细描述了每个模型生物体中的这种证据(扩展数据表1)。
- 第2列报告了支持一个或多个具有该生物体中基因功能实验证据的出版物的PAN-GO注释的数量。
- 来自人类基因实验的证据分为两行:一行是给定基因的直接证据,另一行是相关(旁系同源)人类基因的证据。
- 第3列报告了仅由旁系同源基因(即,排除任何对人类基因有直接实验证据的PAN-GO注释)的实验证据支持的PAN-GO注释数量。
- 这些注释是从其他人类旁系同源物或其他非人类同源物推断出来的,但尚未经过实验验证。
- 第4列统计了仅基于非人类实验数据的PAN-GO注释数量。
- 第5列统计了仅基于单一物种证据的PAN-GO注释数量。
- 第6列统计了每个生物体中所有可能作为人类PAN-GO注释文献证据的实验注释数量。
Evolution of gene functions
基因功能的演变
Para_01
- 对于每个PAN-GO注释,我们检索了被建模为获得该功能特征的进化树分支,代表该特征首次在人类基因祖先中演化出来的时间。
- 由于系统发育方法根据现生物种的最近共同祖先(LCAs)定义祖先,我们的进化模型指定了这两个LCAs之间的间隔,在此期间该功能特征演化出来。
- 已经确定了每个这些LCA的大致时间67,因此我们可以将LCA间隔转换为时间间隔。
- 例如,如果一个人类基因现在具有的基因功能特征最初出现在从真核生物和古菌的最近共同祖先(大约42.5亿年前)到植物和动物的最近共同祖先(真核生物的最近共同祖先,大约15.98亿年前)的分支上,则该功能首次演化于42.5亿年到15.98亿年前之间,并且在至少16亿年的过程中从父母传给子女直至现代人类都没有变化。
Reporting summary
报告摘要
Data availability
Para_01
- PAN-GO 浏览器:https://functionome.geneontology.org。
- PAN-GO 注释:https://functionome.geneontology.org/download/functionome_release.gaf.gz。
- 进化模型:https://pantree.org,https://functionome.geneontology.org/download/IBD.gaf。
- 系统发育树:https://data.pantherdb.org/ftp/panther_library/15.0/。
Code availability
Para_01
- 以下代码和软件可从GitHub获取:网站代码,https://github.com/pantherdb/pango;以及PAINT软件(用于构建进化模型),https://github.com/pantherdb/db-PAINT。