KEGG: Kyoto Encyclopedia of Genes and Genomes
KEGG 是一个数据库资源,旨在通过基因组和分子层面的信息来理解生物系统(如细胞、有机体和生物圈)的高级功能与效用。它是一个生物系统的计算机模型,由基因和蛋白质的分子构建模块(基因组信息)与化学物质(化学信息)组成,这些元素通过相互作用和反应网络的分子线路图(系统信息)进行整合。KEGG 模型还包含以受扰动分子网络形式呈现的疾病和药物信息(健康信息)。
KEGG 数据库是一个综合性数据库,除了我们熟知的 KEGG PATHEAY, 其实一共有 16 个数据库。分为四个大类。
Category | Database | Content | Color |
---|---|---|---|
Systems information(系统信息) | KEGG PATHWAY | KEGG pathway maps | |
KEGG BRITE | BRITE hierarchies and tables | ||
KEGG MODULE | KEGG modules and reaction modules | ||
Genomic information(基因组信息) | KEGG ORTHOLOGY (KO) | Functional orthologs | |
KEGG GENES | Genes and proteins | ||
KEGG GENOME | KEGG organisms and viruses | ||
Chemical information(化学信息) | KEGG COMPOUND | Metabolites and other chemical substances | |
KEGG GLYCAN | Glycans | ||
KEGG REACTION KEGG RCLASS | Biochemical reactions Reaction class | ||
KEGG ENZYME | Enzyme nomenclature | ||
Health information(健康信息) | KEGG NETWORK | Disease-related network variations | |
KEGG VARIANT | Human gene variants | ||
KEGG DISEASE | Human diseases | ||
KEGG DRUG KEGG DGROUP | Drugs Drug groups |
KEGG PATHWAY 是一个手工绘制的通路图谱集合,展示了以下领域的分子相互作用、反应及关系网络知识:
1. Metabolism 2. Genetic Information Processing 3. Environmental Information Processing 4. Cellular Processes 5. Organismal Systems 6. Human Diseases 7. Drug Development
每个通路图都有一个特定的编号,比如 [hsa00010](https://www.kegg.jp/entry/hsa00010)
,每个通路图由 2-4 个字母的前缀代码和 5 位数字组合标识组成。PATHWAY 数据库除了有特定生物的特有图谱,还有很多非物种特异性图谱,也对应不同的通路标识符。
hsa
代表人类(Homo sapiens),mmu
代表小鼠(Mus musculus)。KEGG MODULE 数据库是 KEGG 模块的集合,这些模块是人工定义的基因集功能单元。每个模块由 M 编号标识,并通过 K 编号的逻辑表达式进行定义。模块主要分为两种类型。
反应模块则是从纯化学数据(即通过分析代谢通路中的化学结构转化模式)定义而来,不包含任何酶数据。反应模块是由一组反应类别标识符(RC 编号)定义的化学结构转化模式的保守序列。
KEGG NETWORK 代表了 KEGG 在从受扰分子网络角度捕捉疾病与药物知识方面的新尝试。该系统通过由网络元素(如 N00014)构成的网络变异图谱(如 nt06210)来积累分子相互作用/反应网络的变异情况。网络变异图谱的标注规则如下。
Network element | Coloring |
---|---|
Reference network | Green |
Variant network containing Human gene variant Pathogen gene/protein Environmental factor | RedPurpleBlue |
Drug-target relation | Navy |
Edge | Interaction/reaction |
---|---|
→ | Activation |
⊣ | Inhibition |
= | Complex formation |
⌿ | Missing interaction or reaction |
⇒ | Expression |
⫤ | Repression |
— | Substrate binding to enzyme or transporter |
→ | Enzymatic reaction or transport process |
⇉ | Enzyme-enzyme relation of successive reactions |
以经典的三羧酸循环展开讨论。这个通路的参考通路图序列标识号是 [map00020](https://www.kegg.jp/entry/map00020)
。
每一栏的意义具体如下:
Entry 条目 | KEGG PATHWAY 数据库是手工绘制的图形化分子通路图(KEGG 通路图谱)及相关文本信息(KEGG 通路条目)的集合,涵盖代谢、遗传信息处理、环境信息处理、其他细胞过程、人类疾病及药物开发等领域。每条通路均由五位数编号标识,前缀为以下之一:map(通用代谢图)、ko(KEGG 直系同源组)、ec(酶分类号)、rn(反应编号)或三/四字母生物体代码。 |
---|---|
Name 名称 | 通路名称后接特定生物体通路对应的生物体名称 |
Description 描述 | 对通路图中所示生物过程的简要概述 |
Class 类别 | KEGG 通路图的分类体系,点击"BRITE 层级"链接可见,这是 KEGG 直系同源(KO)系统的基础 |
Pathway map *通路图 | 对应的 KEGG 通路图谱。当查看参考通路(ko)条目时,会出现"所有生物体"和"直系同源表"链接,这些链接有助于了解每个通路节点在完整基因组中的基因保守程度,以及 KEGG 基因组注释的完整性。 |
Module 模块 | 构成该通路的 KEGG 模块(仅限完整模块)。 |
Network 网络 | 构成该通路的 KEGG 网络。 |
Disease 疾病 | 当该通路中的基因已知与疾病相关时,链接至 KEGG DISEASE 数据库。 |
Drug 药物 | 当该通路中的基因产物已知为药物靶点时,链接至 KEGG DRUG 数据库。 |
Other DBs 其他数据库 | 外部数据库链接 |
Organism 生物体 | 特定生物通路对应的生物体名称 |
Orthology直系同源 Gene基因Enzyme酶 Reaction反应 | 基因和蛋白质的路径节点列表(路径图中的方框)。对于参考路径,它们是 KO 组、酶或反应;对于特定生物体的路径,则是基因。 |
Compound 化合物 | 化学物质通路节点列表(通路图中的圆圈表示) |
Reference 参考文献 | 用于手工绘制通路图的原始参考文献。该字段仅出现在 KO 通路条目或 DRUG 图谱条目中。 |
Related pathway 相关通路 | 从本条目链接的通路列表 |
KO pathway KO 通路 | 链接至相应的 KO 通路条目。 |
LinkDB 链接数据库 | 此字段中的"所有数据库"按钮可检索 LinkDB 系统中所有可用的相关数据库条目链接。在 GenomeNet 中该字段不会显示;实际链接列表将显示在右侧。 |
[map00020](https://www.kegg.jp/entry/map00020)
的 kegg pathway map 图如下所示:
map 前缀开头的 pathway map 属于手绘的通用通路,不特定于任何物种,所以并不是所有物种都有图中所包含的分子物质。因此可以选择不同的物种进行整体查看。比如三羧酸循环,map 通路标识符是 [map00020](https://www.kegg.jp/entry/map00020)
, 人源通路标识符是 [has00020](https://www.kegg.jp/entry/hsa00020)
, 鼠源通路标识符是 [mmu00020](https://www.kegg.jp/entry/mmu00020)
。
可以在 map 通路标识符这个模板上选择不同的物种进而查看,"更改通路类型"按钮用于修改前缀,但不同于打开新窗口的操作方式,该按钮作为通路图显示主面板的控制面板使用。除可修改单一物种代码外,还支持输入多个物种代码进行组合或比对。全局图谱可接受一个额外代码实现双物种三色显示,而常规图谱则支持更多代码的分色显示,同时保留对两个物种进行三色显示的选项(参见色彩代码说明)。
这里选择选择对应的物种:hsa, mmu:
当你选择特定物种后,显色块和不显色块代表了该基因/酶是否存在于该物种的参考基因组注释中。其中绿色代表了 hsa, 红色代表了 mmu。
所有常规图谱均采用下图所示的标准图例进行绘制。
KEGG BRITE 是 KEGG(京都基因与基因组百科全书)数据库中的一个层次化功能分类系统,用于对生物分子、通路、疾病、药物等生物信息进行结构化组织。它通过树状层级结构整合了 KEGG 的所有子数据库(如 PATHWAY、GENES、LIGAND 等),提供跨物种的统一功能注释框架,是基因功能注释、代谢通路分析和生物系统建模的核心工具。
包括五大分类:
1. Genes and Proteins 基因与蛋白质 2. Compounds and Reactions 化合物与反应 3. Drugs 药物 4. Diseases 疾病 5. Organisms and Viruses 生物体与病毒
比如使用 gltA
(柠檬酸合酶),进行搜索就可以看到其所在的层级结构。
KEGG Orthology (KO) [BR:ko00001]
Metabolism
Carbohydrate metabolism
Citrate cycle (TCA cycle) [PATH:ko00020]
K01647 CS, gltA; citrate synthase [EC:2.3.3.1]
Glyoxylate and dicarboxylate metabolism [PATH:ko00630]
K01647 CS, gltA; citrate synthase [EC:2.3.3.1]
Enzymes [BR:ko01000]
2. Transferases
2.3 Acyltransferases
2.3.3 Acyl groups converted into alkyl groups on transfer
2.3.3.1 citrate (Si)-synthase
K01647 CS, gltA; citrate synthase [EC:2.3.3.1]
使用这个数据库,可以找到关注基因的同源基因,也可以查找抗癌药物的靶点基因。
KEGG MODULE 数据库是 KEGG 模块的集合,这些模块是人工定义的基因集功能单元。每个模块由 M 编号标识,并通过 K 编号的逻辑表达式进行定义。模块主要分为两种类型。
KEGG Orthology (KO) 数据库是一个用于描述分子功能的数据库,基于功能上的相似性将基因和蛋白质分成组。每个功能组都有一个特定的 KO 标识符,称为 K 号。这些功能组是通过分析 KEGG 的分子网络(如代谢通路图、BRITE 层次结构和 KEGG 模块)手动定义的。大多数 KO 是从特定生物体中经过实验验证的基因和蛋白质中定义出来的,然后根据序列相似性推广到其他生物体。KO 的“功能”定义是根据具体情况而定的,可能是一个在有限生物体组中高度相似的序列群,也可能是一个更具多样性的群体。换句话说,KO 帮助我们理解不同生物体中基因和蛋白质的相似功能。
KEGG GENES 数据库是细胞生物和病毒完整基因组中基因与蛋白质的集合,其数据主要来源于 NCBI RefSeq 和 GenBank 等公开资源,并通过 KEGG 以 KO(KEGG 直系同源)分配形式进行注释。该集合还补充了 KEGG 从已发表文献中整理的功能特征明确的蛋白质原始数据集。所有 GENES 条目中的蛋白质序列和 RNA 序列均需经过 SSDB 计算,并通过 KOALA 工具完成 KO 分配。
KEGG GENOME 是一个收集完整基因组序列的生物体的数据库。每个生物体都有一个特定的三或四个字母的代码来标识它。此外,KEGG GENOME 还包含从 RefSeq 数据生成的病毒集合,每个病毒通过病毒分类标识符 (vtax) 来识别。简单来说,KEGG GENOME 就是一个汇集了各种生物体和病毒基因组信息的数据库,用于帮助研究人员进行基因组相关的研究。
KEGG Virus 是一个用于病毒与细胞生物整合分析的资源库。它隶属于 KEGG 中的 GENES、KO、GENOME、BRITE、PATHWAY、MODULE、NETWORK、DISEASE 和 DRUG 数据库体系。该资源还包含通过计算生成的病毒直系同源群组(VOG)数据集。
KEGG Organisms 专门用于收录那些拥有完整基因组序列的生物体。每个生物体在数据库中都有一个独特的三或四个字母的代码,用来标识它。这些生物体的基因组信息被用于 KEGG 的各种分析工具和数据库中。
KEGG COMPOUND 是 1995 年 KEGG 项目启动时与 KEGG PATHWAY、KEGG GENES 和 KEGG ENZYME 共同建立的四大原始数据库之一。该数据库收录了与生物系统相关的小分子、生物聚合物及其他化学物质。每个条目均以 C 编号标识(如 L-赖氨酸对应 C00047),包含化学结构及相关信息,以及与 KEGG 其他数据库和外部数据库的多种链接。
KEGG 糖链数据库是糖链结构的集合,最初于 2003 年通过从 CarbBank 中提取独特结构创建而成。此后,该数据库基于已发表材料(特别是 KEGG 通路中存在的结构)进行了扩展。每个结构由 G 编号标识,例如唾液酸路易斯 X 的编号为 G00242。
KEGG REACTION 是一个化学反应数据库,主要包含酶促反应,收录了所有出现在 KEGG 代谢通路图中的反应以及仅出现在酶命名中的附加反应。每个反应通过 R 编号进行标识,例如 L-谷氨酸乙酰化反应编号为 R00259。这些反应与 KO 数据库定义的酶 KO 相关联,实现了基因组(酶基因)与化学物质(化合物对)信息的整合分析。
KEGG ENZYME 专门收集和整理各种酶的信息。酶是生物体内加速化学反应的蛋白质。这个数据库提供了每种酶的分类、功能和参与的生物化学反应的信息。研究人员可以使用 KEGG ENZYME 来了解特定酶在代谢路径中的角色,以及如何与其他分子相互作用。
KEGG NETWORK 旨在通过分子网络的变化来理解疾病和药物的作用。它收集了分子相互作用和反应网络的不同变化形式,并以网络变化图的形式展示。这些图显示了网络中的不同元素及其变化,帮助研究人员看到在疾病状态或药物影响下,分子网络是如何被扰动的。
KEGG 疾病数据库收录各类疾病条目,每个条目包含人类疾病基因和/或病原体列表。这些干扰因素如何影响分子网络的详细信息以网络变异图谱的形式呈现在 KEGG 网络数据库中。KEGG 疾病数据库曾包含环境因素条目,现仅当具备分子层面信息时才将其归入 KEGG 网络数据库。每个疾病条目由 H 编号标识(例如脊髓性肌萎缩症条目 H00455),并可能包含指向网络变异图谱的链接。治疗药物信息显示在 Drug 字段中:美国 FDA 药品标签中标注的药物出现在英文版,日本药品标签标注的药物则出现在日文版。
KEGG DRUG 是一个综合性的药品信息资源,收录日本、美国和欧洲已获批药物,以活性成分的化学结构和/或化学成分进行统一整合。每个 KEGG DRUG 条目通过 D 编号标识,并与 KEGG 原创注释相关联,包括治疗靶点、药物代谢及其他分子相互作用网络信息。
KEGG MEDICUS 是一个旨在将基因组学革命成果带给社会的健康信息资源。它整合了 KEGG NETWORK/DISEASE/DRUG 数据库(KEGG 的健康信息类别)以及日本和美国的药品标签。