首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Metascape一键富集,真香

Metascape一键富集,真香

作者头像
小洁忘了怎么分身
发布2026-03-03 18:02:30
发布2026-03-03 18:02:30
60
举报
文章被收录于专栏:生信星球生信星球

今天是生信星球陪你的第1071天

0.背景

作为一只资深的R语言讲师,我们做富集分析从来都是ClusterProfiler伺候。因为与R语言其他分析的完美衔接,也因为Y叔超强的开发能力和独特的人格魅力。

之前也有学生提过要我在课上讲点网页工具,我觉得没有意义。因为网页工具没有门槛,自己探索一下不就会啦,干啥要花钱学?现在我的观点改变了。AI写代码的能力肉眼可见地遍强,从前高大上的代码,门槛也降低了,我们的重点应该从代码转向生信工具与具体研究的衔接,尤其是看看这些网页工具返回的结果都有什么亮点,真香现场。

剧透一下,我们又在筹备新课了,是一篇13分的文章复现。其中用到了Metascape,觉得还不错,所以写文介绍一下它。

Metascape 于 2019 年在 Nature Communications 发表,文章题为 "Metascape provides a biologist-oriented resource for the analysis of systems-level datasets",是很受欢迎的富集分析工具,在CNS文章中也有应用。

Metascape的优点

1.简单易用

将基因列表粘贴到输入框,点击“Express Analysis”按钮,即可一键启动全套分析流程。

2.月度更新

Metascape 坚持对其集成的 GO、KEGG、Reactome 等 40 多个主流知识库进行月度更新,确保用户的分析结果永远基于最新的科学发现,避免了许多工具因常年不维护而产生误导性结果的风险。

3. 支持多列表 Meta 分析

Metascape 的名称来源于 "Meta-analysis"(元分析)。它支持同时分析多个基因列表,通过直观的热图(Heatmap)展示不同实验组之间共享的与特有的生物通路。

4. 发表级的输出图表 Metascape 的分析报告完全模仿科研论文的格式,图文并茂,并详细阐述了分析方法。

图片提供pdf、png以及画图数据, 表格提供Excel格式,蛋白互作网络文件提供cys格式,还有个丑萌的ppt。可以一键打包下载

1.通路富集分析

Figure 1. Bar Graph Summary

条形图,展示了多个数据库的去除冗余后的富集结果。

1. GO 开头的条目(例如 GO:0045071)

对应 Gene Ontology (GO) 数据库。这是一个生物信息学领域最基础的资源,致力于建立一套标准的词汇表来描述基因产物的特性。Metascape 的富集分析主要侧重于其中的生物学过程(Biological Process),用于描述基因参与的广泛生命活动,如细胞周期、免疫反应等。

2. R-HSA 开头的条目(例如 R-HSA-9909505)

对应 Reactome 数据库。这是一个经过专家人工审阅的开源生物通路数据库。与 GO 相比,它更侧重于详细的分子反应流程,展示信号转导和代谢反应的具体步骤,通常能提供比 GO 更具体的分子机制信息。

3. WP 开头的条目(例如 WP5218)

对应 WikiPathways 数据库。这是一个由社区维护、开放协作的生物通路数据库。它的特点是更新速度极快,往往能第一时间收录最新的疾病相关通路(如 COVID-19 相关机制),弥补了传统数据库更新滞后的短板。

4. hsa 开头的条目(例如 hsa05170)

对应 KEGG Pathway 数据库。这是一个经典的生物通路数据库,以人工绘制的通路图闻名。它将基因组信息与功能信息(如代谢、细胞过程、人类疾病)联系起来,非常适合用于理解基因在上下游信号网络中的位置。

5. M 开头的条目(例如 M255)

对应 MSigDB (Molecular Signatures Database) 中的 Canonical Pathways 集合。这是一个整合型数据库,汇聚了来自 PID、BioCarta 等多个来源的经典信号通路。它主要用于识别已经被广泛验证的信号级联反应和转录因子调控网络。

6. M 开头的条目(例如 M41711)

在“Cell Type Signatures”分析板块中,M 开头的 ID 对应 MSigDB C8 集合,即细胞类型特征数据库。这是一个基于大量单细胞测序数据构建的资源。它收录了特定细胞类型的标记基因集,用于预测样本中可能富集的细胞成分,是解析组织异质性的利器。

7. TRR 开头的条目(例如 TRR01158)

对应 TRRUST 数据库。这是一个专门收录人类和小鼠转录因子调控关系的数据库,且所有数据均来自文献验证。它是探索上游分子机制的关键,能帮助研究者从基因表达变化推导出背后的关键转录因子。

8. C 开头的条目(例如 C0221056)

对应 DisGeNET 数据库。这是一个目前整合最全的基因与人类疾病关联数据库。它通过文本挖掘和实验验证,建立了基因与疾病表型之间的联系,为基础研究成果提供了直接的临床转化线索。

9. PGB 开头的条目(例如 PGB:00109)

对应 PaGenBase 数据库。这是一个组织特异性基因表达模式数据库。它定义了哪些基因在特定的组织或器官中特异性高表达,常被用于验证数据的组织来源准确性或探索基因的组织特异性功能。

10. CORUM 数据库(例如 26S proteasome)

对应 CORUM (The Comprehensive Resource of Mammalian protein complexes) 数据库。与前文提到的基于文献挖掘的 PPI 不同,CORUM 是专门收录哺乳动物蛋白质复合物的资源,且经过了人工注释。在富集分析中,如果基因列表富集到了 CORUM 条目,直接提示了这些基因可能共同参与了某个具体的蛋白复合物结构。

11. P 开头的条目(例如 P00005)

对应 PANTHER Pathway 数据库。这是一个侧重于基因家族和进化关系的分类系统。它的通路图通常更简化和概括,覆盖了从信号转导到代谢的广泛生物学过程。在 ID 命名上,PANTHER 的通路通常以 P 开头后跟数字编号。

Table 3. Top 20 clusters

是 Figure 1 条形的画图数据。 筛选门槛是:P 值必须小于 0.01,基因数必须大于等于 3,且富集因子(Enrichment Factor)必须大于 1.5

Figure 2. Network of Enriched Terms

为了展示通路间的关系,Metascape 将富集结果网络化。如果两个通路包含很多相同的基因,它们就会连在一起,形成功能模块。这种展示方式比单纯的列表更利于理解生物过程之间的内在联系。

筛选门槛是: Top 20 簇,每簇最多 15 个,总数不超过 250 个, 相似性 > 0.3 才会连线 。

两张图形状相同,着色方式不同。

左图按簇着色,属于同一功能团簇的节点会被标记为相同的颜色,帮助用户快速识别基因功能的模块化分布。

右图按 P 值着色,节点的颜色深浅代表其显著性水平,有助于识别网络中的核心功能区域。

2. 蛋白互作网络 (PPI)

PPI网络分析整合了多个权威数据库,包括 STRING(提供广泛的功能性蛋白关联)、BioGrid(收录高质量的生物互作数据)、OmniPath(专注于信号通路互作)以及 InWeb_IM(经过验证的人类蛋白互作网络)。

Figure 3. PPI Network & MCODE Components

左图是完整的网络,右图是MCODE识别的子网络。

左表是对完整网络的富集,右表是对MCODE子网络的富集结果。

(由于我的基因只有60多个,所以这个图上的点较少)

MCODE 算法用于寻找网络中密集联结的蛋白质群(MCODE Components)。这些紧密的模块通常暗示着蛋白质复合物的存在。

3. 多维关联与质控分析 (Quality Control and Association Analysis)

除了常规分析,Metascape 还利用5个特定的权威数据库对基因列表进行深度特征挖掘。这些数据库提供了常规富集分析无法涵盖的背景信息,结果统一以热图形式展示。

Figure 4-8 Heatmap Summary

这几张图与Fig1的格式相同,展示了四个数据库各自的富集结果,并提供相应的画图数据。还是靠Gemini完成4个数据库的介绍:

Figure 4:Cell Type Signatures (细胞类型特征)

该分析板块中的 ID 通常也以 M 开头(例如 M41711),对应 MSigDB C8 集合。这是一个基于大量单细胞测序数据构建的资源。它收录了特定细胞类型的标记基因集,通过比对分析,Metascape 可以预测提交的基因列表主要在哪些细胞类型中高表达,是解析组织异质性的利器。

Figure 5:DisGeNET (疾病关联)

对应的 ID 以 C 开头(例如 C0221056)。这是目前整合最全的基因与人类疾病关联数据库之一。它收录了来自专家处理、文本挖掘和实验数据的基因-疾病关联信息。通过该分析,研究者可以了解基因列表通常与哪些疾病有关,能为研究提供直接的临床相关性证据。

Figure 6:PaGenBase (组织特异性)

对应的 ID 以 PGB 开头(例如 PGB:00109)。该数据库专门收集基因在特定组织或器官中的表达模式信息。它通过整合大规模的转录组数据,定义了组织特异性表达的基因集。在分析中,这常被用来验证数据的组织来源是否准确,或者发现基因在特定组织中的潜在功能。

Figure 7:TRRUST (转录因子调控)

对应的 ID 以 TRR 开头(例如 TRR01158)。这是一个专门收录转录因子与靶基因调控关系的数据库,且所有数据均来自文献验证。它是探索上游分子机制的关键环节,能帮助研究者从基因表达变化推导出背后的关键转录因子。

Figure 8.TFT(转录因子调控)

该图表展示了基于转录因子结合位点(Motif)的富集分析结果, 此图表的数据源自 MSigDB (Molecular Signatures Database) 中的 C3: TFT (Transcription Factor Targets) 子集。这是一个专门基于计算生物学预测的基因集,与 Figure 7 TRRUST 基于文献证据不同,这一分析侧重于基因组序列特征。它分析基因列表中的基因启动子区域是否共享特定的 DNA 序列模式(即转录因子结合基序)。

分析结果中的条目 ID 通常以 M 开头(例如 M14066)。即使某些转录因子的调控关系尚未被文献大量报道(因此未出现在 TRRUST 中),如果基因启动子上存在显著富集的结合位点,该分析也能将其预测出来。因此,Figure 8 常作为 Figure 7 的补充,两者结合能更全面地锁定潜在的上游调控网络。

因为每张图都提供了画图数据,所以也可以下载后读入R语言自己去做图片美化,很值得。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信星球 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0.背景
    • Metascape的优点
  • 1.通路富集分析
    • Figure 1. Bar Graph Summary
    • Table 3. Top 20 clusters
    • Figure 2. Network of Enriched Terms
  • 2. 蛋白互作网络 (PPI)
    • Figure 3. PPI Network & MCODE Components
  • 3. 多维关联与质控分析 (Quality Control and Association Analysis)
    • Figure 4-8 Heatmap Summary
    • Figure 8.TFT(转录因子调控)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档