我们接到一个生信入门马拉松授课学员的提问,怎么办!!!当然是宠她啊!提问如下:
使用关键词在微信搜索中查找:MSigDB数据库糖代谢相关基因
。搜到一篇 2022 年 10 月发表在 Frontiers in Endocrinology 杂志上的文章:Identification of risk model based on glycolysis-related genes in the metastasis of osteosarcoma。这个文章中用的是糖酵解相关基因集:
We obtained 5 glycolysis-related pathway gene sets from MSigDB, namely:
我感觉应该不止5个基因集!
又看到了另一篇 2023 年 8 月发表在杂志 Cancer Cell Int 的文献《Glycolysis-related biomarker TCIRG1 participates in regulation of renal cell carcinoma progression and tumor immune microenvironment by affecting aerobic glycolysis and AKT/mTOR signaling pathway》,还给出了具体的如何从 MSigDB 数据库中查找糖代谢相关的基因:
我们当然可以直接下载这个文章的附表 table2,但是 MSigDB 数据库在 2024 年进行了一次大更新,见文章:获取msigdbr数据库中的基因集失败是什么原因?,我们还是推荐用最新的数据看看!
文章找到的21个通路:
BIOCARTA_ETC_PATHWAY |
---|
BIOCARTA_FEEDER_PATHWAY |
BIOCARTA_GLYCOLYSIS_PATHWAY |
BIOCARTA_KREB_PATHWAY |
CHEN_LUNG_CANCER_SURVIVAL |
DCA_UP.V1_DN |
DCA_UP.V1_UP |
GOBP_FRUCTOSE_1_6_BISPHOSPHATE_METABOLIC_PROCESS |
GOBP_LACTATE_TRANSMEMBRANE_TRANSPORT |
GOMF_LACTATE_TRANSMEMBRANE_TRANSPORTER_ACTIVITY |
HALLMARK_GLYCOLYSIS |
KEGG_CITRATE_CYCLE_TCA_CYCLE |
KEGG_GLYCINE_SERINE_AND_THREONINE_METABOLISM |
KEGG_GLYCOLYSIS_GLUCONEOGENESIS |
MODULE_306 |
REACTOME_GLYCOLYSIS |
REACTOME_REGULATION_OF_GLYCOLYSIS_BY_FRUCTOSE_2_6_BISPHOSPHATE_METABOLISM |
WP_AEROBIC_GLYCOLYSIS |
WP_GLYCOLYSIS_AND_GLUCONEOGENESIS |
WP_GLYCOLYSIS_IN_SENESCENCE |
WP_HIF1A_AND_PPARG_REGULATION_OF_GLYCOLYSIS |
我们要用关键词glycolysis
查找 MSigDB 数据库 :https://www.gsea-msigdb.org/gsea/msigdb/index.jsp
。
先将整个库下载下来,文件不大不到30M:
library(clusterProfiler)
library(org.Hs.eg.db)
library(GSEABase)
## === 所有通路
geneset <- read.gmt("msigdb.v2024.1.Hs.symbols.gmt")
length(unique(geneset$term))
head(as.data.frame(table(geneset$term)))
总共有 个 34837 基因集:
只查找到13个通路,比上面的文章少,看了一下上面的通路,里面有一些基因集的名字中没有 glycolysis
关键词:
# 查找糖代谢相关的基因集:glycolysis
geneset_select <- geneset[grep(pattern ="glycolysis", geneset$term,ignore.case = T),]
str(geneset_select)
as.data.frame(table(as.character(geneset_select$term)))
上面的代码只能检索到通路中带有关键词的基因集,可能还有一些基因集名字中没有这个关键词但是具有糖代谢相关功能,看下面的方法,得到文件:genesets.v2024.1.Hs.gmt
,具有 22 个基因集,比上面的文章中多一个:
读进去R看看:
### 网页下载
geneset <- read.gmt("genesets.v2024.1.Hs.gmt")
length(unique(geneset$term))
as.data.frame(table(geneset$term))