1. ADEX是一个分析自身免疫疾病的在线分析平台,其中有基因集分析过程中,有选择默认的预设基因集模块,文献来源是Chaussabel et al., Immunity. 2008。其中DC.M12 Interferon是一个干扰素相关基因集。可以看到这个基因集在90%的SLE数据集中都是高表达的。因此这个预设的基因集是一个很好研究SLE基因表达的资源。


2. 介绍预设基因集的文献如下,该研究建立了一种血液基因组学模块化分析方法,通过整合多数据集的共表达基因,揭示了红斑狼疮的免疫机制并开发了疾病进展监测指标。具体来讲,就是构建“转录模块”(共表达基因群),将数据映射到模块层面生成疾病特异性“转录指纹”,提升分析稳定性。并应用于系统性红斑狼疮(SLE),筛选出生物标志物,并开发多变量转录指标监测疾病进展。从而提供了一种稳定、可重复的系统性分析工具,有效连接了免疫机制研究与临床转化应用。

模块大类 | 模块数量 | 主要包含的模块 (示例) | 生物学含义概括 |
|---|---|---|---|
干扰素响应 | 4 | DC.M1.2, DC.M3.4, DC.M5.12 | 涉及I型干扰素信号通路激活,通常与抗病毒免疫和浆细胞样树突状细胞(pDC)功能相关。 |
细胞周期/增殖 | 5 | DC.M2.2, DC.M3.5, DC.M6.16 | 涉及细胞分裂、DNA复制和细胞生长,反映免疫细胞的增殖状态或前体细胞的分化活动。 |
炎症响应 | 6 | DC.M3.2, DC.M4.2, DC.M5.7 | 涉及NF-κB信号通路、细胞因子产生及免疫激活,通常与经典树突状细胞(cDC)的成熟和功能有关。 |
特定细胞谱系 | 6 | DC.M3.6, DC.M4.10, DC.M5.15 | 指示血液中特定免疫细胞类型的存在或浸润(如T细胞、B细胞、NK细胞、中性粒细胞、红细胞等)。 |
代谢/稳态 | 5 | DC.M5.6, DC.M6.2, DC.M6.12 | 涉及线粒体功能、蛋白质合成及细胞凋亡/存活,反映细胞的基础代谢压力或生存状态。 |
模块名称 | 生物学含义 | 关键基因 (部分展示) |
|---|---|---|
DC.M1.2 Interferon | I型干扰素响应主要涉及抗病毒反应及干扰素刺激基因的表达。 | LY6E, IFIT1, OAS1, IFIT3, OAS3, OASL, ISG15, HERC5, MX1, BATF2, LAMP3, IFI44L, XAF1, IFI44, OAS2, TRIM6, HES4, OTOF, IFITM3, CXCL10, EPSTI1, SERPING1, RSAD2, RTP4 |
DC.M3.2 Inflammation | 炎症响应主要涉及免疫调节、炎症信号通路及细胞因子活性。 | BCL6, SLC2A3, TLR4, S100A9, CEBPB, IL1RN, CSF3R, CEBPD, LY96, OSCAR, IL17RA, HCK, MMP25, TIMP2, SOD2, NFIL3, CD63, IL1RAP, PLXNC1, CRISPLD2 |
用途
过代表分析(Over-Representation Analysis, ORA) 是基因富集分析中最经典、最基础的方法之一。简单来说,它的核心逻辑是:“数数”。在生物学研究中,我们通常会得到一组感兴趣的基因(例如通过实验筛选出的差异表达基因),ORA 的目的就是帮我们回答:这些基因是否“过多地”出现在某一个特定的生物通路或功能类别中? 如果“数”量显著超标,我们就认为这个通路或功能被“富集”了。
准备文件
1.GMT文件:上述与SLE 相关的血液转录模块基因集作为背景基因集。
如下图所示:第一列是模块名称,第二列是描述列或链接。第三列开始就是基因名称。文件以文本文件(制表符分割)保存,并以GMT格式后缀名。实际基因集GMT 文件与文章中的命名稍有不同,但与ADEX网址中的一致。
DC.M1.1 Platelets | DC.M1.1 Platelets | GP9 | VWF | ALOX12 | C1orf198 |
|---|---|---|---|---|---|
DC.M1.2 Interferon | DC.M1.2 Interferon | LY6E | IFIT1 | OAS1 | IFIT3 |
DC.M2.2 Cell Cycle | DC.M2.2 Cell Cycle | MARVELD1 | TAAR2 | SLC19A2 | HAUS1 |
DC.M2.3 Erythrocytes | DC.M2.3 Erythrocytes | SLC4A1 | FECH | SELENBP1 | NFIX |
DC.M3.1 Erythrocytes | DC.M3.1 Erythrocytes | FAXDC2 | BCL2L1 | FBXO7 | TSPAN5 |
2.一组感兴趣的基因。
# 加载必要的包
library(clusterProfiler)
library(DOSE)
library(readr)
library(dplyr)
# --- 从 TXT 文件读取数据 ---
# 假设你的基因 ID 是 Gene Symbol
# 读取基因列表 (差异表达基因列表)
gene_list_file <- "genelist.txt" # 替换为你的实际路径
gene_list <- readLines(gene_list_file) # readLines 按行读取,每行一个元素
# 读取背景基因组 (例如,芯片上所有的基因 Symbol)
universe_file <- "universe.txt" # 替换为你的实际路径
universe <- readLines(universe_file) # readLines 按行读取,每行一个元素
# 自定义 GMT 文件路径
gmt_file_path <- "../SLE_modular geneset.gmt" # 替换为你的实际路径
# --- 执行 ORA ---
# 读取 GMT 文件
custom_gmt <- read.gmt(gmt_file_path)
# 执行富集分析
# 注意:gene_list 和 custom_gmt 中的基因 ID 类型需要一致
# universe 是可选的,如果不提供,会默认使用 GMT 中所有出现过的基因作为背景
# pvalueCutoff 和 qvalueCutoff 可以设置过滤阈值
enrich_result <- enricher(
gene = gene_list,
TERM2GENE = custom_gmt[, c(1, 2)], # GMT 文件第一列为 term 名称,第二列为基因
#TERM2NAME
= custom_gmt[, c(1, 3)], # GMT 文件第三列(如果存在)为 term 描述
pvalueCutoff = 1,
qvalueCutoff = 1,
universe = universe # background genes.如果缺少,用 TERM2GENE table as background.
)
# 查看结果
head(enrich_result)
# 结果通常包含:ID (Term Name), Description, GeneRatio, BgRatio, pvalue, p.adjust (FDR), Count (富集到的基因数量)
# --- 可视化 ---
# 绘制条形图
barplot(enrich_result, showCategory = 5) # 显示 Top 5 富集的 term
# 绘制气泡图
dotplot(enrich_result, showCategory = 5)
# --- 保存结果 ---
# 将结果导出为数据框
result_df <- enrich_result@result
# 保存为 CSV
write.csv(result_df, "Custom_Enrichment_Results.csv", row.names = FALSE)
如果不会R语言,也可以在线进行ORA分析,教程如下
【零代码生信分析】RNA-seq中级分析11-222种不同类型数据集富集分析
转录模块(如干扰素模块、炎症模块)和ORA(过表达分析),在系统性红斑狼疮(SLE)及自身免疫疾病的研究中,我们可以对“感兴趣基因”进行以下三个层面的深度分析:
ORA 可以帮助你快速确定感兴趣的基因集(例如:通过 CRISPR 筛选出来的候选基因、WGCNA 挖掘出的枢纽基因)在免疫系统中扮演的角色。
分析逻辑:将你的“感兴趣基因列表”作为输入,背景数据库使用你构建的转录模块(如 DC.M1.2 Interferon)。
具体应用:如果你的基因集在 DC.M1.2 Interferon 模块中显著富集(P值很小),说明这些基因很可能参与了 SLE 中经典的 I型干扰素通路,提示它们可能与抗病毒免疫或浆细胞样树突状细胞(pDC)的功能有关。如果富集在 DC.M3.2 Inflammation 模块,则指向了 NF-κB 信号通路或促炎因子的产生。
价值:将“黑盒”中的基因转化为具体的生物学机制(是干扰素驱动的?还是炎症因子驱动的?),为后续实验提供假设。
SLE 具有高度异质性,不同患者的免疫激活状态不同(有的以干扰素为主,有的以炎症为主)。
分析逻辑:利用 ORA 计算每个患者样本中特定模块的富集得分(Enrichment Score)。
具体应用:对于你感兴趣的特定基因(例如某个新发现的 biomarker),你可以利用 ORA 分析它高表达的患者群体,是否在 干扰素模块 中也表现出更高的富集分数。这可以帮助你定义疾病亚型:例如,“干扰素高活化型” vs “炎症高活化型”。
价值:实现精准分型,解释为什么某些基因只在部分 SLE 患者中表达异常。
在寻找治疗 SLE 的新靶点时,ORA 可以评估靶点基因是否处于核心通路中。
分析逻辑:分析药物靶点基因(Drug Target Genes)与致病模块的重叠度。
具体应用:假设你有一个候选药物靶点基因 X,ORA 分析发现它显著富集在 DC.M3.2 Inflammation 模块中,且与已知的炎症通路(如 TNF 或 IL-6 信号通路)高度重叠。这意味着抑制基因 X 可能会有效阻断 SLE 中的炎症风暴。
价值:在投入大量经费做药效实验前,利用生物信息学手段验证靶点的合理性。
ORA + 转录模块 相当于给你的“感兴趣基因”装上了一个“定位器”。
在 SLE 研究中,它能回答:这些基因是属于干扰素轴还是炎症轴?它们是否可以作为特定免疫状态的标志物?以及针对这些基因的干预是否可能逆转疾病的核心病理过程。