在上次的GSEA教程(“便携式”GSEA分析 - Do GSEA without "GSEA software" )中,我们给大家演示了如何跳过官方的GSEA软件,直接用R语言进行GSEA分析,非常方便快捷 本章内容,我们就来跟大家讲解,如何利用特定基因集进行GSEA分析。 这么跟大家说吧,在GSEA中富集出来的基因功能类或者基因集合都是提前定义好的,谁定义的呢?当然是GSEA官方或者一些权威数据库(比如KEGG通路数据库,Gene Ontology数据库等)。 打开如下链接: https://www.gsea-msigdb.org/gsea/index.jsp ? 上面就是GSEA的官方网站的主页,如何找到我们感兴趣的基因集呢? 好了,关于定制化的万能GSEA分析到这里告一段落,对于我们上次教程提出的问题,如果你想做免疫相关通路的GSEA,现在可以动手尝试起来喽。
1 Enrichment score(ES) ES是GSEA最初的结果,反应全部杂交data排序后,在此序列top或bottom富集的程度。 GSEA结果中,高亮显示FDR<25%的富集set。因为从这些功能gene中最可能产生有意义的假设,促进进一步研究。 备注 GSEA富集结果太少说明: 无gene set被富集。 当然也可以尝试考虑分析其他gene sets,或增加samples GSEA富集结果太多说明: 太多的功能子集被富集了。
GSEA GSWA 网站:http://www.gsea-msigdb.org/gsea/index.jsp JavaGSEA: http://www.gsea-msigdb.org/gsea/login.jsp /gsea/datasets.jsp 注释文件下载:http://www.gsea-msigdb.org/gsea/msigdb/index.jsp 二、GSEA 原理 给定一个排序的基因表 GSEA 原理 GSEA 计算中几个关键概念: 1、计算富集得分 (ES, enrichment score). ES 反应基因集成员 s 在排序列表 L 的两端富集的程度。 ,详细参考: 富集分析:GSEA分析准备 五、利用 R 实现 GSEA 虽然 GSEA 客户端可以非常方便的完成 GSEA 的分析,但 JAVA 版的 GSEA 软件图形输出格式是 png gsea.out.df <- egmt@result View(head(gsea.out.df)) gsea.out.df$ID #绘制GSEA图 library(enrichplot) options
1.导入测试数据,fgesa的examplePathways,exampleRanks测试数据分别是通路的list和经过fold change排序的基因。
基因集富集分析GSEA(gene-set enrichment analysis)。这个操作并不难,主要就是准备符合GSEA要求的数据文件(本地的话4个),关于文件准备,可细见官方说明。 若有时间我稍后整理以前资料,单独成一篇GSEA数据文件准备。我认为最主要的还是GSEA结果解读。 另外,GSEA我们可能更多的用的是它的富集功能,而实际上它还有其他非常好用的功能,看自己怎么活学活用了,具体来说,就我用的多的有以下几个:(欢迎大家补充) 1 当然是最常用的基因集富集分析,这个不用多加解释 在不同样本或不同时间点的表达值,你想知道和其中某个你感兴趣的gene的表达模式一致(也就是共表达)的有哪些gene,并且这些gene富集在哪条信号通路,GO,染色体,受哪个miRNA调控等的话,可以用GSEA 有没有哪个(些)genes在富集到的GO或kegg里出现次数最多(意味它可能很关键,连接很多信号通路或生理过程等),这个功能通过leading edge analysis实现 4 相对复杂一点的,按照GSEA
单基因的GSEA分析写在前面:牛马也太难有时间来记点笔记了啊啊啊啊啊啊这篇文章利用TCGA中脑癌(LGG、GBM)的相关数据,进行了单基因NKILA的GSEA分析,展示了Hypoxia通路上调,进行相关机制的研究 区别于传统GSEA分析,如(用tumol和normal来分组),单基因GSEA常常以一个基因的表达量高低来分组(如以中位数分组,大于中位数的定义高表达组,小于中位数的定义为低表达组)主要复现图Estep1 = "pdf", width = 8, height = 9)ggsave("Figure/GSEA.pdf", plot = p3, device = "pdf", width = 6, height = 6)GSEA_dot.pdfGSEA_density.pdfGSEA.pdf可以看到结论和文章一致,NKILA高表达组Hypoxia、Mtorc1 signaling通路上调。 附GSEA结果说明上述表格列说明
想要回答一开始的这个问题,我们需要GSEA富集方法的结果。 ? 还是这张原理图,GSEA的输入是一个基因表达量矩阵,其中的样本分成了A和B两组,首先对所有基因进行排序,在之前的文章中也有提到排序的标准,这里简单理解就是foldchange, 用来表示基因在两组间表达量的变化趋势 GSEA分析的是一个基因集下的所有基因是否在这个排序列表的顶部或者底部富集,如果在顶部富集,我们可以说,从总体上看,该基因集是上调趋势,反之,如果在底部富集,则是下调趋势。 理解这个观点之后,在来看GSEA富集分析的结果。由于结果很多,所以给出了一个汇总的html页面。对于富集结果,根据上调还是下调分成了两个部分,对应两个分组,示例如下 ? Enrichment score,NES代表归一化后的Enrichment score,NOM p-val代表pvalue,表征富集结果的可信度,FDR q-val`代表qvalue, 是多重假设检验矫正后的p值,注意GSEA
之前写过用clusterProfiler做GSEA,enrichplot中的gseaplot作图,但是图没有最新版enrichplot包的gseaplot2做的图好看。 将基因按FC降序排列 GSEA_input<-vivo_GSEA$logFC names(GSEA_input) = as.character(vivo_GSEA$Row.names) GSEA_input = sort(GSEA_input, decreasing = TRUE) ? gsea做GO 因为我的数据正常的pvalue= 0.05没有聚出来,所以为了这里显示将pvalueCutoff = 1。 image.png GSEA分析KEGG及Reactome同理 gseKEGG.res <- gseKEGG(GSEA_input, OrgDb="org.Hs.eg.db",keyType = "SYMBOL
链接如下: http://bioinfoer.com/ 一、GSEA 基本介绍 GSEA 全称是 gene set enrichment analysis 基因富集分析,是博劳德研究所 broad 因此 GSEA 是一种非常常见且实用的分析方法,可以将数个基因组成的功能基因数据集与测序及芯片得到的全部数据做出简单而清晰的关联分析。 gsea特点: 1. 而 GSEA 是利用测序或芯片获得的全基因组表达谱进行分析,不需要指定差异基因阈值,得出的结果更加可靠。 五、GSEA 的操作流程 分为 4 部分 软件下载:GSEA 是基于 JAVA 环境运行,因此保持 JAVA 为最新版本是 GSEA 软件运行的基础。 链接: https://www.gsea-msigdb.org/gsea/msigdb/ 基因芯片注释:不同测序或芯片平台所用的基因代码不一样,因此需要基因芯片注释文件来说明基因代码究竟是哪个基因
image.png GSEA的介绍:https://www.omicsclass.com/article/230 GSEA有相应的软件,其实clusterProfiler除了做go term 富集,也可以做 GSEA。 首先介绍GSEA需要的文件: 1.GSEA输入的geneList要求是数值型向量,可以是fold change,或者logFC,数值型向量的名字是基因ID,数字从高到低排序,如: image.png 富集Wnt信号通路 gsea_Wnt_NRVC <- GSEA(geneList_NRVC, TERM2GENE = Wnt_NRVCgo, verbose=FALSE, pvalueCutoff = 0.05); head(gsea_Wnt_NRVC) library(DOSE) DOSE::gseaplot(gsea_Wnt_NRVC, 1) image.png #GSEA富集人的c2通路 c2
转录组分析—再谈GSEA 之前一直对GSEA的分析朦朦胧胧,这里再重新梳理下相关的知识点 1 相关概念 Gene Set Enrichment Analysis (GSEA) 是一种生物信息学方法,用于确定基因集合 GSEA的原理 GSEA的基本步骤包括: 排序基因列表:首先,根据某种度量(如差异表达的统计量、相关系数等)对所有基因进行排序。 GSEA的特点和优点 无需预先筛选基因:与传统的富集分析不同,GSEA不需要预先筛选出显著差异的基因。这减少了因阈值选择而可能导致的信息损失。 GSEA的应用和局限性 应用 生物学通路和功能注释:GSEA广泛用于解释基因表达数据,尤其是在理解特定条件下的生物学通路的活跃情况。 GSEA的实现和工具 常用的GSEA工具包括: Broad Institute的GSEA软件:经典的GSEA工具,提供了丰富的预定义基因集合和直观的可视化。
而GSEA则不局限于差异基因,从基因集的富集角度出发,理论上更容易囊括细微但协调性的变化对生物通路的影响。 GSEA原理 给定一个排序的基因表L和一个预先定义的基因集S (比如编码某个代谢通路的产物的基因, 基因组上物理位置相近的基因,或同一GO注释下的基因),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在 GSEA分析 软件和基因集下载 (http://software.broadinstitute.org/gsea/downloads.jsp) ? ? 输入数据准备 表达矩阵。 参考 较早记录的一篇GSEA的使用,有脚本可以转换表达矩阵为gct, cls文件作为GSEA的输入。文档为英文,但软件操作步骤还算详细,可配合着看。 /gsea/downloads.jsp 原文对GSEA原理的讲解是很清晰的,可以读下,关键的内容也都摘录在第一个链接里。
背景 要想运行 GSEA 软件,JAVA 环境是必须的,下面就带领大家一步步地安装 JAVA 软件。 在 JAVA 安装成功后,我们开始下载 GSEA 软件,我这边也提供了网址: https://www.gsea-msigdb.org/gsea/index.jsp 在GSEA 官网的首页,导航栏 点击 download GSEA_Win_4.2.1-installer.exe。下载后点击运行,安装成功。 第 2 行中主要是样本的描述格式,这一行是被 GSEA 忽略的。第 3 行中主要是说明探针数目,为阿拉伯数字。第 4 行以后主要是探针的描述。 大家按照步骤先安装好 GSEA 软件吧。
背景 本次带大家实操gsea,将从分析前参数选择、分析流程操作演示和分析中常见错误分析三个方面给大家进行介绍. 首先我们来进行 GSEA 软件的参数选择与讲解。 GSEA 软件有三大参数,分别是必需参数(Required fields)、可选参数(Basic fields)、高级参数(Advanced fields),接下来一一为大家介绍。 我们前面强调在下载数据的时候,也要关注平台数据,就是箭头所指的注释文件;对应此平台数据选择 GSEA 中相应的 Chip platform 即可。 二、分析操作 我们选择官方数据来操作,进入以下网址, http://software.broadinstitute.org/gsea/datasets.jsp 选择P53的三个数据 好了,GSEA 分析流程就为大家写到这里,谢谢大家。
今天就来安利一款不跑代码也可以发SCI(完全干实验)的神器——GSEA :)1.什么是GSEA? 如何进行GSEA分析? //software.broadinstitute.org/gsea/msigdb或相关介绍点击这里。 GSEA在研究中的应用同学们看到这里不禁会想:现在知道什么是GSEA了,也学会了分析流程,不过这个真的能帮助我们快速发文章么?当然可以! 这里给大家推广一篇文章,完全的干分析不下实验室,结果一半以上来自GSEA。
Broad Institute研究所的科学家同时还提供对应的分析软件GSEA,该软件是java语言开发的图形界面软件,简单易用,下载地址如下 http://software.broadinstitute.org /gsea/downloads.jsp 官网提供了多种下载方式,推荐直接下载jar文件,示意图如下 ? 如下所示,运行GSEA分析,需要两个基本元素,第一个就是表达谱数据,可以是芯片数据,也可以是rna-seq的定量结果,第二个就是基因集数据库,官网对于human提供了MSigDB数据库,当然你也可以自己定义基因集 通过Load Data,首先将以上几种文件导入软件中,然后点击Run GSEA菜单,选择对应的各种文件 ? phenotype labels用于指定组间比较的顺序,明确哪一组作为control组。 上文中提到,GSEA需要两个输入元素,排序好的基因列表和基因集合,当导入表达量数据和分组信息后,GSEA会自动计算分组将的差异值,然后根据这个差异值对基因进行排序,支持的统计量有以下几种,其中 1. signal2noise
今天给大家介绍GSEA,基因集富集分析,的可视化!主要是带你详细了解如何自定义GSEA的经典图形。 都是支持的(参考上期内容),但是我们并没有过多介绍GSEA富集分析的可视化内容,主要是因为部分函数是专门针对GSEA的。 通过geom_gsea_gene函数即可。 [[gsea_res_symbol$ID[1]]],5) g22 <- sample(gsea_res_symbol[[gsea_res_symbol$ID[2]]],5) g33 <- sample( gsea_res_symbol[[gsea_res_symbol$ID[3]]],5) desc <- gsea_res_symbol$Description[1:3] p <- gseaplot2(
今天在讨论群看到有群友提问 单基因GSEA怎么做?。之前也看到过这个概念,但一直不清楚这个单是什么含义,一直以为是用单个基因做GSEA。 如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟悉GSEA的原理和操作流程。当然越是理解,越是想不明白单个基因怎么做GSEA。当然如果您不熟悉GSEA,建议先看上一篇文章。 在做GSEA分析时,其它基因按照与感兴趣基因的表达相关性排序进行后续分析。 这时应该怎么准备cls文件呢? #numeric #Aexpr 9 8 7 6 3 4 1 2 然后导入GSEA就可以分析了。 基于相关性的GSEA操作展示 直接看动画,数据格式也有展示,GMT文件是自己整理的。这是1我们单细胞和群体转录组课程的一个小环节 (回头把这部分视频拆出来放到腾讯课堂供访问)。
下面周文丽的投稿 参考素材见:GSEA 算法 GSEA分析一文就够(单机版+R语言版) GSEA的统计学原理试讲 一、开发背景 该算法最初开发是受microarray RNA数据驱动,旨在解释基因组数据 GSEA vs. DEGs DEGs多聚焦于单个基因;GSEA是在基因集水平上比较不同生物学系统(不同样本)间的转录组差异。 结果稳健性更好,在不同团队研究结果中的生物学意义的可重复性和解释性更好。 应用示例: 如下图,作者通过对p53突变和p53野生型的转录组数据进行GSEA富集分析,发现to3富集的信号通路(按p排序)为Ras信号通路、Ngf信号通路、Igf1信号哦通路。 /gsea/msigdb # https://www.gsea-msigdb.org/gsea/msigdb/collections.jsp { geneList= deg$avg_logFC <- egmt@result rownames(gsea_results_df) write.csv(gsea_results_df,file = 'gsea_results_df.csv'
GSEA的原理可参考:https://cloud.tencent.com/developer/article/1426130 下载GSEA软件 根据自己电脑内存大小下载适合的版本:https://www.gsea-msigdb.org /gsea/downloads.jsp 1.准备输入数据 输入数据如果是RNAseq的话,需要准备基因的表达矩阵和表型数据。 下载P53的表型数据(cls文件)和基因表达数据(gct文件) GSEA软件其他需要的数据格式可参考:GSEA软件支持的数据格式 P53.cls #表型文件,定义了表达文档中样品的表型标签,使用空格或 将数据导入GSEA 有三种方式可以导入,这里我们直接用第三种将文件拖进来即可,只有显示There were NO errors 才算成功。 ? 参考:https://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html https://www.cnblogs.com/nkwy2012/p/10258644