Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GSEA软件使用方法简介

GSEA软件使用方法简介

作者头像
生信修炼手册
发布于 2020-05-08 08:49:29
发布于 2020-05-08 08:49:29
2.8K0
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

Gene Set Enrichment Analysis是一种富集算法,由Broad Institute研究所的科学家提出,算法核心示意如下

需要两个输入元素,一个就是排序好的基因列表,这里的排序的规则是展现两组间的差异,比如按照Foldchange的值进行排序,第二个就是基因的注释集合,然后运行KS检验计算Enrichment Score(ES),用置换检验评估ES的可靠性。

Broad Institute研究所的科学家同时还提供对应的分析软件GSEA,该软件是java语言开发的图形界面软件,简单易用,下载地址如下

http://software.broadinstitute.org/gsea/downloads.jsp

官网提供了多种下载方式,推荐直接下载jar文件,示意图如下

如下所示,运行GSEA分析,需要两个基本元素,第一个就是表达谱数据,可以是芯片数据,也可以是rna-seq的定量结果,第二个就是基因集数据库,官网对于human提供了MSigDB数据库,当然你也可以自己定义基因集。

在实际操作时,第一步首先是导入数据,有以下4种数据需要导入,由于在windows平台操作,通过特定的后缀来识别文件格式

1. expression datasets

表达量文件,可以是芯片,也可以是rna-seq的定量结果,后缀为gct, 示意如下

该文件是\t分隔的纯文本文件,第一行内容总是为#1.2, 表示版本,第二行表示表达量矩阵的维度,第一个值对应探针探针/基因个数,第二个数值代表样本个数,第三行是表达量矩阵的表头,前两列固定是NAMEDescription, NAME是基因ID或者探针ID,必须保证唯一,Description表示描述信息,如果没有,可以用na填充,后面每列对应一个样本。

2. phenotype labels

样本的分组文件,后缀为cls, 示意如下

第一行为空格或者\t分隔的3个数值,第一个数值表示样本总数,第二个数值表示样本对应的分组数目,第三个数值总是1

第二行以#开头,指定不同分组的名字;第三行的每个字段代表一个样本,顺序和表达量文件中的样本顺序一致,只不过将样本名用对应的分组名字表示。

3. gene sets

基因集文件,有多种格式,常用的有gmtgmx, gmt示意如下

每一行代表一个基因集合,第一列为基因集合的名字,必须唯一,第二列为描述信息,如果没有就用na填充,后面的列为该集合下的基因,每列之间用\t分隔。gmt格式示意如下

gmt相反,gmt中每一列代表一个基因集合,第一行为基因集合的名字,必须唯一,第二行为描述信息,如果没有就用na填充,其他行为该集合下的基因。

4. chip annotation

当提供了芯片数据时,可以导入chip类型的文件,该文件保存的是探针和基因之间的对应关系,后缀为chip, 示意如下

第一列为探针ID, 表头为Probe_Set_ID,第二列为探针对应的基因,表头为Gene Symbol, 第三列为探针描述信息,没有就用na填充。

通过Load Data,首先将以上几种文件导入软件中,然后点击Run GSEA菜单,选择对应的各种文件

phenotype labels用于指定组间比较的顺序,明确哪一组作为control组。

上文中提到,GSEA需要两个输入元素,排序好的基因列表和基因集合,当导入表达量数据和分组信息后,GSEA会自动计算分组将的差异值,然后根据这个差异值对基因进行排序,支持的统计量有以下几种,其中

1. signal2noise
2. t-Test
3. ratio_of_class
4. diff_of_class
5. log2_ratio_of_class

默认的算法为signal2noise, 可以在Basic fields中进行调整,这个参数可以在``示意如下

当所有参数都设置好之后,点击下方的Run按钮即可运行。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文掌握GSEA,超详细教程
生信宝典之前总结了一篇关于GSEA富集分析的推文——《GSEA富集分析 - 界面操作》,介绍了GSEA的定义、GSEA原理、GSEA分析、Leading-edge分析等,是全网最流行的原理+操作兼备教程,不太了解的朋友可以点击阅读先理解下概念 (为了完整性,下面也会摘录一部分)。
生信宝典
2019/05/15
53.9K1
一文掌握GSEA,超详细教程
玩转基因组浏览器之展示RNA_seq中的基因表达量
CNV类似,IGV也可以以热图的形式展示基因表达量的数据,要求表达量文件的格式为gct, 示意如下
生信修炼手册
2020/05/07
8480
富集分析:GSEA分析流程
本次带大家实操gsea,将从分析前参数选择、分析流程操作演示和分析中常见错误分析三个方面给大家进行介绍.
生信喵实验柴
2022/02/11
2.8K0
富集分析:GSEA分析流程
关于GSEA的几点补充说明
之前的文章中介绍了GSEA软件的使用和结果解读,但是有几点漏掉了,在本文中补充一下。首先是Leading Edge对应的3个统计量,示例如下
生信修炼手册
2020/05/08
1.3K0
关于GSEA的几点补充说明
多维组学通路分析R包ActivePathways的使用方法及Cytoscape绘制网络图的实用教程
之前我们介绍了一项整合多维组学通路分析的工作ActivePathways,能够在多个数据集中识别到显著富集的通路,包括那些在单个数据集中不明显的通路。今天来介绍一下这个R包的使用方法和使用输出文件进行Cytoscape绘制网络图。
作图丫
2022/03/29
2.7K0
多维组学通路分析R包ActivePathways的使用方法及Cytoscape绘制网络图的实用教程
单基因GSEA怎么做?
今天在讨论群看到有群友提问 单基因GSEA怎么做?。之前也看到过这个概念,但一直不清楚这个单是什么含义,一直以为是用单个基因做GSEA。如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟悉GSEA的原理和操作流程。当然越是理解,越是想不明白单个基因怎么做GSEA。当然如果您不熟悉GSEA,建议先看上一篇文章。
生信宝典
2019/06/26
1.9K1
clusterProfiler包进行KEGG,GO,GSEA富集分析
本地的KEGG分析参考文章:KEGG数据库使用及通路分析教程,GO参考文章:FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具,当然该工具不止可以进行富集分析,具体去看文章吧。
DoubleHelix
2020/06/17
3.4K0
”基因集打分“GSEA算法详解
前两天介绍了一个开发中的单细胞数据分析相关R包,内置了,4(热图,气泡图,upset图,堆叠条形图)+4(密度散点图,半小提琴,山峦图,密度热图)美图,见 8种方法可视化你的单细胞基因集打分 ,蛮多小伙伴留言想问一下到底什么是基因集打分,正好学徒投稿了她自己的理解,借花献佛分享给大家。
生信技能树
2021/10/21
4.5K0
”基因集打分“GSEA算法详解
基因功能不确定?做一下单基因GSEA怎么样?
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
生信宝典
2022/01/19
9790
基因功能不确定?做一下单基因GSEA怎么样?
GSEA分析一文就够(单机版+R语言版)
通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,但,这只是分析的开始,最经典的分析就是GSEA了,看看基因全局表达量的变化是否有某些特定的基因集合的倾向性。 历史目录: 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA软件的用法 这个是java软件,所以各个电脑操作系统都可以很容易安装及使用。我在生信菜鸟团博客也手把手讲解了详细操作过程,这里就不再赘述咯: 用GSEA来做基因集富集分析 http
生信技能树
2018/03/29
6.3K0
GSEA分析一文就够(单机版+R语言版)
转录组分析—再谈GSEA
Gene Set Enrichment Analysis (GSEA) 是一种生物信息学方法,用于确定基因集合(gene sets)在基因表达数据中的显著性变化。它广泛应用于基因表达数据的功能解释,帮助研究者理解在特定实验条件下哪些生物学通路或功能类别是活跃的。以下是GSEA的相关知识点:
sheldor没耳朵
2024/08/05
2160
转录组分析—再谈GSEA
基因集富集分析(GSEA)及其可视化
基因集富集分析(Gene Set Enrichment Analysis, GSEA)是是一种计算方法,用于确定事先定义的一组基因是否在不同的样品中差异表达。
青青青山
2022/07/04
6.6K0
基因集富集分析(GSEA)及其可视化
MSigDB:GSEA提供的基因集数据库
Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA和一个基因集数据库MSigdb。本章主要介绍这个数据库,官网如下
生信修炼手册
2020/05/08
3.3K0
MSigDB:GSEA提供的基因集数据库
图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?
热图是一种很常见的图,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
生信宝典
2020/06/04
7.2K0
图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?
GSVA或者GSEA各种算法都是可以自定义基因集的
GSVA分析的文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其在2005年PNAS发表的gsea已经高达1.4万的引用了,不过这个GSVA才不到300。去年我就介绍过一波它的分析流程,在:使用GSVA方法计算某基因集在各个样本的表现 非常简单的代码,所以各个培训机构,公司人员都开始学习和二次创作进而分享。
生信技能树
2019/12/23
3.9K0
GSVA或者GSEA各种算法都是可以自定义基因集的
GSEA富集分析
Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是已知功能的基因集 (可以是 GO 注释、MsigDB 的注释或其它符合格式的基因集定义),一是表达矩阵,软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。
生信喵实验柴
2023/02/24
1.2K0
GSEA富集分析
生信技能树-day20 转录组下游分析-富集分析
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
3983
生信技能树-day20 转录组下游分析-富集分析
富集分析:GSEA分析准备
要想运行 GSEA 软件,JAVA 环境是必须的,下面就带领大家一步步地安装 JAVA 软件。
生信喵实验柴
2022/02/11
1.7K0
富集分析:GSEA分析准备
GSEA分析结果详细解读
欢迎关注”生信修炼手册”! 在解读传统的富集分析结果时,经常会有这样的疑问,一个富集到的通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样呢,是被抑制还是激活?或者更直观
生信修炼手册
2020/05/08
7.2K0
GSEA分析结果详细解读
富集分析:GSEA 分析介绍
之前的一些推文,大部分收录专题于生物信息学,目的是帮助大家入门生物信息学的领域。本次开设新专题,“富集分析”,了解富集分析的各种手段,学会十八般武艺。
生信喵实验柴
2022/02/11
6.2K0
富集分析:GSEA 分析介绍
相关推荐
一文掌握GSEA,超详细教程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档