背景
本次带大家实操gsea,将从分析前参数选择、分析流程操作演示和分析中常见错误分析三个方面给大家进行介绍.
首先我们来进行 GSEA 软件的参数选择与讲解。GSEA 软件有三大参数,分别是必需参数(Required fields)、可选参数(Basic fields)、高级参数(Advanced fields),接下来一一为大家介绍。
一、参数设置
必需参数,必须参数这一块有七大内容,这是软件的截图。
其中 Expression dataset 指的是我们选择的要分析的表达谱数据,也就是我们在之前介绍过的自己构建的 GCT 格式的文件。
Gene sets database 指的是我们选择的基因集,即 Molecular Signatures Database,MSigDB。MSigDB 有八个模块,H: hallmark gene sets 效应特征基因集合,共 50 组;C1: positional gene sets 位置基因集合,根据染色体位置,共 326个;C2: curated gene sets:专家共识基因集合,基于通路、文献等;C3: motif gene sets:模式基因集合,主要包括 microRNA 和转录因子靶基因两部分;C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;C5: GO gene sets:Gene Ontology 分析基因集;C6: oncogenic signatures:癌症特征基因集合,大部分来源于 NCBI GEO 未发表芯片数据;C7: immunologic signatures: 免疫相关基因集合。
样品用于置换检验重复次数,默认 1000,选择的时候别选那么高,一般 5-10 即可。如图所示,一般我们自己填进去 5 就行,选择的越大,数据分析准确性越好,但是对于电脑的内存要求越高,同时分析时间也越长。
选择含有表型标签的数据,即我们前文自己构建的表型数据。
第五个, 将表达数据中的探针名转换成 gene symbols。如果上传的已经是 gene symbols,则选择 NO_collapse,如果是前文下载的 GEO 数据,里面的名称是探针,则选择collapse,下文中的 chip platform 选择注释文件。
下面这个 permutation type 参数有两个选项,phenotype 和 Gene_set。phenotype 用于每个表型组至少 7 个样本的实验;Gene_set用于表型组样本数少于 7 个的时候。
选择 chip 注释文件,用于 collapsed to gene symbols这一步。
我们前面强调在下载数据的时候,也要关注平台数据,就是箭头所指的注释文件;对应此平台数据选择 GSEA 中相应的 Chip platform 即可。
上图的可选参数包括七个部分。
Analysis name 即自己命名分析结果,注意命名不能有空格。
Enrichment statistic 即计算富集得分,富集得分的算法,默认选择 weighted。
Metric for ranking genes,选定对基因打分和排序的模式。默认选择signal2noise,即选择信噪比进行打分和排序。选择这个模式,表型文件必须有至少两个分组,表达数据每个分组必须包含至少三个样本,如果不满足这个要求,则需选择其他的打分和排序模式。不过我们要分析的一般都符合这个要求,所以选择默认的信噪比模式即可。
Gene list sorting mode 即基因排序模式。可以选择 real 原值或者 abs 绝对值,我们选择的话就选默认的 real 即可。
Gene list ordering mode 基因排序方式,是升序还是降序,大家可根据自己喜好选择。这里指的是基因集基因数目的上限和下限。大家可以自己设置,默认是上限500,下限 15。
最后一个是结果保存路径,默认在 C 盘,红色箭头所指文件夹中,当然,我们也可以自己设置。
讲完了可选参数,接下来是高级参数的界面,里面有好多内容,这里就不一一解释了,有兴趣了解的同学,可以找下别的资料。
二、分析操作
我们选择官方数据来操作,进入以下网址,
http://software.broadinstitute.org/gsea/datasets.jsp
选择P53的三个数据:p53_hgu95av2.gct 是芯片表达谱数据,我们一会儿会下载,但是不分析此数据,P53_collapsed.gct 是我们要进行分析的基因表达谱数据,p53.cls 是指包含表型标签的数据。点击链接开始下载,下载前需要先登录。
根据前面的选项参数介绍,得到结果
三、常见错误
常见错误1:Java heap space ,OutOfMemoryError
字面意思就是内存不足,解决办法就是改运行 java 的运行内存,下载一个 eclipse 软件,网址在下面:
http://www.eclipse.org/downloads/
然后按照下面的教程改就可以了。
https://jingyan.baidu.com/article/5d6edee2f5efff99ebdeec63.html
当你再次运行的时候,就会看到内存变大很多。
常见错误 2:gmt 文件的 gene 名称与 gct 文件的 gene 名称不匹配
解决办法:
(1)采用与你数据的物种来源一致的 gene sets,即 gmt 文件。比如你的数据是鼠的数据,直接用 MSigDB 的数据是不行的,需要自己将其基因名称转换为鼠的。
(2)将你数据的基因名称转换成与 gene sets 一致。简单一点,比如,若你的 gmt 文件用的是 MSigDB,可将你 gct 文件中的第一列设置为芯片探针名称,run 的时候将 collapse dataset to gene symbols 设置为 collapse,chip platform 选择为你的芯片,让软件自动为你转换。
好了,GSEA 分析流程就为大家写到这里,谢谢大家。