背景
要想运行 GSEA 软件,JAVA 环境是必须的,下面就带领大家一步步地安装 JAVA 软件。
我这边提供了网址:
https://www.java.com/zh_CN/
复制网址访问。用苹果系统的同学,可以试一下安装步骤是不是一样。看到免费 JAVA 下载,点击,然后同意并开始免费下载。我们将软件保存后双击,即出现安装界面,点击安装,我们就可以看到 Java 正在安装了。安装成功后,会提示我们已经成功安装 JAVA。
在 JAVA 安装成功后,我们开始下载 GSEA 软件,我这边也提供了网址:
https://www.gsea-msigdb.org/gsea/index.jsp
在GSEA 官网的首页,导航栏 downloads,我们点击进去。进去后进入登录界面,填写正确的邮箱地址即可;如果邮箱没有注册过,可以点击“click here”注册。注册过程非常简单,就不细说了。登录后,我们就可以进入到下载界面了,win10用户可放心下载。点击 download GSEA_Win_4.2.1-installer.exe。下载后点击运行,安装成功。
一、GSEA 支持的数据类型及数据准备工作
我们要上传的主要有两组数据,分别是基因表达谱数据文件和表型数据文件。
接下来我们就分别看一下这两组文件。
二、基因表达谱数据
基因表达谱数据文件有四种文件格式,分别是 GCT 格式、RES 格式、PCL 格式和 TXT 格式,其中我们比较常用的有 GCT 格式和 TXT 格式,RES 和 PCL 格式相对应用较少。
上图是 GCT 格式的基因表达谱数据,给大家展示一下里面的内容。其中第一行第一列是默认的格式,一般为#1.2 或#1.3,10100 是指基因数,50 是指样本数,Name 下面一般是基因名或基因探针,本例中是基因名,如果是基因探针,则分析时要进行基因探针的转换。DESCRIPTION 下面是对基因的描述,如果没描述,则填 NA 即可,第3行,从第三列开始往后都是样本名称,样本名称下面就是我们的数据了。
上图是 RES 格式的具体要求,不常用,第 1 行中主要是数据呈现形式格式,如 PPT 所示反斜杠 t 代表一个分隔符。第 2 行中主要是样本的描述格式,这一行是被 GSEA 忽略的。第 3 行中主要是说明探针数目,为阿拉伯数字。第 4 行以后主要是探针的描述。第 4 行开始每一行是一个基因,第 4 行第 1列是基因描述,可放在第 1 列或第 2 列;第 4 行第 2 列是基因探针 ID,同样可放于第 1 列或第 2 列,但是注意不能有重复信息;每两列是一个样品;每个样品包含两组数据,第 1 组是表达量,第 2 组是 A 或 P 调用信息,此信息由微阵列扫描软件得出,目前 GSEA 忽略 A/P 这一数据。
上图是PCL 格式的具体要求,同样不常用,大家自行了解。
上图是TXT 格式,是我们较常用的格式。第一行是标签名(NAME),描述(DESCRIPTION),样本名;第一列第二行开始是基因名或者探针名,第二列的描述不可缺少,如果没有就填上 NA,第三列第二行开始是数据。
三、表型数据
表型数据只有一种格式,即 cls 格式,但是分为分类文件和连续文件。分类文件比如肿瘤组织和正常组织的比较,
连续变量如时间序列或基因谱之类的文件
一般我们比较常用的是分类文件。
上图是表型格式的具体要求。一般来说表型数据需要我们自己构建。
下面我们看看官网提供的表型标签数据
上图是连续变量的表型数据,第一行是告诉我们这是一个连续型表型,第二行是表型名称,接下来的数字是表型数据,这种类型不常用。
以上就是软件安装与数据准备的全部内容了。大家按照步骤先安装好 GSEA 软件吧。