TCGA作为一个重要的数据库,其下载数据的方式有很多种,今天我给大家总结整理一下目前TCGA数据下载的几种方式:
一:使用TCGA官网推荐的下载软件GDC-client进行下载
方法如下:
1、进入GDC官网:
2、进入Repository,根据分析需求选择Files和Cases
3、然后点击Add All Files to Cart, 下载manifest
4、最后在服务器上运行:/gdc-client download -m manifest -d outdir
注意:官网上下载的TCGA数据每一个样品是一个独立的文件,后期分析需要整合到一起。
二:UCSC Xena下载
方法如下:
1、进入Xena官网:
该网站不仅提供TCGA数据库的下载,也提供了ICGC、TARGET等数据库的下载
2、选择TCGA (The Cancer Genome Atlas),比如我们要下载乳腺癌数据,进入TCGA Breast Cancer (BRCA)
3、比如我们想下载mRNA的表达数据,就可以选择gene expression RNAseq下的IlluminaHiSeq
4、最后点击download下的gz格式文件就可以下载所需数据
注意:Xena下载的TCGA数据都是多样品整合到一起的,但是对于转录组数据来说下载的表达量的值都是矫正后的readcount, 不提供原始的readcount值。
三:GDAC filehose下载
方法如下:
1、进入GDAC BROAD官网:
2、选择Dashboard-Stddata, 比如我们要下载乳腺癌的数据,就选择BRCA,点击Open进入下载页面
3、该目录下文件相对比较多,可以根据自己的需求进行下载
注意:GDAC filehose下载的数据不是TCGA实时更新的,此外,该方式下载的数据既有原始数据也有经过整理的数据。
四:R的TCGABiolinks下载
注意:TCGABiolinks下载的数据与官网下载的相类似,每一个样品是一个单独的文件,但是可以直接放在R里面进行后续分析,比较方便。
领取专属 10元无门槛券
私享最新 技术干货