TCGA在去年更新之后提供了Count、TPM、FPKM三种格式的mRNA表达量数据,同时提供了ensembl gene ID、基因名、基因类型,因此有必要更新一下数据了。
之前写了一个脚本,可以让大家1行代码提取6种类型的表达矩阵以及对应的临床信息。但是很多人完全看不见注意事项或者根本看不懂,所以我决定改动一下。
昨天介绍了TCGA2STAT这个R包,今天来继续根据博文 TCGA数据下载方法简介中的顺序来介绍R包TCGAbiolinks包,其下载数据类型类似于TCGA2STAT,但是又比它难懂。
TCGAbiolinks是一个大而全的R包,常见的分析都能做,比如差异分析、富集分析、生存分析等等。上次学习了差异分析,今天学习下富集分析和生存分析。
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。
TCGA数据库作为癌症研究的首选公共数据库,整合了各种癌症的多组学数据,今天小编给大家带来的正是一个功能强大的TCGA数据分析工具--TCGAbiolinks!
TCGA这块大蛋糕,不同的人总会用不同的工具来切分这个蛋糕,今天我们继续分享关于TCGA数据下载的专题,今天我们继续聊聊TCGA的江湖,在TCGA的武林里,总有一个出类拔萃的佼佼者神包——TCGAbiolinks。
在进行差异分析、生存分析等下游分析时,有很多粉丝朋友对到底使用哪种类型的数据非常纠结,所以我们今天比较一下counts、tpm、fpkm、vst、cpm的表达量差异,让大家对这些数据类型有一个直观的感受。
新版TCGAbiolinks包学习:表达矩阵提取(mRNA/lncRNA/counts/tpm/fpkm)
各位科研芝士的朋友,大家好,TCGA这块大蛋糕,不同的人总会用不同的工具来切分这个蛋糕,今天我们继续分享关于TCGA数据下载的专题,今天我们继续聊聊TCGA的江湖,在TCGA的武林里,总有一个出类拔萃的佼佼者神包——TCGAbiolinks。
笔者认为,这些功能的好处在于能够比较方便的用简单几行代码做一些固定的分析,恰恰这也是它的缺点,这样的话包的灵活性就大打折扣了,不能够很好的整合用户的其它分析流程。考虑到这一点,我可能不会过多的使用它的其它分析功能
上面遇到的问题今天找到了解决办法:可以使用SummarizedExperiment包中的函数assay()函数将表达矩阵提取出来;colData()函数好像是获得一些样本信息
那里的参数可以看下面这个网站https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html然后下载你要的数据
一般来讲,我们想要使用TCGA数据,大概有三种方法,一是直接从GDC官网或官方下载工具gdc-client下载文件后自行处理,二是使用数据库如UCSC Xena或Firehouse,三是使用TCGAbiolinks R包自动下载并处理。
下面这个流程是下载这个网站公开数据的方法,使用到的工具是TCGAbiolinks(https://github.com/BioinformaticsFMRP/TCGAbiolinks),
使用TCGAbiolinks包遇到以下错误的解决方案 错误提示 Error in value[[3L]](cond) : GDC server down, try to use this package later 解决方案,用以下命令安装,代替biocLite("TCGAbiolinks") devtools::install_github('BioinformaticsFMRP/TCGAbiolinks') ps:和代理没关系。
最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据,发现很多参数不知道去哪里找,所以就查找资料总结了一下。以下载肝脏肝细胞癌(LIHC)的count值为例,下载数据最主要的一个函数是GDCquery()。我们在R里运行:
各位科研芝士的朋友好,前两期我们讲解了SNP的基础知识和数据库使用,今天我们继续聊SNP数据的下载
前面我们提到过T分期一般可以分成T1,T2,T3和T4四个期。另外一个常用的临床特征是组织病理分期,一般也是分为四期stage I,stage II, stage III和stage IV。四组在我们做差异表达分析的时候是比较麻烦的。
TCGA数据,指癌症测序数据,TCGA的全称为The Cancer Genome Atlas,癌症基因组图谱(TCGA)是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)已生成的33种癌症的基因组的关键变化全方位,多三维地图之间的合作的TCGA数据集,其包含基因组数据的两个以上的PB的,已取得公开可用,以及该基因组信息有助于癌症研究界,提高预防,诊断,和治疗癌症。
很多人因为网络原因不能使用TCGAbiolinks这个神包下载TCGA的RNA-seq数据,只能通过浏览器访问GDC TCGA的官网进行下载,而下载后得到的是一个个文件夹,对于如何整理成一个表达矩阵也是很麻烦的。
TCGAbiolinks -一个用于TCGA数据综合分析的R/BioConductor软件包,能够通过GDC Application Programming Interface (API)访问 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,来搜索、下载和准备相关数据,以便在R中进行分析。
TCGAbiolinks不仅是数据下载,它能访问、下载全部的TCGA数据(除了受限制的),用它下载的数据是最新最全的!这和直接去GDC官网,使用网页下载的方式是一样的。
其中差异分析我们使用了limma/voom,edgeR,DESeq2这3个流程,很多朋友比较感兴趣到底应该是选择哪一个,而且它们的区别是?
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
教程将提供: 1、所有与教程有关的R的所有脚本、教程所用的教学数据。 2、赠送网易云课程等价值课程。 3、提供免费共享云服务器工具镜像,并享受VIP级的答疑服务。 课程目录: 1、Linux命令与服务器将不是学习生信的障碍——如何建立适合转录组分析的便宜云服务器。 2、如何高速下载SRA数据(RNA-seq原始数据)。 3、这些数据能用吗?(数据的质量与链特异性检测)。 4、STAR分析转录组的流程。 5、相关Linux批量处理数据命令介绍。 6、DEseq2统计分析差异基因。 7、测序数据怎样进行GSEA分析。 8、热图与火山图,GO与KEGG的可视化。
TCGAbiolinks不仅提供了数据的下载功能,还提供了各种各样的下游分析功能,生存分析是TCGA数据最经典的应用场景之一,通过TCGAbiolinks可以轻松实现生存分析。
今天的是学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
TCGAbiolinks 是一个用于 TCGA 数据综合分析的 R/BioConductor 软件包,能够通过 GDC Application Programming Interface (API) 访问 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,来搜索、下载和准备相关数据,以便在 R 中进行分析。
TCGAbiolinks可以进行甲基化分析,但是功能不如ChAMP强大,甲基化分析还是首推ChAMP包。
这里我们可以发现,miRNA的前体可能对应多个成熟的miRNA,比如hsa-let-7a-1,有两个对应的成熟体,MIMAT0000062(hsa-let-7a-5p)和MIMAT0004481(hsa-let-7a-3p)。这里的值是对所有成熟体miRNA求和的结果。
之前的2行代码提取表达矩阵由于大家的R语言水平参差不齐,导致很多新手会报错,于是我把前面的代码打包为一个脚本,1行代码就可以了!
肿瘤突变负荷(TMB, tumor mutation burden)在生信数据挖掘领域是很古老的东西了,没想到还有人在用它进行各种分析...
关于TCGA的差异分析之前介绍过,不过略微有些不够完整,而且主要是演示的TCGAbiolinks这个包,对于DEseq2介绍的不够,所以今天专门说一下使用DEseq2进行差异分析。
TCGA数据下载就易用性来说,RTCGA包应该更好用,且由于是已经下载好的数据,使用比较稳定。但是也由于是下载好的数据,不能保证数据都是全新的。TCGAbiolinks包是实时调用GDC的API,所以可以获取最新的数据。
(1)第一个部分是纯代码分析某个基因在TCGA33类肿瘤中的差异分析。 (2)结合TCGA和GTEx数据库,这样做的好处是:因为TCGA中肿瘤样本和正常样本是不均衡的,甚至某些肿瘤是没有癌旁正常组织的。所以结合GTEx数据库,可以大大增加正常样本的数量。
TCGAbiolinks是一个分析处理TCGA数据的R包,通过GDC API来查询和下载TCGA的数据,同时提供了差异分析,生存分析,富集分析等常见的分析功能,网址如下
在之前我们的文章:TCGA数据挖掘(三):表达差异分析中,我们利用的是TCGAbiolinks包中的TCGAanalyze_DEA函数进行差异表达分析,我们也提到可以选择基于limma或edgeR包进行分析,TCGA数据挖掘(三):表达差异分析这一讲中我们利用的是edgeR包,之后我们在文章:TCGA数据挖掘(四):表达差异分析(2)和TCGA数据挖掘(四):表达差异分析(3)中分别也介绍了其他方法的差异分析,包括edgeR和DESeq包,今天这一讲,我们就利用TCGAbiolinks包中的TCGAanalyze_DEA函数基于limma包进行差异分析。
当然,TCGAbiolinks包还是可以下载的,但仅仅是可以下载数据而已,不过下载速度有些慢。希望开发该包的作者更新一下这个包。
DNA甲基化作为表观遗传的一种重要标记,在基因表达调控中发挥重要作用,已有研究表明,位于启动子区的甲基化会抑制基因表达。结合甲基化数据和基因表达谱数据,可以更好的分析甲基化的调控功能。
TCGA(The Cancer Genome Atlas, 癌症基因组图谱,https://portal.gdc.cancer.gov/)是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。
The Cancer Genome Atlas (TCGA), a landmark cancer genomics program, molecularly characterized over 20,000 primary cancer and matched normal samples spanning 33 cancer types.
领取专属 10元无门槛券
手把手带您无忧上云