之前我们也发过TCGA数据相关推送,开始本文之前回顾一下:
TCGA
就是一个被大家挖来挖去的坑,别人家用这个坑发表了20多篇cell。虽然我们发不了cell,获得数据玩一下总是好的~~~
获得TCGA数据方法概述
再比如http://gepia.cancer-pku.cn等等另外Ios app 还有一个叫GE-mini的会让你惊讶的软件更推荐后者,因为网速快~简单明了~注释新此外,还可以获得原始数据自己分析的。当然,我们只能获得有限的资料,俗称level3。其他的level需要申请,这要看实验室的公关能力了。但是如果你只是想用TCGA数据进行佐证或者,是在汇报的时候炫一下那么绝对够用了。
最简单的做法,在GEPIA直接download图
想自己折腾的,就需要借助GDC传送工具或者R包进行数据获取用GDC官网的那个Tools
https://gdc.cancer.gov/access-data/gdc-data-transfer-tool按照自己系统下载以后,去Follow那个说明书就可以了。当然windows系统也可以用生信人的工具盒https://www.shengxin.ren/article/1
对于mac用户或者想深入折腾的就需要用R语言包来分析了
往下看~
用R包获得TCGA数据的方法
有很多获得以及分析TCGA数据的方法比如解螺旋教程中的RTCGAToolbox大家可以去试一试这里我推荐选用的是TCGAbiolinks,原因就是用的舒服首先大家去安装
source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")下面想一个课题,比较一下TCGA数据库中AML(急性髓系细胞白血病)性别特异性差异表达基因翻译过来就是:找到转录组数据,按照男女对比一下,看看有哪些表达差异基因恩,这个课题是挺无聊的,不过没准有意外发现呢~~安装完了我们进行对下载数据库的参数设定那里的参数可以看下面这个网站
https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html
然后下载你要的数据然后获得这个叫SE的东西获得临床资料和Counts然后就是一堆R语言的代码操作。
包括按照性别分个组。
Deseq2分析前处理一下顺序,设置一下对照什么的。
另外关于注释的时候需要提醒一下大家由于最新的TCGA绝大部分用的是hg38的注释,比较新了;一些之前的例如下面教程的第一个方法就不适用了。
那么该怎么办呢?只能用第二种DIY的方法。对于课题中的数据结果,还是挺有意思的没想到除了那些Y染色体上的基因,还有其他表达差异的基因站长,整理一下准备去写文章了~~~
上面教程的代码加入Chris初级生信教程的朋友请到星球下载
如果还没加入Chris初级生信教程的朋友请往下看课程介绍
教程主讲人介绍
就是站长本人啦Chris Lou,医学专业硕士不知名的大学毕业,现就职一家医院,苦逼规培中····硕士阶段有幸得到了比较完整的魔鬼式的科研训练以第一作者发表SCI论文两篇,一篇11.7,一篇5.07因为不得不写国自然申请书以及结题报告,逼自己探索并总结出了这套适用于负基础学习生信的教程。
“你能教点啥?”
如果你自己有测序结果想省点钱自己分析如果你想挖掘那些NCBI中RNA-seq原始测序数据如果你想预测某些基因下游的通路如果你已经学会了各种R语言教程但是发现服务器好贵那么,还等什么?加入这个教程能够教会你,每个样本只花不到10元的价格。
从这些数据
到下面这些图教程将提供:1、所有与教程有关的R的代码包、教程所用的数据、教学视频等2、提供免费共享云服务器工具镜像v23、享受站长VIP级的答疑服务,针对一些疑难问题站长会去邀请大神们入住星球为大家答疑解惑。
请扫二维码关注我们
领取专属 10元无门槛券
私享最新 技术干货