响应生信技能树的号召:lncRNA数据分析传送门, 一起来一个lncRNA数据分析实战,你现在看到的是jimmy的笔记,首发于简书:https://www.jianshu.com/p/56074633b629
step2 : 下载原始数据
首先下载sra的原始测序数据
样本量稍微有点大,https://trace.ncbi.nlm.nih.gov/Traces/sra/?study=SRP081159
多余0.5T的原始数据,我想一般人都不愿意处理它的。
我们测试8个即可,主要是走完整个流程,了解数据分析的方方面面,而不是检查别人的文章的错误之处。
分别是4个年龄段的恒河猴:1年(child),4年(Youth),10年(Adult)和20年(Old);然后各有两种性别。至于脑部区域,就不管了; prefrontal cortex (PFC), posterior cingulate cortex (PCC), temporal cortex (TC), parietal cortex (PC) and occipital cortex (OC), hippocampus CA1 and dentate gyrus (DG), andcerebellar cortex (CB) regions
但是进入了SRA数据库才发现,8个样本也是太多了,还是就分析两个吧~
下载SRA数据库里面的数据方式非常之多,选择最适合自己,并且网速最快的即可:https://www.ncbi.nlm.nih.gov/books/NBK158899/ 我比较喜欢直接wget,代码如下:
当然,如果你们学校或者服务器闲置着,也可以全部下载,整个数据流程没啥区别,就是多了一个批处理而已。
fastq 格式的测序reads如下:
然后下载作者制作的表达矩阵
这里下载到的表达矩阵是一个Excel表格,所以需要转为csv然后读入R里面进行简单的统计。
当然了,如果你看文章细心的话,会发现,作者在其GitHub上面也公布了这些表达矩阵:https://github.com/DChenABLife/RhesusLncRN
领取专属 10元无门槛券
私享最新 技术干货