今天是生信星球陪你的第24天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
上一期
转录组实战(二)
,我们学了如何将ncbi存储的sra文件转为fq文件,并对其进行了质控,对自己的数据做到了心中有数,今天我们要下载公共数据库的参考数据咯~_~
1. 参考数据下载
啥也不说,先上脚本图
好了,接下来豆豆将逐一介绍:
关于下载脚本:
line2: 人类基因组一共23对染色体,1-22 + X + Y + M(线粒体 mitochondrion)首先构建一个for 循环,i是变量, $(seq 1 22) 是从1-22建立序列, 再加上X、Y、M;
line3: do固定格式,echo $i 输出变量i的值(一会用);
line5: 执行的操作是wget下载命令,注意下载地址中只有后面chr..是不同的,所以我们只需要把刚刚赋值的i放在这里,要加上${ }哦;
line8: done固定格式
line9: gunzip 解压缩命令,用于解压.gz格式。*是通配符,表示解压缩全部刚才下载的.gz文件
line10: 又是一个for循环,将对所有的chr进行操作
line11: cat命令将所有的染色体【按次序!】输入到一个文件hg19.fasta中
下载完成的hg19 压缩文件大概8/900M,解压缩后为3G
基本重难点都在这里了!
2. IGV软件准备
IGV软件全称:Intergrative Genomics Viewer 是一个高效的查看基因数据的可视化软件
官网:
http://software.broadinstitute.org/software/igv/home
⚠️:安装igv 之前需要先安装java 8 以上版本
好了,你先下载吧~豆豆要回去睡觉了
初学生信,很荣幸带你迈出第一步。
领取专属 10元无门槛券
私享最新 技术干货