今天是生信星球陪你的第70天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
终于时隔将近两个月,花花也学到了质控啦!
1.用到的数据格式
这里涉及到一个以前讲过的fastq格式。一共四行,有用的也就两行吧。第二行:碱基序列,第四行:质量值。一三行不是没用,只是非重点。
这是一个fastq文件的解释。
fasta和fastq的示例和区别
至于fastq第一行的用冒号隔开的每一个字符串是什么意思,上图也有说明。佩服豆豆的配图。
2.用到的软件--fastqc
(1)自动挡:conda install fastqc -y
(2)手动挡
首先新建文件夹mkdir fastqc && cd fastqc,放哪里看自己心情咯 - -> 然后去下载 https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip 再修改权限chmod 755 fastqc 一般服务器的java是配置好的,如何检查?java -version 如果自己的目录中没有,服务器其他目录中也会有,拷贝到自己的环境变量就好 cp xxx的java ~/.bashrc。如果自己有root权限可以自己安装,这个教程这里先不展开,有需要的自行搜索。 (来自豆豆)
3.质控命令
新手级:
进阶:
解释:
直接fastqc
新建存放结果的目录。-o选项是输出的意思。会将结果文件输出到你指定的目录下。
在此补充听课中get到的一个关于脚本的技巧:默认是执行完第一行命令,再开始第二行。在每行行尾添加&后,第二行命令不需要等待第一行运行结束再开始执行。
在每行行首添加,则可以避免你的笔记本断网对脚本执行的影响。
4.质控结果
质控生成的结果文件有两个:一个是zip,另一个是html。
用filezila将html文件传输到电脑(这里忘记的请参考
给你一根数据线
)
用浏览器打开,会显示一堆图片
映入眼帘的是这些陌生的图图。
左侧导航显示了11个质控结果图的名称。对错和警告,都仅作参考。简称“就当没看见”。
其中最重要的就是per base sequence quality(A、B)。就每个位置的碱基质量情况给出一个直观的描述。
绿、橘黄、红颜色一次代表了质量从高到低。一般公司返回的数据都是比较靠谱的,质量不错。
此处再次盗用豆豆的图O(∩_∩)OC、D两图则是四种碱基的比例分布。理论上,A=T,C=G,但事实是,在测序添加接头等过程中并不是所有的序列都能被测到,所以相当于一个随机抽样,在测序量足够大的情况下A≈T,C≈G,则说明测序质量好。
E/F是GC含量,测序越随机,结果越美好。
5.数据常见问题
(1)低质量
(2)Adapter序列
(3)细菌污染
(4)reads过短
肿么处理?下一个工具走起!
走喽!这篇推送还是写的很惬意的。ps:明天看牙医,看到这里的朋友后台留言一下啊。
初学生信,很荣幸带你迈出第一步。
领取专属 10元无门槛券
私享最新 技术干货