我们拿到从测序公司或从网上下载得到测序原始文件后,用fastqc或其他软件对其进行质量评估,然后根据评估结果进行过滤或截取,一般有从5'端或3'端截取一定长度、过滤掉含 N 多的read、过滤掉测序质量较低的read,还有去掉pcr重复等。
网上可用的此类软件有很多,我们也可以自己写脚本,根据需要定制我们的过滤标准,下面就以python编程语言,过滤掉含双端测序 N 含量多的read, 以练习python编程, 代码示例如下图:
前几天发的推文中,已经对解析pe 测序文件的python脚本进行了解释,这里就不多说了,对以前的程序改动的部分是增加了判断:9-14 行,如果read1或read2 N 含量超过30(标准可以自己定),其实就是我们要扔掉的reads,这里也保存于文件f3和f4,N 含量少于30 就是我们要保留的数据了,保存于f5和f6。
这样,我们就完成了真正完整的双端测序去除含量N过多的质控软件了。。
今天的分享就到这里了,希望对您有所帮助,感谢你的阅读。
如果您觉得本公众号的内容有意义,
请您推荐给有需要的人,或分享于您的朋友圈。 感谢!
领取专属 10元无门槛券
私享最新 技术干货