生物信息-python 编程实例（2）

文章来源：企鹅号 - 生物信息学分析

我们拿到从测序公司或从网上下载得到测序原始文件后，用fastqc或其他软件对其进行质量评估，然后根据评估结果进行过滤或截取，一般有从5'端或3'端截取一定长度、过滤掉含 N 多的read、过滤掉测序质量较低的read，还有去掉pcr重复等。

网上可用的此类软件有很多，我们也可以自己写脚本，根据需要定制我们的过滤标准，下面就以python编程语言，过滤掉含双端测序 N 含量多的read，以练习python编程，代码示例如下图：

前几天发的推文中，已经对解析pe 测序文件的python脚本进行了解释，这里就不多说了，对以前的程序改动的部分是增加了判断：9-14 行，如果read1或read2 N 含量超过30（标准可以自己定），其实就是我们要扔掉的reads,这里也保存于文件f3和f4，N 含量少于30 就是我们要保留的数据了，保存于f5和f6。

这样，我们就完成了真正完整的双端测序去除含量N过多的质控软件了。。

今天的分享就到这里了，希望对您有所帮助，感谢你的阅读。

如果您觉得本公众号的内容有意义，

请您推荐给有需要的人，或分享于您的朋友圈。感谢！

发表于: 2018-04-052018-04-05 21:34:27
原文链接：http://kuaibao.qq.com/s/20180405G1926Q00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

生物信息-python 编程实例（2）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐