群里有新朋友对NGS测序数据的质控还不熟悉,从今天开始我们就介绍几款常用的质控工具。总的来说,质控工具可以分为两类:能够自动识别测序接头的,和不能够自动识别接头的。首先要介绍的是fastp:一款能够自动识别测序接头的、C++编写的快速一站式质控工具。
fastp支持多种过滤和质量检测,包括检测质量曲线、碱基含量、Q20/Q30、GC含量、重复序列、接头等信息。它还能自动识别并切除接头,这在处理数据时非常方便。
fastp可以去除低质量、短序列和高N含量的序列。通过滑窗平均质量得分过滤5'或3'端的低质量序列,确保数据质量。
fastp能纠正测序过程导致的错配、小插入或删除等。比如fastp支持双端测序错配矫正,这对于提高测序数据的准确性非常重要。能修剪polyX尾,例如mRNA常见的3'端polyA尾。它还去除测序库制备过程中人工添加的适配器序列。
fastp还支持唯一分子识别标识(UMI)的预处理,这对于后续数据分析非常有用。
fastp通过JSON格式和HTML网页输出结果,报告内容详细且易于理解,内容包括序列质量、GC含量、序列长度分布等信息。HTML报告中有动态图表,非常具有交互性。
此外,fastp支持数据拆分和并行处理,适合大规模数据集的处理,并且操作界面清晰,即使是初学者也能轻松上手。它还提供了丰富的选项,如详细日志输出、帮助信息、I/O选项、适配器修剪选项、全局修剪选项、重复评估与去重、polyG尾部修剪、按质量选项进行的每读切割、质量过滤选项、长度过滤选项、低复杂度过滤、过滤带有不想要的索引的读段以及重叠分析下的碱基校正选项。
fastp无疑是一款不可多得的FASTQ预处理神器。它以其高效、全面、易用的特点,为研究人员提供了极大的便利。fastp需要在Linux或类Unix系统上运行,且需要编译安装,可能对某些用户来说存在一定的安装门槛。在Galaxy生信云平台(usegalaxy.cn)平台上,用户无需自己安装,只需上传FASTQ格式的DNA测序reads,使用FastQC检查reads质量,设置参数进行过滤,查看输出数据集的内容即可。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有