前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >都2025年了,谁还不会下一代测序(NGS)数据质控(一)

都2025年了,谁还不会下一代测序(NGS)数据质控(一)

作者头像
简说基因
发布于 2024-12-23 04:54:40
发布于 2024-12-23 04:54:40
1400
举报
文章被收录于专栏:简说基因简说基因

群里有新朋友对NGS测序数据的质控还不熟悉,从今天开始我们就介绍几款常用的质控工具。总的来说,质控工具可以分为两类:能够自动识别测序接头的,和不能够自动识别接头的。首先要介绍的是fastp:一款能够自动识别测序接头的、C++编写的快速一站式质控工具。

主要功能特点

1. 功能多样

fastp支持多种过滤和质量检测,包括检测质量曲线、碱基含量、Q20/Q30、GC含量、重复序列、接头等信息。它还能自动识别并切除接头,这在处理数据时非常方便。

2. 高效过滤

fastp可以去除低质量、短序列和高N含量的序列。通过滑窗平均质量得分过滤5'或3'端的低质量序列,确保数据质量。

3. 纠正测序过程中的错误

fastp能纠正测序过程导致的错配、小插入或删除等。比如fastp支持双端测序错配矫正,这对于提高测序数据的准确性非常重要。能修剪polyX尾,例如mRNA常见的3'端polyA尾。它还去除测序库制备过程中人工添加的适配器序列。

4. UMI预处理

fastp还支持唯一分子识别标识(UMI)的预处理,这对于后续数据分析非常有用。

5. 详细的质量控制报告

fastp通过JSON格式和HTML网页输出结果,报告内容详细且易于理解,内容包括序列质量、GC含量、序列长度分布等信息。HTML报告中有动态图表,非常具有交互性。

此外,fastp支持数据拆分和并行处理,适合大规模数据集的处理,并且操作界面清晰,即使是初学者也能轻松上手。它还提供了丰富的选项,如详细日志输出、帮助信息、I/O选项、适配器修剪选项、全局修剪选项、重复评估与去重、polyG尾部修剪、按质量选项进行的每读切割、质量过滤选项、长度过滤选项、低复杂度过滤、过滤带有不想要的索引的读段以及重叠分析下的碱基校正选项。

总结

fastp无疑是一款不可多得的FASTQ预处理神器。它以其高效、全面、易用的特点,为研究人员提供了极大的便利。fastp需要在Linux或类Unix系统上运行,且需要编译安装,可能对某些用户来说存在一定的安装门槛。在Galaxy生信云平台(usegalaxy.cn)平台上,用户无需自己安装,只需上传FASTQ格式的DNA测序reads,使用FastQC检查reads质量,设置参数进行过滤,查看输出数据集的内容即可。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档