Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MultiQC对FastQC结果的解读

MultiQC对FastQC结果的解读

作者头像
小汪Waud
发布于 2023-02-16 08:01:19
发布于 2023-02-16 08:01:19
2.9K0
举报
文章被收录于专栏:小汪Waud小汪Waud

正文共5498字,预计阅读时间为14分钟。

本期解读转录组上游分析中MultiQC对质控软件FastQC处理后的结果。

FastQC是一款能够对高通量测序数据进行质量评估的软件,对每一个样本生成一个报告。

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

我们通常使用FastQC对raw_data和clean_data做质控,拿到的结果大致相同,我们这里以clean_data为栗子。

除了我们经常使用的用浏览器打开fastqc报告,它同样具有针对不同系统的桌面版本

正如前面所说,每一个样本都有一个对应的html报告,报告内容如下

FastQC Report Content

当我们想综合所有的样本时,我们就需要MultiQC的帮助。

MultiQC

MultiQC的报告分为General Stats和FastQC两部分,其中FastQC又分为11个小部分,接下来我们依次解读。

MultiQC Content

General Stats

在这里我们能看到各个样本的概况或基本信息

点击左侧的Configure Columns可以自定义展示列参数

Configure Columns

共有五个参数,分别是:

  • %Dups:Duplicate Reads Percent,重复reads的比例
  • %GC:Average %GC Content,平均GC含量百分比
  • Length:Average Sequence Length,平均序列长度
  • %Failed:Percentage of modules failed in FastQC report,报告中不合格数据的百分比
  • M Seqs:Total Sequences,总测序量

FastQC

Sequence Counts

该部分对每个样本序列进行了计数,横坐标为总的reads数(和General Stats中的M seqs一致),纵坐标为不同样本(此处还包含了同一样本的两端测序数据)。

Sequence Quality Histograms

此部分为reads中每个位置(从0到150bp)的平均质量值,横坐标为位置,需要注意的是X轴并不是均匀的;纵坐标为质量分数,计算公式为

所以当质量分数为40的时候,p就是0.0001。

图中绿色表示合格(通过),黄色代表警告,红色则代表失败(不合格)。

不仅仅是这部分,其他部分也都有这样的标志,但FastQC的作者也说过了 “具有'WARN'或'FAIL'标志的模块结果并不一定意味着序列运行失败。'警告'和'失败'标志意味着研究人员必须停下来,考虑在特定样本和所运行的测序类型的背景下,结果意味着什么。”

Researchers should be very cautious about relying on these flags when assessing sequence data. The thresholds used to assign these flags are based on a very specific set of assumptions that are applicable to a very specific type of sequence data. The thresholds used to assign these flags are based on a very specific set of assumptions that are applicable to a very specific type of sequence data. Specifically, they are tuned for good quality whole genome shotgun DNA sequencing. They are less reliable with other types of sequencing, for example mRNA-Seq, small RNA-Seq, methyl-seq, targeted sequence capture and targeted amplicon sequencing. Therefore, a module result that has a “Warn” or “Fail” flag does not necessarily mean that the sequence run failed. “Warn” and “Fail” flags mean that the researcher must stop and consider what that results mean in the context of that particular sample and the type of sequencing that was run.

MultiQC报告的结果

fastqc报告的结果(和上图不是同一数据)

Per Sequence Quality Scores

该部分为reads次数和平均质量分数之间的关系,可以理解为reads质量的分布情况,当质量小于27时报“警告”,小于20时报“失败”

由图中可以看出来,峰值越靠右代表高质量的reads越多,数据也就越好。

good vs bad

Per Base Sequence Content

该部分展现了reads每一个位置的ATCG四种碱基的分布情况。

fastqc报告的结果

fastqc报告中,横轴为位置,纵轴为碱基含量,正常情况下每个位置每种碱基出现的概率是相近的,四条线应该平行且相近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有污染。上右图的前10bp,碱基频率有明显的差别,说明有污染。

当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。

MultiQC报告的结果

MultiQC报告中,能很直观的看到哪些样本是“WARN”,哪些是“FAIL”。当把鼠标放到图上时,还能清楚的看到每一个位置碱基的分布情况。

在大多数RNAseq文库制备方法中,前10-15bp碱基分布明显不均匀,这是正常的,具体取决于使用的文库试剂盒的类型。即使序列完全正确,这种碱基组成不均匀的数据也会被认为是不合格。

Per Sequence GC Content

该部分展现了reads的平均GC含量,我们能看到有8个“正常”,4个“警告”。

MultiQC报告的结果

对于全基因组鸟枪测序,期望所有读数的GC含量应该形成正态分布。如果观测到的分布偏离理论太远,FastQC将称为“失败”。

下图的fastqc报告来自非常高质量的RNAseq数据,但FastQC仍然认定为“警告”,因为它比理论曲线窄。这种情况非常正常,因此可以忽略。

fastqc报告的结果

如果出现了异常的双峰或多峰,可以看一下健明老师之前的推文

RNA-seq的fastq文件里面为什么有gc含量的双峰

Per Base N Content

该部分展现了不同样本不同位置N的比例。当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”正常情况下,N值非常小。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。

MultiQC报告的结果

Sequence Length Distribution

该部分为reads的长度分布,当reads长度不一致时报"WARN";当有长度为0的reads时报“FAIL”。

MultiQC报告的结果

Sequence Duplication Levels

该部分展现了不同拷贝数的reads的频率。横坐标是duplication的次数(level),纵坐标是Deduplicated reads的百分比,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。

通常有两种重复reads的来源,PCR重复即biased PCR富集和真正高表达的序列。前者会错误的反映样本序列中的真实比例,后者是正常情况。测序深度越高,越容易产生一定程度的duplication;但如果duplication的程度很高,就提示我们可能有bias的存在。

MultiQC报告的结果 12个都为FAIL

fastqc报告的结果

在左图表头下方有一行小字"Percent of seqs remaining if deduplicated 99.31%",意思是去重复后还剩下的序列为99.31%。

关于图中的红蓝两条线,知乎大佬对其的解释会更为简单,原文我放在参考资料的3,需要的请自行查看,我在这里概括一下。

蓝线代表总reads的重复情况,红线代表Deduplicated reads(去重复reads)的重复情况(有点类似于R中的unique函数),代表所有不同的reads。

蓝线表示total reads中出现1次、2次、3次...n次的reads占total reads的比例,红线表示deduplicated reads中出现1次、2次、3次...n次的reads占deduplicated reads的比例。

图源知乎媛子

举两个栗子,

  • 🌰1:共有20条reads,10条出现1次,5条出现2次,其生成的图如上图的上部分所示。此时Total reads=20,deduplicated reads=10+5=15,deduplicated percentage= 15/20=75%;当出现次数为1时,%total reads=10/20=50%,%deplicated sequences=10/15=66%;当出现次数为2时,%total sequences=10/20=50%;%deplicated sequences=5/15=33%。计算结果与图中一致。
  • 🌰2:有20条reads,10条出现1次,1条出现10次,其生成的图如上图的下部分所示。此时Total reads=20,deduplicated reads=10+1=11,deduplicated percentage=11/20=55%;当出现次数为1时,%total sequences=10/20=50%,%deplicated sequences=10/11= 91%;当出现次数为10时,%total sequences=10/20=50%,%deplicated sequences=1/11=9%。计算结果与图中一致。

同时大佬还给了具体例子解释如何根据deuplicated图来查看数据的重复情况

  • 🌰1:图1表头说该数据的deduplicated percentage=95.09%,说明重复率特别低。观察蓝色和红色折线发现两者几乎重叠,而且有95%以上reads只出现1次,低于5%的reads重复数目大于10。因此,该数据重复度特别低。

图1

  • 🌰2:图2为RNAseq数据的评估结果。从图中知道该数据的deduplicated reads=49.38%,即有一半可能存在重复。但在RNAseq数据中,可能存在某些转录本较短,表达水平很高,导致在随机打断后被重复抽到测序的概率大大增加。因此对于RNAseq数据来说,重复性较高的序列不一定就是PCR重复。折线显示大部分序列的重复性在2-9次,它们极可能覆盖了一些“normal”基因;部分序列的重复性在10-100次,它们可能覆盖在rRNA或一些重复序列上;只有极少数序列的重复度超过100。因此,该RNASeq数据是一个多样性较丰富的文库。
  • 🌰3:图3的deduplicated reads非常低,观察折线发现当出现次数为1时,%Deduplicated sequences高达80%,而%Total sequences则低于10%;当出现次数大于1k时,%Deduplicated sequences在1%左右,而%Total sequences则在20%以上。这些数据说明了有极少数序列重复出现了上1千次,导致整个文库的重复率特别高,这少数部分的序列应该是PCR重复。

图3

Overrepresented sequences

该部分会展现超过预期数量的序列,参考意义不大。

A sequence is considered overrepresented if it accounts for ≥ 0.1% of the total reads.

MultiQC报告的结果 3个通过9个警告

在DNA-Seq数据中,任何单一序列都不应该以足够高的频率出现而被列出。对于RNA-Seq数据,可能有一些转录本非常丰富,以至于它们被认为是过度表达的序列。

Adapter Content

该部分展现了接头含量。

MultiQC报告的结果

理想情况下,Illumina序列数据不应存在任何接头序列,然而,当使用较长的读取长度时,一些文库插入可能比读取长度短,从而导致在read的3'末端读取到接头。这更有可能发生在RNASeq文库中,其中文库插入大小的分布更加多样,并且可能包括一些短插入。

下面的例子来自高质量的RNASeq文库,该文库的一小部分具有小于150bp的插入片段。

fastqc报告的结果

Status Checks

该部分只存在于MultiQC的报告中,我们可以非常直观的看到不同样本的不同指数的情况。

以上。

参考资料:

  1. https://www.cnblogs.com/adawong/articles/7412764.html
  2. https://rtsf.natsci.msu.edu/genomics/tech-notes/fastqc-tutorial-and-faq/
  3. https://zhuanlan.zhihu.com/p/44914479
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小汪Waud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
R|fastqcr QC数据处理
FastQC是一款较常用的高通量数据质控软件,每个样本会得到一个zip和html的结果文件,查看略有不便。
生信补给站
2020/08/06
1K0
转录组分析 | fastqc进行质控与结果解读
做转录组测序,通常公司是不给分析的,分析也要自己多花钱,当然不同公司收费不一样,有的可能带有简单的分析。之前测序的第一家公司给了简单的分析,后面换了一家测序公司,不给分析。所以我得自己分析啦,在分析的时候顺便写一下教程。分享给大家,要分析转录组数据,首先得知道测序原理【参考文章:illumina、Sanger、第三代和第四代测序技术原理】,还有就是了解生信分析中一些文件格式【参考文章:生信中常见的数据文件格式】,当然,还有其他一些生物背景知识,除此以外,还需要会Linux,这个是一个漫长的学习过程。本文就介绍转录组数据分析的第一步分析:质控,主要就是fastqc这个软件的使用和结果解读。
DoubleHelix
2020/09/23
13.8K1
转录组分析 | fastqc进行质控与结果解读
测序数据的解析:Fastq与FastQC
二代测序平台获得的原始数据为fastq(或为压缩文件fq.gz)格式,包含双末端测序所得的正向和反向两个文件(通常用“1”和“2”来区分),如下所示:
SYSU星空
2022/05/05
5.4K0
测序数据的解析:Fastq与FastQC
生信技能树-day17 转录组上游分析-数据质控、过滤
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
2730
生信技能树-day17 转录组上游分析-数据质控、过滤
生信基础50问-GC含量是否应该成正态分布呢
起初fastqc软件是为鸟枪法测序的WGS开发的,所以其报告的很多项目其实并不适合于其它NGS组学数据。比如下面的各项统计:
生信技能树
2018/09/21
1.9K0
生信基础50问-GC含量是否应该成正态分布呢
lncRNA组装流程的软件介绍之MultiQC
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
生信技能树
2021/07/06
7110
lncRNA组装流程的软件介绍之FastQC
FastQC的官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
生信技能树
2021/07/06
8970
转录组上游分析流程(二)
使用ascp(Aspera Connect)来下载数据,它是 NCBI 的另一个官方工具。
凑齐六个字吧
2024/10/24
1330
转录组上游分析流程(二)
宏转录组学习笔记(二)
继续前面的学习,前面已经把软件安装完成,数据库准备好,下面就是分析的过程了,基本上按照原文的命令进行的,由于教程中没有给出tara_f135_full_megahit.fasta这个文件,这里我们就把这几个样本的组装提到了前面,自己组装获得这个序列,然后再进行物种注释。
用户1075469
2020/03/31
1.6K0
宏转录组学习笔记(二)
illumina数据质控过滤
我们拿到测序的原始数据后,其实并不是所有的都是能用的数据,我们需要先做质控与过滤。首先认识下碱基的指标Q20(百分之一出错率),质量值>=Q20:好碱基,质量值<Q20:坏碱基。不过现在基本都用的Q30(千分之一)、Q40(万分之一)。
生信喵实验柴
2021/12/27
3K0
illumina数据质控过滤
转录组分析 | 使用FastQC进行数据质控
在拿到测序数据后,我们首先要了解手中数据的质量,因为测序的质量直接影响下游分析的准确性,所以在我们进行转录组数据分析前,第一步应该判断测序质量的好坏。
生信小王子
2020/08/10
2.8K0
转录组分析 | 使用FastQC进行数据质控
FastQC评估测序数据的质量
解压缩之后,在FastQC目录下有一个可执行文件fastqc, 可以输入以下命令查看软件的帮助信息
生信修炼手册
2020/05/08
2.3K1
FastQC评估测序数据的质量
FastQC | 对测序数据进行质控及质控报告解读
本期将演示如何使用FastQC对二代测序数据进行质控以及对质控报告进行全方位的解读。
生信real
2022/08/18
5K0
FastQC | 对测序数据进行质控及质控报告解读
经典教程:全转录数据分析实战
本文介绍全转录组数据分析方法,我们将以拟南芥测序数据为例,在 UseGalaxy.cn 云平台进行数据分析实践。
简说基因
2024/04/03
3050
经典教程:全转录数据分析实战
duplicated是重复的reads,那deduplicated又是什么?
上期我在 cellranger定量结果详解 记录了我手动计算Sequencing Saturation 时遇到的问题
生信技能树jimmy
2023/08/31
5910
duplicated是重复的reads,那deduplicated又是什么?
fqkit: 一个处理fastq序列的小工具
一个用于处理fastq测序文件的命令行小工具,功能还在不断更新中,子命令也不多,支持gzip压缩文件的输入和输出(结果文件名以.gz结尾,结果会自动压缩)。
生信小驿站
2023/12/06
7440
fqkit: 一个处理fastq序列的小工具
ATAC-seq经典分析流程(上)
--split-3 把双端测序数据拆分成两个文件,对单端测序数据不起作用.fastq-dump默认会把双端测序结果保存到一个文件里
生信菜鸟团
2023/12/28
2.5K0
ATAC-seq经典分析流程(上)
转录组 - raw data/QC/过滤
生信技能树学习笔记 Raw data 背景 先了解 测序长度 单端/双端? 测序对象 mRNA?lncRNA? fastq数据格式 Raw data 或 Raw reads 结果以FASTQ文件格式存
用户10328045
2023/02/22
1.7K0
生信软件 | FastQC(质量控制,查看测序质量)
fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq
白墨石
2021/01/13
2.3K0
生信软件 | FastQC(质量控制,查看测序质量)
RNA-seq 保姆教程:差异表达分析(一)
RNA-seq 目前是测量细胞反应的最突出的方法之一。RNA-seq 不仅能够分析样本之间基因表达的差异,还可以发现新的亚型并分析 SNP 变异。本教程[1]将涵盖处理和分析差异基因表达数据的基本工作流程,旨在提供设置环境和运行比对工具的通用方法。请注意,它并不适用于所有类型的分析,比对工具也不适用于所有分析。此外,本教程的重点是给出一般的分析流程。对于更大规模的研究,强烈建议使用集群来增加内存和计算能力。
数据科学工厂
2023/02/27
1.8K0
RNA-seq 保姆教程:差异表达分析(一)
相关推荐
R|fastqcr QC数据处理
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档