首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >lncRNA组装流程的软件介绍之FastQC

lncRNA组装流程的软件介绍之FastQC

作者头像
生信技能树
发布2021-07-06 15:02:32
发布2021-07-06 15:02:32
1.2K0
举报
文章被收录于专栏:生信技能树生信技能树
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

拿到原始数据后我们首先采用fastqc程序进行质控,看原始数据质量情况,fastqc会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求。

FastQC的官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

一、软件安装

使用conda安装

代码语言:javascript
复制
conda install fastqc

二、fastqc的用法

安装完成以后,可以使用fastqc -h来查看软件的帮助文档。

1. 软件用法:

image-20210502172118975

2. 常用参数:
代码语言:javascript
复制
-o --outdir 输出目录,需自己创建目录

-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。

-t --threads选择程序运行的线程数,即同时处理的文件数目。

-c --contaminants,污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到。

三、软件运行命令

代码语言:javascript
复制
fastqc -t 6 -o ./02.fastqc/  ./01.raw_data/*fastq.gz 

命令参数解读:

代码语言:javascript
复制
-t 6 # 设置线程数为6
-o ./02.fastqc/ # 指定输出文件夹为./02.fastqc/
./01.raw_data/*fastq.gz  # 输入文件,01.raw_data文件夹下所有的以.fastq.gz 结尾的测序原始数据文件

四、结果解读

FastQC会对每⼀个输入的fastq.gz⽂件生成1个html⽹页和⼀个zip的压缩包。压缩包⾥是⽹⻚中包含的图⽚信息,因此我们只需要看⽹页⾥里里⾯面整理理好的内容就好。

FastQC有3种结果:绿色代表PASS;黄色代表WARN;红色代表FAIL。当出现黄色时说明需要查看结果。当然,我这里没有黄色的结果。

1.Basic Statistics

Basic statistics是该fastq一些基本信息,主要有

代码语言:javascript
复制
Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用

Total Sequences: 输入文本的reads的数量

Sequences flagged as poor quality:标记为差的碱基序列

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高,一般有物种特异性。
2.Per base sequence quality

图中的横坐标表示什么意思?

代码语言:javascript
复制
横轴为read长度,例如:测序列第1个碱基到第150个碱基

图中的纵坐标表示什么意思?

代码语言:javascript
复制
纵坐标表示每一bp所对应的测序质量值,
将该碱基判断错误概率值P取log10之后再乘以-10,
得到的结果再加上pherd值对应ASCII表所得到的值就是该碱基测序的质量量值;
Q = -10*log10(error P)
即20表示1%的错误率,30表示0.1%的错误率;

图中的蓝色线是什什么意思?

代码语言:javascript
复制
蓝⾊的细线是各个位置的质量值的平均值的连线;

图中的box 下面的bar , 上面的bar,箱体的下沿,箱体的上沿,箱体内部的横线分别代表什么意思?

代码语言:javascript
复制
每1个boxplot,都是该位置的所有序列列的测序质量量的⼀个统计,
上⾯面的bar是90%分位数;
下⾯面的bar是10%分位数;
箱⼦子的中间的横线是50%分位数;
箱体上缘是75%分位数;
箱体下缘是25%分位数;
3.Per sequence quality scores

横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好。

4.Per base sequence content

横坐标是什什么意思?纵坐标是什什么意思?

代码语言:javascript
复制
横轴代表1到150bp;纵轴代表ATCG在该bp的百分比。

为什么前⾯面的几bp线是波动的?后⾯面的线是平衡的?

代码语言:javascript
复制
根据Wason-Crick配对原则,A和T应该相等,G和C应该相等;
但是一般测序的时候,刚开始测序仪状态不不稳定,很可能出现不不平衡的情况。
像这种情况,
如果测序的得分很高,可以不进行trim开始部分的序列列信息;
如果测序得分很低,需要进行trim开始部分的序列列信息。


当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
5.Per sequence GC content
代码语言:javascript
复制
横轴表示GC含量,纵轴表示不同GC含量对应的read数;

蓝线是理论分布(正态分布,通过从所测数据计算并构建理论分布),红色是实际情况,两个比较接近判为好的。

曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;

如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。
6.Per base N content
代码语言:javascript
复制
当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。我这里几乎没有。
7.Sequence Length Distribution
代码语言:javascript
复制
理论上每次测序仪测出的read长度是一致的,但是由于建库等因素通常会导致一些小片段,如果报FAIL,表明此次测序过程中产生的数据不可信。
8.Sequence Duplication Levels
代码语言:javascript
复制
统计序列完全一致的reads的频率,横轴表示重复水平,纵轴表示重复⽔平序列列占所有序列的百分比。一般测序深度越高,越容易产生一定程度的重复序列。    

duplicate是全部序列列的duplicate的情况吗?还是随机筛选了一部分?为什什么要这样做?

代码语言:javascript
复制
是选择的每一个⽂文件里前100,000条序列作为样本进行的计算,因为样本本身很⼤,前100,000已经能够代表样
本的重复性。
9.Overrepresented sequences
代码语言:javascript
复制
当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。
10.Adapter Content
代码语言:javascript
复制
横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。
11.Per tile sequence quality

每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 拿到原始数据后我们首先采用fastqc程序进行质控,看原始数据质量情况,fastqc会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求。
    • 一、软件安装
    • 二、fastqc的用法
      • 1. 软件用法:
      • 2. 常用参数:
    • 三、软件运行命令
    • 四、结果解读
      • 1.Basic Statistics
      • 2.Per base sequence quality
      • 3.Per sequence quality scores
      • 4.Per base sequence content
      • 5.Per sequence GC content
      • 6.Per base N content
      • 7.Sequence Length Distribution
      • 8.Sequence Duplication Levels
      • 9.Overrepresented sequences
      • 10.Adapter Content
      • 11.Per tile sequence quality
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档