对NGS测序得到的成千上万条reads的GC含量进行统计,并且与正态分布形式对比已经是常规操作了,一般用fastqc软件即可分析,如下:
但现实情况往往不是这样。
起初fastqc软件是为鸟枪法测序的WGS开发的,所以其报告的很多项目其实并不适合于其它NGS组学数据。比如下面的各项统计:
Basic Statistics
Per base sequence quality
Per sequence quality scores
Per base sequence content
Per base GC content
Per sequence GC content
Per base N content
Sequence Length Distribution
Sequence Duplication Levels
Overrepresented sequences
Kmer Content
那么问题来了,不同物种的ngs组学的GC含量理想范围是什么?
如果不合格,可能原因有哪些呢?
这个时候还可以选择 fastq_screen 等软件来检查,或者自己写脚本。