前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信基础50问-GC含量是否应该成正态分布呢

生信基础50问-GC含量是否应该成正态分布呢

作者头像
生信技能树
发布2018-09-21 16:31:13
1.8K0
发布2018-09-21 16:31:13
举报
文章被收录于专栏:生信技能树

对NGS测序得到的成千上万条reads的GC含量进行统计,并且与正态分布形式对比已经是常规操作了,一般用fastqc软件即可分析,如下:

但现实情况往往不是这样。

不同NGS组学数据表现不一样

起初fastqc软件是为鸟枪法测序的WGS开发的,所以其报告的很多项目其实并不适合于其它NGS组学数据。比如下面的各项统计:

代码语言:javascript
复制
Basic Statistics
Per base sequence quality
Per sequence quality scores
Per base sequence content
Per base GC content
Per sequence GC content
Per base N content
Sequence Length Distribution
Sequence Duplication Levels
Overrepresented sequences
Kmer Content

那么问题来了,不同物种的ngs组学的GC含量理想范围是什么?

如果不合格,可能原因有哪些呢?

  • 接头序列污染
  • 其它物种序列污染

这个时候还可以选择 fastq_screen 等软件来检查,或者自己写脚本。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 不同NGS组学数据表现不一样
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档