前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GenomeScope评估基因组大小和杂合度

GenomeScope评估基因组大小和杂合度

作者头像
生信修炼手册
发布2020-05-08 16:26:07
1.9K0
发布2020-05-08 16:26:07
举报
文章被收录于专栏:生信修炼手册

欢迎关注"生信修炼手册"!

在测序一个新物种时,首先需要对该物种的基因组结构有所了解,包括以下几个内容:

  1. 基因组大小
  2. 重复片段大小
  3. 杂合度大小

基因组越大,杂合度也大,重复片段越大,该物种的组装难度就越大。通常我们会通过genome survery分析,对以上几个指标进行简单评估,核心就是通过kme 分布来进行评估。

对于不同的基因组杂合度,kmer分布如下

当杂合度为0.001时,只有一个峰;当杂合度为0.01和0.02时,都有多个峰。通过探究杂合度和kmer分布图之间的关系,可以通过kmer分布来评估杂合度。 GenomeScope 软件可以根据kmer分布,评估基因组大小和杂合度,github地址如下

https://github.com/schatzlab/genomescope

安装过程也比较简单,直接下载就可以了

代码语言:javascript
复制
git clone https://github.com/schatzlab/genomescope

在软件的安装目录下,genomescopre.R文件是核心的运行脚本,用法如下

代码语言:javascript
复制
Rscript  genomescope.R kmer.hist 31 150 test

第一个参数 kmer.hist 是jellyfish软件产生的kmer频数分布数据,第二个参数31代表kmer的长度,第三个参数150代表序列读长,第四个参数test 代表输出目录的名称。

在运行过程中,会输出如下信息

代码语言:javascript
复制
GenomeScope analyzing kmer_hist k=31 readlen=150 outdir=test
Model converged het:0.0236 kcov:21.7 err:0.00575 model fit:2.21 len:67340147

het表示杂合度,为2.36%;len表示基因组大小,为67M左右。输出目录文件列表如下

代码语言:javascript
复制
├── model.txt
├── plot.log.png
├── plot.png
├── progress.txt
└── summary.txt

通常关注summary.txt,plot.png 这2个文件就可以了。

1. summary.txt

内容如下:

代码语言:javascript
复制
GenomeScope version 1.0
k = 31
property               min            max              
Heterozygosity         2.3105%        2.40497%          
Genome Haploid Length  66,465,582 bp  67,340,147 bp    
Genome Repeat Length   49,595,265 bp  50,247,848 bp    
Genome Unique Length   16,870,317 bp  17,092,300 bp    
Model Fit              80.781%        94.5621%          
Read Error Rate        0.574733%      0.574733%

在该文件中,会给出杂合度,基因组大小。重复片段长度等详细信息。

2. plot.png

示意图如下:

蓝色区域是实际观测到的kmer分布,红色线条下方是一些频数很低的kmer,这些kmer被认为是测序错误,黑色线条下方被认为是可靠的kmer数据,只拿这部分数据来评估基因组的大小,垂直的虚线认为是kmer的几个峰值,黄色线条下方的区域认为是非重复区域的大小。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. summary.txt
  • 2. plot.png
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档