Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全基因组 | 三代长读长基因组组装 -- Canu

全基因组 | 三代长读长基因组组装 -- Canu

原创
作者头像
三代测序说
修改于 2025-05-29 05:56:47
修改于 2025-05-29 05:56:47
2280
举报
文章被收录于专栏:三代测序-说三代测序-说

今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组的组装,最早是为了应对低碱基质量(high-noise)的数据(如来自PacBio RSII/Sequel, ONT-MinION)。2017年3月15日,Canu发表于《Genome Biology》期刊上,题目为Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation,第一作者为美国国家人类基因组研究所(NHGRI)基因组信息学部门的Sergey Koren博士(图1)。他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 CanuHiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。此外,他们还在 Telomere-to-Telomere(T2T)项目中担任领导角色(共1第2位),完成了首个完整(T2T)的人类基因组序列。

图1.Koren_Sergey博士
图1.Koren_Sergey博士

长读长的单分子测序技术彻底革新了从头基因组组装(de novo assembly)的方法,并使得构建参考级别质量(reference-quality)的基因组成为可能。然而,由于这类技术的错误率相对较高,高效而准确地组装大型重复序列和高度相似的单倍型(haplotypes)依然面临挑战。

在此,提出 Canu来应对这些问题。CanuCelera Assembler的继任者,专门为高噪声(high-noise)的单分子测序数据设计Canu引入了对 纳米孔测序(nanopore sequencing)的支持,将所需测序深度减半,并在提高组装连续性的同时,相比 Celera Assembler 8.2 将大型基因组的运行时间缩短了一个数量级。

这些进步得益于一系列新的重叠与组装算法的引入,包括:

  • 一种基于 tf-idf加权的 MinHash 的自适应重叠策略;
  • 一种稀疏的组装图构建方法,可避免将diverged的重复序列和单倍型误判为同一序列而错误地合并。

Canu 可以稳定地组装完整的微生物基因组,并使用 Pacific Biosciences(PacBio)或 Oxford Nanopore 技术近乎完整地组装真核染色体。在人的和果蝇(Drosophila melanogaster)的 PacBio 数据集中,Canu实现了 contig NG50 超过 21 Mbp 的优异性能。对于无法用线性序列表示的组装结构,Canu提供了基于图的组装结果输出,采用图形碎片组装格式(graphical fragment assembly,GFA),便于进一步分析或与其他分型(phasing)和搭架(scaffolding)技术整合使用(图2)。

图2. Canu文章摘要
图2. Canu文章摘要

一、软件介绍

Canu能利用测序错误率较高的三代测序数据(早期PacBio CLR或ONT)进行基因组de novo组装。从Canu (v1.9)开始,也支持PacBio HiFi数据的组装。Canu的组装准确度高、参数完备,能得到较好的基因组组装结果。相应地,资源消耗较多,较其它组装工具而言运行会稍慢(如Flye)。

Canu对原始数据的组装分为三个阶段四个步骤 (图3):

1. 矫正 (Correction)

  • 调用 MHAP工具 (MinHash alignment process) 对高噪声 (high-noise) 的序列进行比对,寻找序列之间的重叠;
  • 根据比对结果将序列进行聚类,生成一致性 (consensus) 序列,从而对测序数据进行矫正.

2. 修剪 (Trim)

  • 采用重叠修剪 (overlap-based trim) 的方法,将测序序列中不产生重叠的部分去除.

3.组装 (Assembly)

  • 使用矫正和修剪后的序列,进行基于OLC算法的组装,生成contigs.

相关知识:

目前,广泛使用的基因组组装算法有两种:OLC算法 (Overlap-Layout-Consensus) 和DBG算法 (De-Bruijn-Graph)。通俗地说,OLC适用于reads读长较长的数据 (三代测序),是在测序reads之间找overlap和连接路径;DBG适用于reads读长较短的数据 (二代数据),是对测序reads取kmer,在kmer之间找overlap和连接路径。

图3.Canu分析流程
图3.Canu分析流程

二、软件安装

Canuhttps://github.com/marbl/canu

版本:v2.3(2024.12.18)

代码语言:bash
AI代码解释
复制
#conda一键安装部署
$ conda install  -c bioconda canu
# v2.3

#安装完毕后,调用主程序查看帮助
$ canu -h

三、软件使用

输入序列支持FASTAFASTQ格式,既可以是未压缩的,也可以是使用 .gz.bz2.xz压缩的。注意,不支持 .zip格式。

Canu可以恢复未完成的组装任务,支持在系统中断或其他异常终止后继续运行。每次重新启动 Canu时,它会检查组装目录中的文件,以决定接下来的操作。例如,如果除了两个重叠计算任务之外其他都已完成,Canu只会计算这两个尚未完成的任务。为了获得最佳效果,请不要在重启之间更改Canu的参数设置。

Canu会自动检测可用的计算资源,并根据组装规模进行自我调整,尽可能充分并合理地利用所有可用资源。也可以用maxMemorymaxThreads参数来设置。

使用示例:

PacBio测序数据 (CLR模式)

代码语言:bash
AI代码解释
复制
$ canu -p ecoli -d test genomeSize=4.8m -pacbio pacbio.fastq

Continuous Long Reads (CLR)测序模式是最早PacBio RS II/Sequel 主要的测序模式,错误率相对较高。

Nanopore测序数据

代码语言:bash
AI代码解释
复制
$ canu -p ecoli -d test genomeSize=4.8m maxInputCoverage=100 -nanopore nanopore.fastq

PacBio测序数据 (HiFi)

代码语言:bash
AI代码解释
复制
$ canu -p asm -d ecoli_hifi genomeSize=4.8m -pacbio-hifi ecoli.fastq

参数说明

  • -p:组装输出文件前缀
  • -d:组装文件输出文件夹
  • genomeSize=4.8m:指定待组装基因组的大小。这里设置为 4.8m,表示预估的基因组大小为 4,800,000 个碱基对。
  • -pacbio-raw:指使用pacbio CLR 原始数据
  • -nanopore-raw:指使用nanopore 原始数据
  • -pacbio-hifi:指使用pacbio-hifi reads进行组装
  • rawErrorRate:未纠错read之间允许的最大差异碱基数,默认 PacBio reads为0.300, Nanopore reads为0.500
  • correctedErrorRate:纠错后read之间允许的最大差异碱基数,默认 PacBio reads为0.045, Nanopore reads为0.144
  • corOutCoverage:用于纠错的数据最小coverage,默认是40x
  • minReadLength:使用长度大于该阈值的reads,默认为1000
  • minOverlapLength:最小overlap的长度,默认为500
  • maxThreads:设置运行的最大线程数

四、输出结果

Canu运行后生成的全部结果在输出目录里,内容如下(图4):

CorrectionTrimmingUnitigging文件夹里存放了纠错、修剪和组装的过程文件,主要结果文件包括:

🧬 ecoli.contigs.fasta:最终的组装contigs.

📋 ecoli.report:记录整个Canu运行过程及结果.

🔁 ecoli.correctedReads.fasta.gz:纠错后的reads.

📑 ecoli.trimmedReads.fasta.gz:修剪后的reads.

图4.Canu输出结果
图4.Canu输出结果

五、帮助文档

代码语言:bash
AI代码解释
复制
canu [-version] [-citation] \
     [-haplotype | -correct | -trim | -assemble | -trim-assemble] \
     [-s <组装参数文件>] \
     -p <组装前缀> \
     -d <组装目录> \
     genomeSize=<数值>[g|m|k] \
     [其他选项] \
     [-haplotype{名称} illumina.fastq.gz] \
     [-corrected] \
     [-trimmed] \
     [-pacbio |
      -nanopore |
      -pacbio-hifi] 文件1 文件2 ...


-haplotype   生成单倍型特异的reads
-correct     生成纠错后的reads
-trim       生成修剪后的reads
-assemble    进行组装
-trim-assemble 先修剪后组装

genomeSize 应为目标样本的单倍体基因组大小的最佳估计。主要用于评估 reads 的覆盖度,而不是作为期望的组装大小,支持小数。

useGrid=string  指定是否使用集群:true 表示使用集群,false 表示本地运行,remote 表示配置集群但不提交任务。

rawErrorRate=fraction-error  原始未纠错 reads 的允许差异比。低质量 reads 可设为较大值。默认值为:PacBio:0.300   Nanopore:0.500

correctedErrorRate=fraction-error  纠错后 reads 的允许差异比。对于覆盖度较低或具有生物差异的数据,稍微提高此值有益。默认值为:PacBio:0.045   Nanopore:0.144

gridOptions=string  提交任务时传给集群的命令字符串,例如设置最长运行时间。不建议用于设置内存限制,Canu 会自动处理内存分配。

minReadLength=number  忽略长度小于该值的 reads。默认:1000

minOverlapLength=number  忽略长度小于该值的 reads 重叠。默认:500

使用 -haplotype{名称} 指定单倍型,并在其后跟任意数量的 Illumina 单倍型特异性 reads 文件。{名称} 为自定义名称,仅限字母和数字。


测序平台:
-pacbio   PacBio 数据
-nanopore  Nanopore 数据
-pacbio-hifi 高保真 PacBio 数据

参考文献

1.Koren S, Walenz BP, Berlin K, Miller JR, Phillippy AM. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome Research. (2017)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
文献解读-基于鸟枪法宏基因组测序数据构建宏基因组组装基因组(MAGs):方法、应用、挑战与机遇
Hello,小伙伴们大家好。相较于下游的注释与功能分析,从复杂的宏基因组数据中准确地拼装并重构微生物基因组,始终是该领域的核心任务之一,近期小编学习从宏基因组测序数据中构建微生物组装基因组(MAGs)的相关流程。。
用户1075469
2025/07/26
770
文献解读-基于鸟枪法宏基因组测序数据构建宏基因组组装基因组(MAGs):方法、应用、挑战与机遇
使用Circlator环化Ecoli基因组组装结果
PacBio reads:Assembly with command line tools
用户7010445
2020/03/03
2.5K0
全基因组 | 三代长读长基因组组装 -- Flye
今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Flye,可用于进行小型细菌到哺乳动物基因组的组装。2019年04月01日,Flye发表于《Nature Biotechohnology》期刊上,题目为Assembly of long, error-prone reads using repeat graphs, 第一作者为当时在美国圣地亚戈加州大学Pavel A. Pevzner组里做博士后的Mikhail Kolmogorov博士(图1)。Mikhail Kolmogorov博士研究重点是计算生物学,包括算法、数学模型和工具,并且是长读长基因组组装工具Flye和metaFlye的首席开发人员,其现在就职于美国国家癌症研究所 (NIH-National Cancer Institute , Center for Cancer Research)。
三代测序说
2025/05/27
1580
全基因组 | 三代长读长基因组组装 -- Flye
pacbio及nanopore基因组拼接
Pacbio 测序数据与 nanopore 测序数据均为长读长测序,且二者数据质量类似,因此很多软件同时支持 pacbio 与 nanopore 数据,例如 canu,flye,wtdbg,miniasm,smartdenovo等软件均同时支持两种数据。但需注意如果 pacbio 测序为 hifi reads 模式,需要指定该模式。
生信喵实验柴
2022/05/23
1.6K0
Canu | 三代测序数据组装软件②
Canu软件是Celera Assembler基因组组装软件的一个分支,能利用测序错误率较高的三代测序数据(PacBio或Nanopore)进行基因组De novo组装。该软件的命令行运行方法非常简单,运行速度较快且比较稳定,并能得到较好的基因组组装结果。
生信real
2022/08/18
1.9K0
Flye | 三代测序数据组装软件③
Flye是针对三代测序数据开发的基因组de novo组装的生信软件。同时也可拼接质粒和宏基因组。
生信real
2022/08/18
1.6K0
基因组组装:Hifiasm 使用教程
Hifiasm[1] 是一个快速的单倍型解析 de novo 组装软件,最初设计用于 PacBio HiFi 读取。其最新版本可以通过利用超长的 Oxford Nanopore 读取支持端粒到端粒的组装。Hifiasm 可以生成单样本端粒到端粒的组装,结合了 HiFi、超长和 Hi-C 读取,可以说是最好的组装软件之一。对于 trio-binning 组装来说,它是最好的单倍型解析组装软件之一,适用于父本短读取。对于人类基因组来说,hifiasm 可以在一天内完成端粒到端粒的组装。
数据科学工厂
2024/04/15
1K0
基因组组装:Hifiasm 使用教程
三代测序组装工具Canu学习笔记
Canu是Celera的继任者,能用于组装PacBio和Nanopore两家公司得到的测序结果。
kongxx
2019/03/20
2.6K0
文献笔记二十九:银合欢(Leucaena trichandra)线粒体基因组
现阶段还是重点关注完整线粒体的组装方法,原文数据公开,还公布了组装使用的shell脚本,争取重复组装过程
用户7010445
2020/08/17
9630
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
今天我们介绍一款使用三代全长转录本数据进行转录本注释和定量的工具 - IsoQuant。2023年1月2日,康奈尔大学医学院Hagen U. Tilgner团队和圣彼得堡国立大学Andrey D. Prjibelski团队合作在Nature Biotechnology(NBT)杂志发表题为 “Accurate isoform discovery with IsoQuant using long reads” 的文章 (图1)。作者开发了 IsoQuant -- 一款使用内含子图(intron graphs)的计算工具,在有参考基因组注释或者无参的情况下能够利用长度长序列准确重构转录本。对于新的转录本发现,IsoQuant 使Oxford Nanopore(ONT)数据在有参或无参模式下的假阳性率分别降低了5倍和2.5倍。IsoQuant 同时也提高了Pacific Biosciences数据的性能。
三代测序说
2024/02/22
1.9K1
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
基因组拼接原理
前面我们了解了基因组拼接,今天给大家带来的是拼接原理。了解实验原理,就是为了我们更好地做实验。
生信喵实验柴
2022/04/07
2.1K0
基因组拼接原理
wtdbg2 | 三代测序数据组装软件①
wtdbg2能利用Pacbio或Nanopore测序数据进行基因组组装。在组装过程中,软件将reads打断成长度为1024 bp的片段(类似kmer序列),再将相似的片段进行整合成一条vertex序列,然后基于vertex序列在reads上的位置,对vertexs序列进行连接,从而得到基因组序列。这种基因组组装方法和De Bruijin Graph方式类似,但是其kmer序列较长,且允许序列之间有mismatch和gap,被作者称为Fuzzy Bruijn Graph。
生信real
2022/08/18
1.6K0
二代测序基因组拼接实战
该文章中对 20 个细菌基因组进行测序,每个样本分别进行了 illumina,pacbio 以及 nanopore测序。比较三种数据的拼接结果。其中两株细菌已包含发表出来的全基因组序列。
生信喵实验柴
2022/05/23
2.9K0
二代测序基因组拼接实战
三代测序技术100问(2):PacBio 与 ONT,谁是你的长读长利器?
在上一期(三代测序技术100问(1):NGS与第三代测序,如何做出明智选择?)中,我们厘清了二代与三代测序技术的适用边界,明确了选择需“因题施策”。然而,踏入三代测序的大门,新的抉择又摆在面前:目前市场上主流的长读长技术平台主要由两大阵营引领——美国的PacBio(Pacific Biosciences)和英国的ONT(Oxford Nanopore Technologies)。它们的技术原理、性能特点和应用侧重各有千秋,常常让研究者们,特别是准备首次尝试三代测序的团队感到选择的困惑。
天意生信云
2025/04/24
4070
三代测序技术100问(2):PacBio 与 ONT,谁是你的长读长利器?
Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm
对基因组相关研究而言,单倍型基因组组装是研究结构,进化与变异的最理想方式。随着长读长测序技术的进步,高质量单倍型组装已经成为了可能。然而,大部分组装算法的结果仍是混合多个单倍型的压缩序列,而不是完整的单倍型。对二倍体基因组而言,这种做法不可避免的损失了至少一半的单倍型信息。目前有一些组装算法对此进行了尝试,但是这类算法要么依赖难以获取的亲本信息进行分型 (trio-binning),要么无法生成高质量的单倍型组装结果。因此,如何在不依赖亲本信息的情况下,自动进行高质量的单倍型组装,是一个亟待解决的问题。
生信宝典
2022/04/19
9480
Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm
Racon | 三代测序数据组装结果优化
三代测序错误率比较高,一般组装后需要进行纠错来提高准确度。本次介绍使用racon来对三代基因组进行纠错优化。
生信real
2022/08/18
2.9K0
组装算法:为什么是k-mer?
A:无论是一代Sanger、二代Illumina还是三代Pacbio,其得到的测序数据(reads)相较于整个基因组而言都是极短的,基因组组装的任务就是将这些小片段连接起来,通过这些序列的关系构建Graph,然后根据算法从Graph中得到最优路径,从而得到最初的Contig序列。目前组装软件常用的两种算法:overlap-layout-consensus (OLC)和de-bruijn-graph(DBG)。
SYSU星空
2022/05/05
1.6K0
组装算法:为什么是k-mer?
CycloneSEQ-WT02测评系列(三):从原始数据到高质量细菌基因组组装
大家好!继发表了《华大序风测序仪开箱》和《上机测序实验》的文章之后,我们的CycloneSEQ-WT02纳米孔测序平台测评系列迎来了第三篇!今天,我们继续跟随山东第一医科大学李冕博士的脚步深入探讨CycloneSEQ-WT02初步测序结果基因组组装之后的质量,带大家从原始数据到高质量基因组组装的全流程,揭示这款测序仪如何助力科研突破!
天意生信云
2025/05/22
1950
CycloneSEQ-WT02测评系列(三):从原始数据到高质量细菌基因组组装
基因组组装:NextDenovo2 使用大全
NextDenovo 是一种针对长序列读取(包括CLR和ONT技术)的新型基因组组装工具。它采取了一种“先校正错误再进行组装”的方法,这与canu工具类似,但对于PacBio HiFi读取数据则无需进行校正。相较于其他工具,NextDenovo在计算资源和存储空间的需求上要小得多。完成组装后,每个碱基的准确率可以达到98%至99.8%。如果您希望进一步提升单个碱基的精确度,可以尝试使用NextPolish工具进行优化。
数据科学工厂
2024/04/28
7360
基因组组装:NextDenovo2 使用大全
组装结果纠错
由于三代 nanopore 测序质量比较低,原始数据中存在大量测序错误,即使拼接前进行了纠错,组装结果中仍会存在错误,用长读长或短读长的数据对组装结果进行矫正可以,提高准确率,减少 Miscalls,Indels,改善由错装(mis-assemblies)导致的低比对区域。因此,序列拼接完需要对拼接结果进行优化,根据文献报道,经过 polish 之后,拼接结果与真实基因组(其他测序数据拼接结果)的一致性可以达到 99.99%以上。即使组装工具带有纠错功能,仍建议再次进行一轮或多轮的矫正。
生信喵实验柴
2022/10/25
2.1K0
组装结果纠错
推荐阅读
相关推荐
文献解读-基于鸟枪法宏基因组测序数据构建宏基因组组装基因组(MAGs):方法、应用、挑战与机遇
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档