前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全基因组 - 人类基因组变异分析(PacBio) (2)-- CCS的使用

全基因组 - 人类基因组变异分析(PacBio) (2)-- CCS的使用

原创
作者头像
三代测序说
修改于 2023-10-26 06:47:21
修改于 2023-10-26 06:47:21
3.3K0
举报
文章被收录于专栏:三代测序-说三代测序-说

一、基因组 PacBio SMRTbell文库的构建流程

1. PacBio SMRTbell 文库的结构

PacBio测序平台构建完成的测序文库形状就如同一个哑铃(Dumbell), 所以叫做SMRT bell,  图1右所示。其主要组成部分是:发卡状的接头(Hairpin Adapter)和双链DNA模板(Double Stranded DNA Template)。而文构建完成后、测序前还需要完成SMRT bell文库、Sequencing Primer、DNA Polymerase的混合工作(测序引物退火结合环装测序接头,然后引物-bell文库复合物结合DNA聚合酶,  图1右和图2所示。

图1. 基因组SMRTbell文库结构及构建流程
图1. 基因组SMRTbell文库结构及构建流程
图2. SMRTbell文库测序引物和DNA聚合酶
图2. SMRTbell文库测序引物和DNA聚合酶

2. 基因组SMRTbell文库构建流程

以基因组HiFi文库为例(10-20Kb文库 ) ,图1左所示:

1)通过核酸提取得到基因组DNA(gDNA)后,先利用G-tube管或Megaruptor System将基因组片段化至合适大小 (一般动植物基因组20 Kb建库,微生物基因组10 Kb建库);

2)通过去除单链悬突、损伤修复和末端修复等步骤,得到完整的双链DNA插入片段;

3)通过将SMRTbell接头连接至双链DNA的两端来创构建SMRTbell测序文库,从而得到环状模板。

4)完成接头连接后,需要对连接产物进行纯化,利用酶处理来消化线性或内部损伤环形DNA分子(游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板),酶处理完毕后,一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。

二、PacBio Subreads and HiFi reads

HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于环化共有序列(Circular Consensus Sequencing,CCS)模式产生的既兼顾长读长(~10-20 kb)又具有高精度(>99%准确率)的测序序列数据 (图3)。

图3. HiFi reads 既长又准确
图3. HiFi reads 既长又准确

对于一条待测序的DNA片段,在CCS测序模式下,酶读长(polymoerase read)远大于插入片段长度,聚合酶会绕着DNA模板进行滚环测序,其中插入目的片段会被多次重复测序。单次测序中产生的随机测序错误,通过环形测序生成的一系列冗余的Subreads来进行自我矫正。通过PacBio公司开发的CCS算法进行自我纠错校正后,最终得到一条高准确度的CCS read, 因为每个碱基的测序质量较高,所以称为HiFi read (图4)。

图4. HiFi reads 的概念以产生过程
图4. HiFi reads 的概念以产生过程

三、PacBio Subreads 数据到 HiFi reads数据

Pacbio Sequel II 平台早期支持CLR(Continuous Long Reads)和CCS(Circular Consensus Sequencing)两种测序方式。 CLR模式适用超长片段文库(> 25 kb),对下机的subreads数据不再进行后续处理,可以直接使用,用作下游分析的原始数据,唯一的缺点就是每条reads准确度低一些。

从2022年下半年起,最新的建库试剂盒SMRTbell prep kit 3.0 舍弃了CLR模式,全部采用CCS建库测序模式,所以下机的subreads都要经过CCS算法将subreads去冗余转化为HiFi reads。对于Pacbio Sequel II 平台的用户,下机的subreads数据需要在服务器用SMRTlink软件里的CCS程序 或者 自己运行单独安装CCS软件进行HiFi reads的转换。对于Pacbio Sequel IIe 和 Revio平台,因为测序仪器本身内置了计算服务器,可以在运行测序前通过SMRTlink设置,下机直接得到HiFi reads的数据。

所以在大家拿到PacBio测序数据时,例如下载公共数据尤其是早期数据时,一定要弄清楚是subreads,还是HiFi reads。对于近期从测序服务商那里得到的数据一般都是运行完CCS软件后的HiFi reads。

对于自己有PacBio仪器的,并且服务器配置SMRTlink软件的用户,可以直接在SMRTlink中运行CCS(Circular Consensus Sequencing)程序,运行完成以后,你还会在SMRTlink里面得到CCS分析报告,会给出HiFi reads的信息以及可视化图的统计信息展示。

下面的教程呢,是我们没有测序仪器和安装配置SMRTlink软件,但又想单独在自己的服务器或者高性能工作站上安装CCS程序并且运行的同学和老师准备的。

四、CCS程序的安装和使用

CCS官网:https://ccs.how/

CCS官网(github):https://github.com/PacificBiosciences/ccs

1. 确保已经安装miniconda

代码语言:txt
AI代码解释
复制
#直接使用conda安装最新版本的pbccs
$ conda install -c bioconda pbccs

#Version 6.4.0

2. 软件的运行

Pacbio Sequel II平台的下机数据为bam格式, bam文件可直接适配大多数的下游分析软件,存储有效数据的文件一般命名为: *.subreads.bam, *.subreads.bam.pbi

输入文件sample.subreads.bam 以及相对应的索引sample.subreads.bam.pbi

输出文件unaligned BAM (.bam);bgzipped FASTQ (.fastq.gz)

基础使用,全部参数默认:

代码语言:txt
AI代码解释
复制
#生成 .bam 文件
$ ccs  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  sample.subreads.bam  sample.hifi.fastq.gz

进阶使用

代码语言:txt
AI代码解释
复制
#生成.bam文件
$ ccs  --min-rq  0.99 --min-passes 3 -j 12  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  --min-rq  0.999 --min-passes 5  -j 24  sample.subreads.bam  sample.hifi.fastq.gz

#以下是经常会设置参数,根据数据和应用的需求自行调整,剩下的参数默认即可。
-j  12    CPU线程数
--min-passes 3     最少产生CCS read 的subreads数,默认是3.
--min-rq  0.99       碱基准确度,默认为0.99,等于Q20.
--min-length         最小reads长度,默认为10.
--max-length        最大reads长度,默认为50000.

CCS --help 文档及参数,如果有需要可以自行修改:

代码语言:txt
AI代码解释
复制
ccs - Generate circular consensus sequences (ccs) from subreads.

Usage:
  ccs [options] <IN.subreads.bam|xml> <OUT.ccs.bam|fastq.gz|xml>

  IN.subreads.bam|xml       FILE   Subreads (.subreads.bam or .subreadset.xml).
  OUT.ccs.bam|fastq.gz|xml  FILE   Consensus reads (.bam, .fastq.gz, or .consensusreadset.xml).


Input Filter Options:
  --min-passes              INT    Minimum number of full-length subreads required to generate CCS for a ZMW. [3]
  --min-snr                 FLOAT  Minimum SNR of subreads to use for generating CCS [2.5]
  --top-passes              INT    Pick at maximum the top N passes for each ZMW. [60]

Draft Filter Options:
  --min-length              INT    Minimum draft length before polishing. [10]
  --max-length              INT    Maximum draft length before polishing. [50000]

Chunking Options:
  --chunk                   STR    Operate on a single chunk. Format i/N, where i in [1,N]. Examples: 3/24 or 9/9
  --max-chunks                     Determine maximum number of chunks.

Model Override Options:
  --model-path              STR    Path to a chemistry model file or directory containing model files.
  --model-spec              STR    Name of chemistry or model to use, overriding default selection.

Processing Options:
  --by-strand                      Generate a consensus for each strand.
  --hd-finder                      Enable heteroduplex finder and splitting
  --skip-polish                    Only output the initial draft template (faster, less accurate).
  --all                            Emit all ZMWs.
  --subread-fallback               Emit a representative subread, instead of the draft consensus, if polishing failed.
  --all-kinetics                   Calculate mean pulse widths (PW) and interpulse durations (IPD) for every ZMW.
  --hifi-kinetics                  Calculate mean pulse widths (PW) and interpulse durations (IPD) for every HiFi read.

Output Filter Options:
  --min-rq                  FLOAT  Minimum predicted accuracy in [0, 1]. [0.99]

Output Files Options:
  --report-file             FILE   Where to write the results report.
  --report-json             FILE   Where to write the results report as json.
  --metrics-json            FILE   Where to write the zmw metrics as json.
  --suppress-reports               Do not generate report or metric files per default, only those requested.

  -h,--help                        Show this help and exit.
  --version                        Show application version and exit.
  -j,--num-threads          INT    Number of threads to use, 0 means autodetection. [0]
  --log-level               STR    Set log level. Valid choices: (TRACE, DEBUG, INFO, WARN, FATAL). [WARN]
  --log-file                FILE   Log to a file, instead of stderr.

Copyright (C) 2004-2022     Pacific Biosciences of California, Inc.
This program comes with ABSOLUTELY NO WARRANTY; it is intended for
Research Use Only and not for use in diagnostic procedures.

五、CCS测序模式相关词汇英文解释

对于polymerase read, subreads,CCS的英文原版解释。

CCS测序模式相关词汇英文解释
CCS测序模式相关词汇英文解释

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于PacBio HiFi数据的人类全基因组重测序变异分析流程
随着第三代测序技术,特别是PacBio HiFi(High Fidelity)测序技术的发展,我们能够获得兼具长读长和高准确度的测序数据。这为人类全基因组重测序(WGS)分析,尤其是复杂区域和结构性变异(Structural Variation, SV)的检测,带来了革命性的进步。本文旨在梳理一套完整的利用PacBio Sequel II或Revio平台产生的HiFi数据进行人类基因组变异分析的流程,详细介绍从原始数据处理、序列比对、变异检测、注释、过滤到可视化的各个环节,并涵盖所涉及的关键软件工具(如pbmm2, DeepVariant, pbsv, Annovar, SnpEff, AnnotSV, SnpSift, Slivar, IGV)的安装与使用细节。
天意生信云
2025/04/22
1720
基于PacBio HiFi数据的人类全基因组重测序变异分析流程
pacbio测序原理
关键字:三代测序 单分子测序 5-70K HIFI READS 准确性和长度的平衡 价格贵 800 万条 READS 一次测序 20G
生信喵实验柴
2021/12/27
6.6K0
pacbio测序原理
全基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2
长读段比对算法与一代/二代测序数据的比对算法有很大的不同,因为长读段通常更长、包含更多错误和变异,并且需要更复杂的比对策略。
三代测序说
2023/10/26
1.3K1
全基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2
全基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv
染色体结构变异(Structure Variation, SV),指基因组上发生的长度大于50bp的大片段插入(Insertion, INS)、缺失(Deletion, DEL)、倒位(Inversion, INV)、易位(Translocation)、重复(Duplication, DUP)等类型的变异,其中占比最大的就是大片段的插入和缺失(图1)。插入缺失很好理解就是,多了一段或者少了一段DNA序列;重复就是有一段区域的序列重复出现;倒位就是序列翻转了一下,如本来那个位置该是AATTG的,结果变成了GTTAA;易位的话就是序列位置的变化,又进一步分为染色体内易位和染色体间易位。据统计,基因组结构变异可能导致的遗传性疾病已经超过1,000种,对于每个人来讲其基因组都有至少20,000个的结构变异,这些变异带来的影响或许比SNVs或InDels带来的影响更大。
三代测序说
2023/11/22
1.3K0
全基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv
全基因组 - 人类基因组变异分析(PacBio) -- minimap2 + Sniffles2
首先从github官网上下载minimap2的二进制文件压缩包,minimap2-2.26_x64-linux.tar.bz2,然后上传到服务器上。
三代测序说
2023/11/26
1.6K0
全基因组 -  人类基因组变异分析(PacBio) -- minimap2 + Sniffles2
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (1)
很多物种的转录本非常多样和复杂,绝大多数真核生物基因不符合“一基因一转录本”的模式,这些基因往往存在多种可变剪切(Alternative splicing,AS)形式。目前,基于第二代测序技术的RNA测序(RNA-seq)技术已被广泛用于各种转录组研究。但其测序的序列读长较短(50-300bp),大多只能覆盖转录本的一小部分,导致难以精确重构同一转录本的同源异构体(isoform),因此使得二代RNA测序对于全长转录本的重构是不准确的,片面的。
三代测序说
2024/01/23
10.8K0
全长转录组  |  Iso-Seq 三代测序数据分析流程 (PacBio)   (1)
全基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是基因组中单个核苷酸腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)在物种成员之间或个体配对染色体之间的差异, 是最常见也最简单的一类造成基因组多样性的DNA序列变异。
三代测序说
2023/11/12
1.9K2
全基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant
微生物全长16S | Full-length 16S Analysis -- PacBio Hifi Reads
16S核糖体RNA(16S ribosomal RNA),简称16S rRNA,是原核生物核糖体中30S亚基的组成部分。16S rRNA基因存在于所有细菌的基因组中,长度约为1542 bp,包括 10 个保守区(Conserved region)和 9 个可变区(Variable region),保守区反映了物种间的亲缘关系,而可变区则反映了物种间的差异 (图1)。 16S rRNA基因,其分子大小适中,突变率小,是细菌系统分类研究中最有用的和最常用的分子标志。通过16S扩增子高通量测序,检测16S rDNA可变区的序列变异和丰度,可了解样品中微生物群落多样性和丰度信息,在微生物分类鉴定、微生态研究等方面起着重要的作用。
三代测序说
2024/02/09
3.8K1
微生物全长16S | Full-length 16S Analysis -- PacBio Hifi Reads
全长转录组 | PacBio 全长转录组测序的时代是否已经来了? Kinnex full-length RNA Kit测评
记得在我去新加坡参加 Nanopore Community Meeting 2023 回来后(2023年9月31日),PacBio发布了其全套 KINNEX 产品线,Kinnex single-cell RNA,Kinnex full-length RNA 和 Kinnex 16S rRNA 。 从2023年10月31日,PacBio宣布 Kinnex full-length RNA Kit 正式接受预定,到2023年3月24-25日左右,国内测序厂商宣布第一批测试数据下机,国内的用户可以开始尝试利用这项技术进行科学研究了。我也是盼到了,可以在能够接受的价格范围内尝试用PacBio全长转录组数据进行定量分析了(虽然还有是些小贵)。
三代测序说
2024/04/02
1.8K3
全长转录组 | PacBio 全长转录组测序的时代是否已经来了? Kinnex full-length RNA Kit测评
Pacbio测序原理以及SMRT bell文库构建流程简述
2018年发的老文章了,文章不错,所以决定再捞一下。文中有3段视频,如需观看请大家移步“基因Share”观看。
bye
2021/01/21
2.3K0
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
今天我们介绍一款使用三代全长转录本数据进行转录本注释和定量的工具 - IsoQuant。2023年1月2日,康奈尔大学医学院Hagen U. Tilgner团队和圣彼得堡国立大学Andrey D. Prjibelski团队合作在Nature Biotechnology(NBT)杂志发表题为 “Accurate isoform discovery with IsoQuant using long reads” 的文章 (图1)。作者开发了 IsoQuant -- 一款使用内含子图(intron graphs)的计算工具,在有参考基因组注释或者无参的情况下能够利用长度长序列准确重构转录本。对于新的转录本发现,IsoQuant 使Oxford Nanopore(ONT)数据在有参或无参模式下的假阳性率分别降低了5倍和2.5倍。IsoQuant 同时也提高了Pacific Biosciences数据的性能。
三代测序说
2024/02/22
1.7K1
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
pacbio及nanopore基因组拼接
Pacbio 测序数据与 nanopore 测序数据均为长读长测序,且二者数据质量类似,因此很多软件同时支持 pacbio 与 nanopore 数据,例如 canu,flye,wtdbg,miniasm,smartdenovo等软件均同时支持两种数据。但需注意如果 pacbio 测序为 hifi reads 模式,需要指定该模式。
生信喵实验柴
2022/05/23
1.5K0
全长转录组 | Oxford Nanopore (ONT) 三代全长转录组分析流程 -- 数据质控和预处理
ONT全长转录组测序是指基于牛津纳米孔公司(Oxford Nanopore Technologies,ONT)三代测序平台进行的全长转录组测序。利用三代测序平台长度长 (long-read)的特性,无需对转录本进行片段化,直接获取某一物种mRNA(或者有polyA尾的lncRNA)5'端到3'端的高质量全长转录组序列信息(图1),可准确识别可变剪接、基因融合、基因家族、可选择性多聚腺苷酸化 (alternative polyadenylation, APA)、等位基因特异性表达等转录本结构方面的变异。基于ONT三代测序平台进行全长转录组测序,除了可准确鉴别上述转录本结构变异,由于现阶段测序成本和通量(相对于PacBio平台),还可实现转录本(mRNA或polyA+ lncRNA)表达水平准确定量和差异分析。
三代测序说
2024/02/05
4.7K0
全长转录组 | Oxford Nanopore (ONT) 三代全长转录组分析流程 -- 数据质控和预处理
基因组实战03: WGS toy example
借鉴Reference中第2、3篇文章的代码。分析的数据是大肠杆菌,因为基因组小,适合拿来快速跑通整个流程 00 下载fastq数据 图片 mkdir -p ~/Project/DNA/raw cd ~/Project/DNA/raw wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR177/003/SRR1770413/SRR1770413_1.fastq.gz wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR177/003/SRR
生信探索
2023/03/31
4030
三代纳米孔宏基因组拼接
从宏基因组测序中拼接细菌完成图,《Complete and validated genomes from a metagenome》2012 年加拿大 Northern Alberta 油砂尾矿池附近海藻细菌培养分离样品,2019 年重新培养提取。
生信喵实验柴
2023/02/24
6230
三代纳米孔宏基因组拼接
测序数据组装的常用工具
Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装。输入数据可以是Illumina、IonTorrent或PacBio、Sanger测序结果,也可以把一些contigs序列作为long reads进行输入。该软件可以同时接受多组paired-end、mate-pairs和unpaired reads数据的输入。spades支持输入文件格式:fq、fastq、bam、fa、fasta、fq.gz、fastq.gz、bam.gz、fa.gz、fasta.gz,其使用方法如下所示:
SYSU星空
2022/05/05
3K0
测序数据组装的常用工具
使用CCS序列数据改进宏基因组拼接效率和物种分类注释
DNA组装是用于研究微生物群落结构和功能的宏基因组流程中的核心方法学步骤。在这里,我们调查太平洋生物科学长期和高精度循环共识测序(CCS)的宏基因组项目的实用性。我们比较了PacBio CCS和Illumina HiSeq数据的应用和性能以及使用代表复杂微生物群落的宏基因组样本的组装和分类分类算法。8个SMRT细胞从沼气反应器微生物组合样品中产生大约94Mb的CCS读数,其平均长度为1319nt,精度为99.7%。CCS数据组合产生了大于1 kb的相当数量的大型重叠群,与从相同样本产生的约190x较大的HiSeq数据集(〜18 Gb)组装的大型重叠群组成(即约占总重叠群的62%)。使用PacBio CCS和HiSeq重叠群的混合组件在装配统计数据方面进行了改进,包括平均重叠体长度和大型重叠群数量的增加。CCS数据的并入产生了两个显性系统的分类学分类,基因组重建的显着增强,使用HiSeq数据单独组合则分类不佳。总而言之,这些结果说明了PacBio CCS在某些宏基因组应用的价值。
用户1075469
2020/03/03
2.8K0
全基因组 - 人类基因组变异分析(PacBio) (1)
2022 年 4 月 1 日,赶在愚人节当天,《科学》杂志(Science)刊登系列文章,发表了国际 T2T 联盟攻克的首个人类基因组完成图(CHM13-T2T)研究成果,填补了此前几十年人类基因组研究留下的空白:大约 8% 的人类基因组序列「黑洞」,这些区域因为序列复杂性,一直无法被破译,尽管 2003 年国际人类基因组计划(HGP)曾经号称已经「完成了」人类基因组图谱绘制的工作。
三代测序说
2023/10/13
6212
全基因组 - 人类基因组变异分析(PacBio)  (1)
三代测序技术100问(2):PacBio 与 ONT,谁是你的长读长利器?
在上一期(三代测序技术100问(1):NGS与第三代测序,如何做出明智选择?)中,我们厘清了二代与三代测序技术的适用边界,明确了选择需“因题施策”。然而,踏入三代测序的大门,新的抉择又摆在面前:目前市场上主流的长读长技术平台主要由两大阵营引领——美国的PacBio(Pacific Biosciences)和英国的ONT(Oxford Nanopore Technologies)。它们的技术原理、性能特点和应用侧重各有千秋,常常让研究者们,特别是准备首次尝试三代测序的团队感到选择的困惑。
天意生信云
2025/04/24
1720
三代测序技术100问(2):PacBio 与 ONT,谁是你的长读长利器?
参考基因组没有,经费也没那么多,怎么办?
尽管目前已经有大量物种基因组释放出来,但还是存在许多物种是没有参考基因组。使用基于酶切的二代测序技术,如RAD-seq,GBS,构建遗传图谱是研究无参考物种比较常用的方法。Stacks就是目前比较通用的分析流程,能用来构建遗传图谱,处理群体遗传学,构建进化发育树。 这篇教程主要介绍如何使用Stacks分析基于酶切的二代测序结果,比如说等RAD-seq,分析步骤为环境准备,原始数据质量评估, 多标记数据分离,序列比对(无参则需要进行contig de novo 组装),RAD位点组装和基因分型,以及后续的标记
生信技能树
2018/03/05
2.3K0
参考基因组没有,经费也没那么多,怎么办?
推荐阅读
相关推荐
基于PacBio HiFi数据的人类全基因组重测序变异分析流程
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档