前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >纳米孔碱基识别

纳米孔碱基识别

作者头像
生信喵实验柴
发布2021-12-27 14:37:10
1.5K0
发布2021-12-27 14:37:10
举报
文章被收录于专栏:生信喵实验柴

写在前面:上周末刚进行了全国硕士研究生考试。虽然目前公众号的受众群体大多数还是研究生本生,在这里,还是衷心祝愿各位考生顺利上岸!

背景

上周五我们介绍了纳米孔测序原理,作为唯一一个基于电信号的测序,它又是怎么识别碱基的呢?优缺点又在哪里。接下来进入我们的正文了解它吧。

一、碱基识别原理

将测序仪产生的原始信号文件转换为碱基序列的过程称为 basecalling。sanger 测序是将峰图文件转换为碱基,illumina 测序是将拍摄的荧光信号图片转换为碱基。纳米孔测序是独一无二的基于电信号识别碱基序列技术,basecalling 的过程是将电信号转换为碱基的过程。纳米孔测序产生的信号值称为 Squiggle:sequence of the segmented signals。

在纳米孔测序过程中,每次捕获的并非单一碱基的信号值,而是一串儿碱基的共同的信号值,序列中一共有四种碱基,DNA 为(ATCG),RNA 为(AUGC)。一次信号通常是 5 个碱基,碱基识别的原理就是将测序得到的 Squiggle 信息与已知信息进行比对,判断出碱基组合。

然而在实际测序过程中,每次捕获的不一定都是 5 个碱基 ,也可能 4-6 个碱基。根据排列组合,一共可能有可能包括 4^4+4^5+4^6=5376 个组合形式。并且一些碱基还可能发生甲基化,这就增加了 basecalling 的难度。

basecalling 原理

二、碱基识别算法和软件

碱基识别本质上属于一种分类,将不同的信号值分类到不同的碱基组合中。在计算机领域属于一种有监督的机器学习,因此可以采用很多常见的分类算法,最早使用的是隐马尔可夫模型 (Hidden Markov Model,HMM)模型,碱基识别准确性在 85%左右。后来改用循环神经网络(Recurrent Neural Network, RNN),显著的提高了碱基识别准确性。

目前主流使用的还是 RNN 的算法。能够做纳米孔碱基识别的软件有很多,也是目前纳米孔测序研究中非常重要的一个研究方向。这些工具包括官方开发的 Scrappie,Albacore,Guppy等,也包括第三方开发的 DeepNano,,SquiggleKit,Chiron,Causalcall 等。使用不同的软件算法,碱基识别准确性会有很大的差别。

不同碱基识别算法及准确性比较

三、关于纳米孔测序错误

纳米孔官方对于测序错误的描述:https://nanoporetech.com/accuracy

3.1 测序错误来源

纳米孔测序的错误率到底有多高呢,其实前面的内容我们是有提到过,纳米孔测序错误率从最开始的 40%,已经下降到目前的 5%左右。目前根据测序芯片以及建库方法的不同,整体大于在 15%-5%之间。这个其实依然还是挺高的,但是并不影响使用。那么纳米孔的测序错误来源于哪里?这里总结了几点原因。

1. ATCG 四种碱基特别小,达到纳米级别,并且化学结构相似,通过电信号不容易区分;

2. 每个碱基只测序一次,也只有 1D2 和 2D 测序互补链,所以没法进行纠错;

3. 每次检测到的信号并不是单个碱基,而是几个碱基共同的信号;

4. 发生了甲基化位点会对电流产生干扰,让碱基识别更复杂;

5. 化学反应体系的影响,比如测序一段时间之后,马达蛋白,ATP 酶活性下降,每次流过纳米孔的碱基数不是 450bp 了,这些都会影响碱基准确性。

6. 同聚物的影响,同聚物的个数不容易判断。

以上这些原因就会带来碱基识别的困难,降低测序准确性。这里面特别强调一下同聚物的影响,其实这个前面也有提到过。例如全是 A 碱基或者 ATAT 这样的类型,他们构成的电信号值是很类似的,无论是 4 个,5 个,6 个 A 构成的信号值,所以就不容易识别具体数目到底是多少,假设识别错误,就造成一个小的 indel。所以,纳米孔测序这种小的插入缺失错误是很多的,不像二代测序错误主要是单碱基的突变。

3.2 如何减少测序错误

这里介绍的都是公司的技术问题了,我们做个了解就行。

第一:提高纳米孔的性能,也就是寻找到更好的纳米孔,从 R6 到 R9,测序准确性从 60%多到 95%,提高了非常多。

第二:建库方法上使用 2D 或者 1D2 的方式。

第三:改善碱基识别的算法。原始数据需要保留,新算法出来后,可以对比。

第四:开发测序后的碱基纠错算法,因为测序深度够,每个位点被测序了很多次,可以通过自身纠错,来提高测序的准确性。

第五:开发新方法

3.3 最后谈下纳米孔测序的缺点

1、测序错误率高,小的插入缺失占主要部分;

2、错误分布不平均,存在偏向性,无法进行纠错;

3、原始数据量大;

4、测序对DNA质量要求高;

5、分析需要较高的计算资源;

6、测序芯片型号,建库试剂组合过多;

7、数据产出量不稳定;

8、测序成本高;

9、目前分析软件数目少;

10、不能离线使用。联网校验

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档