前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基因组中是否存在未被DNA测序覆盖的区域(学徒翻译)

基因组中是否存在未被DNA测序覆盖的区域(学徒翻译)

作者头像
生信技能树
发布2019-08-22 22:41:46
1.1K0
发布2019-08-22 22:41:46
举报
文章被收录于专栏:生信技能树

原文链接:https://medium.com/musings-of-scientist/how-well-do-we-know-our-reference-genome-6a72ab4aa76e

如果基因组是一幅风景,你可以通过NGS创建该景观的地图,那么这幅地图肯定会有一些白色区域。换言之:一些基因组区域不能很好地被NGS技术测序的DNA所覆盖。在此,我们将解释这一点的重要原因。

重复DNA序列

重复DNA序列(例如串联重复序列)在许多物种中广泛存在。大约50%的人类基因组由重复序列组成(1)。重复是序列比对和组装程序的挑战,因为它们导致非常相似的短读取。它可以比作一个大拼图,其中一些拼图块可以放在几个地方。因此,重复会在比对和组装中造成歧义,反过来,它也会在解释结果时产生偏差和错误(1)。

G/C偏差

四种碱基(ACTG)在基因组中通常分布不均匀。具有高和低GC含量的DNA区域难以扩增,因为与具有混合碱基含量的DNA区域相比具有更高的稳定性。在这些情况下,DNA聚合酶易产生伪影。这些影响扰乱了大多数协议所需的扩增步骤。因此,来自具有高/低GC含量的区域的片段的表现不足,导致读取覆盖率低且不均衡(图1)。

一个常见的例子是恶性疟原虫,一种疟疾病原体。其基因组的一些编码区具有70%的AT含量。因此,直到最近,才有可能对寄生虫的基因组进行测序。目前的项目试图通过使PCR(扩增)产生的假象最小化或放弃扩增步骤(2)来改善这些区域的测序。

图1:在各种扩增条件下的全基因组碱基组成偏差曲线,线性尺度。 图片来自(3)。

碎片偏差

如该文(https://www.ecseq.com/support/ngs/is-there-a-bias-after-dna-fragmentation)所述,DNA片段化是一个非随机的过程,特别是对于机械剪切方法。这导致各种基因组区域的不均匀覆盖,并且可导致欠/未覆盖区域。

总结

这些实例表明,使用NGS进行准确的DNA测序还存在许多技术难题需要解决。有时可以通过调整样品制备(例如DNA片段化)或测序过程本身(如恶性疟原虫所述)来减少问题。此外,为项目考虑不同的测序技术总是一个好主意。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 重复DNA序列
  • G/C偏差
  • 碎片偏差
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档