题目:《Complete vertebrate mitogenomes reveal widespread repeats and gene duplications》期刊:《GENOME BIOLOGY》 IF 13.583/Q1发表时间:2021.4
研究背景
现代测序技术应该使组装相对较小的线粒体基因组变得容易。然而,几乎没有直接解决线粒体组装的工具。作为脊椎动物基因组项目(VGP)的一部分,Giulio Formenti 等人开发了一个完全自动化的管道mitoVGP (www.vertebrategenomesproject.org),用于基于相似性的线粒体序列识别和线粒体基因组的从头组装,包括长(> 10 kbp PacBio或Nanopore)和短(100-300 bp, Illumina)读长序列。
研究方法
选取125例脊椎动物肌肉组织等作为测序样本,利用二代+三代(> 10 kbp PacBio或Nanopore)测序技术,使用mitoVGP流程进行从头组装。从总DNA(三代)中选择与已发表的近缘物种基因组相似的reads作为mtReads,使用Canu v1.8进行组装,得到多条contig;利用Blast识别和过滤来自低质量的mtReads以及错误的重叠;最后使用二代序列进行校正,最终得到完整的线粒体组装结果。
研究结果
该团队成功地完成了100种脊椎动物VGP的线粒体完整基因组组装。研究人员通过对组装的基因组的研究发现许多现有的基于短读长序列组装的脊椎动物参考基因组的完整性和准确性还可以进一步提高;有超过一半(52/100)的物种存在重复区域和基因复制(下图)。
Fig1. mitoVGP assemblies with NOVOPlasty and Genbank/RefSeq assemblies
使用mitoVGP组装的脊椎动物线粒体完整基因组在序列长度、重复区长度以及基因复制个数上都明显优于NOVOPplasty和RefSeq的结果,同时发现大多数重复区域和基因复制发生在控制区(Control Region (CR))(下图)。
Fig2. Duplications and repeats in mitoVGP assemblies
将线粒体重复区和基因复制映射到系统发育树的每个物种上,研究人员发现在鸟类中存在许多的重复区和基因复制;跨越重复或复制区域的每个reads相对于参考大小的长度偏差,圆圈突出的5个物种表明它们有潜在的异质性(下图)。
Fig3. Duplications and repeats across the phylogeny and length deviation in repetitive elements
物种kakapo 组装结果的IGV可视化图显示,PacBio CLR对齐的reads完全跨越~925bp长度的串联重复(绿色虚线之间,重复单元=84bp),突出了支持mitoVGP参考为11个拷贝数,但也有reads支持更少的重复拷贝数(下图)。
Fig4. Evidence of heteroplasmy associated with a tandem repeat in the kakapo mitochondrial genome
mitoVGP和RefSeq序列长度数据集的分布直方图。在mitoVGP数据集中出现了一个次级峰,它主要是由基因MT-CYB、MT-TT、MT-TP、MT-ND6和MT-TE的复制引起的,在鸟类中经常观察到(N=9),这在短读组装中通常被遗漏(下图)。
Fig5. Distribution of vertebrate mtDNA sequence lengths in the VGP and RefSeq datasets
总的来说,Reads的可用性在组装中支持了mitoVGP流程在任何基因组环境下生成脊椎动物线粒体基因组组装的稳健性和无偏性。
领取专属 10元无门槛券
私享最新 技术干货