大家好,今天要给大家介绍一个在基因组组装领域非常实用的工具——RagTag。RagTag 是一套基于参考基因组的软件工具集,这个由加州大学开发的工具包,主要用于搭建和改进现代基因组组装,能帮忙找出基因组组装中的错误,还能把零散的DNA片段拼接完整。
RagTag 修正模块以参考基因组为标准,检查查询组装序列,若发现错误拼接,会在错连点打断序列。还能通过比对同基因型测序数据,观察疑似错装断裂点附近读覆盖,验证潜在错误,避免误将生物结构变异认作错装。不过,最终是否修正由用户判断,因参考基因组与查询组装可能代表不同基因型或单倍型,其间差异或许是正常生物学变异。
支架模式是 RagTag 重要功能,它依据全基因组与参考组装的比对,对草图组装序列排序、定向。按参考将序列碎片依正确位置和方向排列,在相邻序列间用 “N” 表示未知缺口,且全程不修改输入的查询序列,仅完成排序、定向及用 “N” 连接 。
-用其他基因组的序列填补组装缺口(Fill模式)
修补模式包含两种修补:“填充”,即借助其他基因组组装填补现有组装缺口,区别于传统的用全基因组测序读数据,它采用组装序列;“连接”,能一步将不同 contigs 相连,实现支架构建与缺口填充。
实际基因组组装时,常用不同方法、参数或基因组地图(如物理图、连锁图、Hi - C 图)对草图多次支架化,产生多种各有优势的结果。RagTag 的合并模式能整合这些不同支架结果,取长补短优化支架效果。用户只需提供 FASTA 格式组装文件与至少两个 AGP 文件(定义组装支架化),可给 AGP 文件设权重决定其对最终结果的影响,若有 Hi - C 比对数据,还能用于解决合并图冲突 。
• 不改变原始序列,零损失
在所有操作中,RagTag 不会添加或删除任何序列,只是对序列进行打断、排序和连接。 • 支持多种比对工具
RagTag 支持 Minimap2、Unimap 和 Nucmer 等多种全基因组比对工具,用户可以根据需要选择合适的工具。 • 灵活的验证选项
通过读取比对结果,RagTag 可以验证潜在的错误组装,帮助用户避免假阳性结果。 •双重验证机制
参考基因组+实际测序数据交叉验证,支持 reads 验证和 Hi-C 数据优化,结果更可靠。 •灵活兼容
支持PacBio/Nanopore等三代测序数据,输入输出兼容 AGP、FASTA 等主流格式,轻松对接下游分析(如注释、进化树构建)。
RagTag这个工具在基因组组装的后期处理中真的是不可或缺的。它能帮我们修正错误、排好顺序、填补缺口、整合多种支架结果。对于很多小伙伴来说,可能更习惯在Galaxy生信云平台(网址:https://usegalaxy.cn)上进行生物信息学分析,因为它不需要我们自己搭建复杂的计算环境,操作起来也相对简单直观。在Galaxy平台上,RagTag工具的使用也非常方便。