
DRUGONE
质粒是细菌中独立于染色体存在的DNA分子,在水平基因转移过程中发挥关键作用,常携带抗生素耐药基因等重要功能。然而,由于质粒结构高度嵌合、多样性强且拷贝数变化大,其在宏基因组数据中的组装与重构一直面临巨大挑战,导致现有基因组数据库中质粒序列严重不足。现有质粒组装工具主要依赖单样本组装图中寻找环状路径,但容易受到覆盖不足、图结构碎片化以及重复序列纠缠的限制。研究人员提出了一种新方法 PlasMAAG,通过构建跨样本的组装–比对图并结合对比学习,实现同时对质粒与细胞基因组的高精度重构。在多个模拟基准数据集中,该方法重构出的近完整质粒数量比现有方法提高50%至120%以上,并显著提升质粒序列分类准确性。在真实医院污水样本中,PlasMAAG同样显著优于现有工具,为系统研究质粒多样性及其宿主关联关系提供了新能力。

质粒广泛存在于微生物群落中,是推动细菌进化与功能扩展的重要遗传载体。然而,传统培养方法难以全面捕获环境中的质粒多样性,宏基因组测序虽提供了无培养研究手段,但复杂样本中质粒的高度重组性、微多样性以及富含重复序列的特性,使其在短读长组装过程中极易被打断并与染色体片段纠缠在一起。现有专用质粒组装器通常在单样本组装图中寻找潜在的闭环结构,但在覆盖不足或结构复杂时性能显著下降。相比之下,基于分箱的策略通过整合序列组成、丰度模式及连接信息对片段进行归类,在染色体重构中已取得成功,但在质粒重构方面仍未得到充分利用。
PlasMAAG整体框架
研究人员提出PlasMAAG这一深度学习驱动的分箱框架,将多样本组装信息与跨样本序列比对信号统一整合。该方法首先为每个样本构建组装图,同时通过序列比对建立跨样本连接关系,并将二者融合生成组装–比对图(AAG)。随后,研究人员利用图嵌入技术将复杂网络映射为数值特征空间,从中提取高度相关的片段社区结构。在此基础上,通过引入对比学习损失的变分自编码器,将传统分箱特征与图结构信息联合建模,使来源相同的片段在潜在空间中更紧密聚集。最后,系统分别采用适合质粒和染色体的聚类策略,并结合质粒识别模型对分箱结果进行精细分类。

图1:PlasMAAG整体流程与组装–比对图构建。
在模拟数据集中的性能提升
在多个模拟宏基因组基准数据集中,PlasMAAG在近完整分箱数量上显著优于现有主流工具。尤其在质粒重构方面,PlasMAAG恢复的近完整质粒数量比当前领先方法多出50%至120%以上,同时在中等质量质粒分箱上也取得类似提升。进一步分析显示,PlasMAAG不仅找回了更多质粒,还覆盖了更广泛的质粒多样性,其重构结果在纯度与召回率之间取得了更优平衡。此外,在细胞基因组重构方面,该方法与现有高性能分箱器保持相当水平,说明其对质粒增强并未以牺牲染色体重构质量为代价。

图2:PlasMAAG与现有方法在模拟数据集上的分箱与质粒重构对比。
组装–比对图与对比学习的作用机制
研究人员系统分析了AAG中边权重与系统发育相关性的关系,发现无论是在基因组、物种还是属水平上,高权重连接往往对应高度相关的序列片段,证明该图结构有效捕捉了真实生物学关联。通过图嵌入提取的社区结构虽然仍存在碎片化问题,但在对比学习增强的潜在空间中,通过合并、拆分与扩展策略,这些社区得以重构为更完整且更精确的分箱单元。对比学习显著提升了分箱召回率,并在保持高精度的同时增加了可重构基因组数量,成为PlasMAAG性能跃升的关键因素。

图3:组装图、比对图及融合后的AAG在分箱中的信息贡献分析。
在真实环境样本中的验证
在来自医院污水的真实宏基因组样本中,研究人员结合短读长与长读长测序数据对PlasMAAG进行系统验证。结果显示,PlasMAAG在总体分箱性能上显著优于现有工具,并在质粒重构方面恢复了更多经长读长支持的完整质粒序列。即便在严格质粒筛选条件下,PlasMAAG依然保持领先表现。同时,其在细胞基因组重构方面同样具备稳定性能,证明该方法在真实复杂环境中具有高度鲁棒性。

图4:PlasMAAG在医院污水样本中的真实数据验证结果。
宿主–质粒关联与质粒多样性分析
通过同时重构质粒与宿主基因组,PlasMAAG为系统研究二者之间的关联关系提供了可能。在多样本医院污水数据中,研究人员基于丰度相关性识别出数百组潜在宿主–质粒关联,其中仅少部分在现有数据库中已有记录,表明大量未知关联仍有待探索。此外,借助AAG中的跨样本连接关系,PlasMAAG还能够追踪高度相似质粒在不同样本中的变异情况,揭示重组热点区域与功能模块的动态变化,为研究质粒进化机制提供了新视角。

图5:宿主–质粒关联网络及跨样本质粒结构变异示例。
讨论与意义
研究人员提出的PlasMAAG通过引入组装–比对图与对比学习机制,突破了传统单样本质粒组装方法的局限,在复杂宏基因组环境中实现了更全面、更精准的质粒重构。该方法不仅显著提升了质粒恢复数量,还在准确性与多样性覆盖方面取得平衡,为深入理解微生物群落中质粒的生态角色奠定基础。更重要的是,该框架展示了将跨样本图结构信息与深度学习分箱策略融合的强大潜力,有望推广至病毒基因组重构、复杂微生物群落解析以及其他高复杂度组学场景。
整理 | DrugOne团队
参考资料
Piera Líndez, P., Danielsen, L.S., Kovačić, I. et al. Accurate plasmid reconstruction from metagenomics data using assembly–alignment graphs and contrastive learning. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03005-7

内容为【DrugOne】公众号原创|转载请注明来源