首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >宏基因组进阶:从 Contigs 到高质量基因组草图 (MAGs) 的分箱实战

宏基因组进阶:从 Contigs 到高质量基因组草图 (MAGs) 的分箱实战

作者头像
天意生信云
发布2025-09-30 14:52:07
发布2025-09-30 14:52:07
10200
代码可运行
举报
运行总次数:0
代码可运行
图片
图片

学习技能(点击标题跳转)

01

天意云生信专用服务器(Rstudio仅需99元/月)

02

单细胞转录组测序分析

03

三代全长转录组测序分析

04

空间转录组分析

05

生信自学攻略

06

NCS顶刊文章复现

07

AI辅助生信分析

在上一篇教程中宏基因组组装实战教程 (MEGAHIT + BBMap + BWA),我们成功将测序 reads 组装成了 contigs,并计算了它们的覆盖深度。现在,我们将进入宏基因组分析中最激动人心的环节之一:基因组分箱 (Genome Binning)。分箱的目标,就是将成千上万条来源混杂的 contigs,根据其序列特征和丰度信息,重新聚类成属于单个物种的基因组草图(Metagenome-Assembled Genomes, MAGs)。

本教程将介绍一套业界领先的、基于 metaWRAP 的自动化分箱、整合与评估流程:

  1. 多工具并行分箱: 同时调用 MetaBAT2, MaxBin2, CONCOCT 三大主流工具。
  2. 分箱结果整合与精炼: 利用 Bin_refinement 模块,取长补短,生成更优的 MAGs。
  3. 基因组质量评估: 使用 CheckM 对 MAGs 的完整度和污染度进行权威评估。

准备工作:环境与输入文件

环境部署

metaWRAP 是一个强大的流程整合工具,但依赖项较多。同样,我们强烈建议使用 Conda 进行一站式安装。

代码语言:javascript
代码运行次数:0
运行
复制
# 激活我们之前创建的环境
conda activate metagenome

# 安装 metaWRAP (它会自动处理 MetaBAT2, MaxBin2, CONCOCT, CheckM 等依赖)
conda install -c ursky metawrap-mg -y

# 关键一步:配置 metaWRAP 依赖的数据库
# 这个过程会下载 NCBI_nt/taxdump 等数据库,需要较长时间和网络
# 请确保你有足够的磁盘空间(~50GB)
metawrap-get_dbs

输入文件

本教程需要上一篇教程的两个输出文件:

● 组装好的 Contigs: S1_megahit_out/final.contigs.fa

● Contigs 覆盖度文件: S1_contig_depth.txt

步骤一:metaWRAP 多工具并行分箱

软件作用

不同的分箱软件基于不同的算法,各有优劣。例如,MetaBAT2 对四核苷酸频率敏感,而 CONCOCT 则擅长利用覆盖度信息。单独使用任何一种工具都可能得到次优的结果。

metaWRAP 的 binning 模块 可以一键并行运行这三款软件,并将它们的原始分箱结果分别存放在独立的文件夹中。这种“集思广益”的策略是获得高质量 MAGs 的第一步。

软件用法

代码语言:javascript
代码运行次数:0
运行
复制
# 定义输入文件变量
CONTIGS="S1_megahit_out/final.contigs.fa"
DEPTH_FILE="S1_contig_depth.txt"
THREADS=24

# 运行 metaWRAP binning 模块
metawrap binning \
    -o S1_BINNING \
    -t ${THREADS} \
    -a ${CONTIGS} \
    --metabat2 --maxbin2 --concoct \
    S1_clean_R1.fq.gz S1_clean_R2.fq.gz

# 参数解释:
# -o: 指定总的输出目录。
# -t: 使用的线程数。
# -a: 输入的 contigs 文件。
# --metabat2 --maxbin2 --concoct: 指定要运行的三款分箱软件。
# 最后两个参数是原始的 clean reads,metaWRAP 会自动处理比对和深度计算。
# 注意:即使我们已手动计算深度,为保持流程统一,metaWRAP 仍建议提供 reads。

运行结束后,S1_BINNING/ 目录下会生成 metabat2_bins/maxbin2_bins/concoct_bins/ 三个子目录,分别存放着三款软件的初步分箱结果。

步骤二:metaWRAP 整合与精炼分箱结果

软件作用

三套分箱结果通常存在差异。metaWRAP 的 Bin_refinement 模块 会比较这三套结果,通过一种投票或共识算法,生成一个杂合的、质量更高的最终分箱集。它会剔除冲突的 contigs,合并一致的 bins,最终得到一套优化后的 MAGs。

我们使用 -c 50 和 -x 10 参数,这直接对应了国际公认的 MIMAG (Minimum Information about a Metagenome-Assembled Genome) 标准中的“中等质量”基因组草图门槛(完整度 > 50%,污染度 < 10%)。

软件用法

代码语言:javascript
代码运行次数:0
运行
复制
# 运行 metaWRAP Bin_refinement 模块
metawrap bin_refinement \
    -o S1_BINNING/BIN_REFINEMENT \
    -t ${THREADS} \
    -A S1_BINNING/metabat2_bins/ \
    -B S1_BINNING/maxbin2_bins/ \
    -C S1_BINNING/concoct_bins/ \
    -c 50 \
    -x 10

# 参数解释:
# -o: 指定精炼结果的输出目录。
# -A, -B, -C: 分别指定三款软件的原始分箱结果目录。
# -c: 最小完整度 (Completeness) 阈值,设为 50%。
# -x: 最大污染度 (Contamination) 阈值,设为 10%。

完成后,在 S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/ 目录下,你将找到精炼后并经过初步筛选的 MAGs 文件(以 .fa 结尾)。

步骤三:使用 CheckM 进行最终质量评估

软件作用

CheckM 是评估 MAGs 质量的“金标准”。它通过检测物种特异性的单拷贝核心基因(Single-Copy Core Genes)的出现情况,来精确估算每个 MAG 的完整度 (Completeness) 和 污染度 (Contamination)。

metaWRAP 的 quant_bins 模块封装了 CheckM,可以方便地对一批 MAGs 进行批量评估。

软件用法

代码语言:javascript
代码运行次数:0
运行
复制
# 运行 metaWRAP quant_bins 模块
metawrap quant_bins \
    -o S1_BINNING/QUANT_BINS \
    -t ${THREADS} \
    -b S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/

# 参数解释:
# -o: 指定质量评估结果的输出目录。
# -b: 输入的精炼后 MAGs 所在目录。
# -t: 线程数。

专业提示: 表格中提到的 CheckM -quick 参数会使用预筛选的、更小的标记基因集,速度更快,适合初步探索。而 metaWRAP 的 quant_bins 默认运行的是 CheckM 的 lineage_wf 完整流程,结果更精确,是发表论文时的推荐选择。

评估完成后,打开 S1_BINNING/QUANT_BINS/bins_qa.tsv 文件,你将看到一个清晰的表格,列出了每个 MAG 的完整度、污染度和菌株异质性等关键信息。

代码语言:javascript
代码运行次数:0
运行
复制
bin         Completeness    Contamination   Strain heterogeneity  ...
metawrap_50_10_bins.1   98.5            1.2             0.0               ...
metawrap_50_10_bins.2   92.1            3.5             15.2              ...
metawrap_50_10_bins.3   75.4            0.0             0.0               ...
...

根据这个表格,你可以轻松筛选出**高质量 MAGs (Completeness > 90%, Contamination < 5%) 和中等质量 MAGs (Completeness > 50%, Contamination < 10%)**,用于后续的物种注释、功能分析和比较基因组学研究。

总结

通过 metaWRAP 的“三部曲”,我们高效地完成了从混合 contigs 到高质量、已评估的微生物基因组的重建过程。现在,你手中这些 MAGs 就像是从复杂的微生物暗物质中发掘出的宝藏,等待着你去揭示它们的身份和秘密!

图片
图片

我们深知,科研的宝贵时间不应浪费在环境配置的反复试错与计算任务的漫长等待上。为此,我们推出的高性能计算服务器,正是为解决这些痛点而生。我们不仅为您准备了拥有大内存、多核心的强劲硬件,更将通用分析工具及所需数据库进行了预装和深度优化,为您打造一个“开箱即用”的宏基因组分析平台。让您告别繁琐配置,专注数据,加速您的科研进程。

图片
图片
图片
图片

1 天意云服务器产品

天意云服务器产品类型包括集成分析环境、共享服务器、独享服务器三种。服务器配置科学划分,按需部署。考虑到项目需求较小、周期较短的用户,我们基于共享服务器搭建了集成分析环境,通过浏览器即可登录使用Rstudio和Jupyter。服务器产品都提前预装了常用的软件、R包、Python库,无论你是做宏基因、宏病毒还是做单细胞组学、空间转录组,都有适配的软件供你使用,帮你节省很多安装软件的时间。最重要的,选择我们的服务器就相当于选择了一个专业的辅助团队,在你使用服务器期间,我们技术人员免费提供技术支持服务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BioOmics 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 准备工作:环境与输入文件
    • 环境部署
  • 输入文件
  • 步骤一:metaWRAP 多工具并行分箱
    • 软件作用
    • 软件用法
  • 步骤二:metaWRAP 整合与精炼分箱结果
    • 软件作用
    • 软件用法
  • 步骤三:使用 CheckM 进行最终质量评估
    • 软件作用
    • 软件用法
  • 总结
    • 1 天意云服务器产品
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档