学习技能(点击标题跳转)
01
02
03
04
05
06
07
在上一篇教程中宏基因组组装实战教程 (MEGAHIT + BBMap + BWA),我们成功将测序 reads 组装成了 contigs,并计算了它们的覆盖深度。现在,我们将进入宏基因组分析中最激动人心的环节之一:基因组分箱 (Genome Binning)。分箱的目标,就是将成千上万条来源混杂的 contigs,根据其序列特征和丰度信息,重新聚类成属于单个物种的基因组草图(Metagenome-Assembled Genomes, MAGs)。
本教程将介绍一套业界领先的、基于 metaWRAP 的自动化分箱、整合与评估流程:
metaWRAP 是一个强大的流程整合工具,但依赖项较多。同样,我们强烈建议使用 Conda 进行一站式安装。
# 激活我们之前创建的环境
conda activate metagenome
# 安装 metaWRAP (它会自动处理 MetaBAT2, MaxBin2, CONCOCT, CheckM 等依赖)
conda install -c ursky metawrap-mg -y
# 关键一步:配置 metaWRAP 依赖的数据库
# 这个过程会下载 NCBI_nt/taxdump 等数据库,需要较长时间和网络
# 请确保你有足够的磁盘空间(~50GB)
metawrap-get_dbs
本教程需要上一篇教程的两个输出文件:
● 组装好的 Contigs: S1_megahit_out/final.contigs.fa
● Contigs 覆盖度文件: S1_contig_depth.txt
不同的分箱软件基于不同的算法,各有优劣。例如,MetaBAT2 对四核苷酸频率敏感,而 CONCOCT 则擅长利用覆盖度信息。单独使用任何一种工具都可能得到次优的结果。
metaWRAP 的 binning 模块 可以一键并行运行这三款软件,并将它们的原始分箱结果分别存放在独立的文件夹中。这种“集思广益”的策略是获得高质量 MAGs 的第一步。
# 定义输入文件变量
CONTIGS="S1_megahit_out/final.contigs.fa"
DEPTH_FILE="S1_contig_depth.txt"
THREADS=24
# 运行 metaWRAP binning 模块
metawrap binning \
-o S1_BINNING \
-t ${THREADS} \
-a ${CONTIGS} \
--metabat2 --maxbin2 --concoct \
S1_clean_R1.fq.gz S1_clean_R2.fq.gz
# 参数解释:
# -o: 指定总的输出目录。
# -t: 使用的线程数。
# -a: 输入的 contigs 文件。
# --metabat2 --maxbin2 --concoct: 指定要运行的三款分箱软件。
# 最后两个参数是原始的 clean reads,metaWRAP 会自动处理比对和深度计算。
# 注意:即使我们已手动计算深度,为保持流程统一,metaWRAP 仍建议提供 reads。
运行结束后,S1_BINNING/
目录下会生成 metabat2_bins/
、maxbin2_bins/
和 concoct_bins/
三个子目录,分别存放着三款软件的初步分箱结果。
三套分箱结果通常存在差异。metaWRAP 的 Bin_refinement 模块 会比较这三套结果,通过一种投票或共识算法,生成一个杂合的、质量更高的最终分箱集。它会剔除冲突的 contigs,合并一致的 bins,最终得到一套优化后的 MAGs。
我们使用 -c 50 和 -x 10 参数,这直接对应了国际公认的 MIMAG (Minimum Information about a Metagenome-Assembled Genome) 标准中的“中等质量”基因组草图门槛(完整度 > 50%,污染度 < 10%)。
# 运行 metaWRAP Bin_refinement 模块
metawrap bin_refinement \
-o S1_BINNING/BIN_REFINEMENT \
-t ${THREADS} \
-A S1_BINNING/metabat2_bins/ \
-B S1_BINNING/maxbin2_bins/ \
-C S1_BINNING/concoct_bins/ \
-c 50 \
-x 10
# 参数解释:
# -o: 指定精炼结果的输出目录。
# -A, -B, -C: 分别指定三款软件的原始分箱结果目录。
# -c: 最小完整度 (Completeness) 阈值,设为 50%。
# -x: 最大污染度 (Contamination) 阈值,设为 10%。
完成后,在 S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/
目录下,你将找到精炼后并经过初步筛选的 MAGs 文件(以 .fa
结尾)。
CheckM 是评估 MAGs 质量的“金标准”。它通过检测物种特异性的单拷贝核心基因(Single-Copy Core Genes)的出现情况,来精确估算每个 MAG 的完整度 (Completeness) 和 污染度 (Contamination)。
metaWRAP 的 quant_bins
模块封装了 CheckM,可以方便地对一批 MAGs 进行批量评估。
# 运行 metaWRAP quant_bins 模块
metawrap quant_bins \
-o S1_BINNING/QUANT_BINS \
-t ${THREADS} \
-b S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/
# 参数解释:
# -o: 指定质量评估结果的输出目录。
# -b: 输入的精炼后 MAGs 所在目录。
# -t: 线程数。
专业提示: 表格中提到的 CheckM -quick
参数会使用预筛选的、更小的标记基因集,速度更快,适合初步探索。而 metaWRAP 的 quant_bins
默认运行的是 CheckM 的 lineage_wf
完整流程,结果更精确,是发表论文时的推荐选择。
评估完成后,打开 S1_BINNING/QUANT_BINS/bins_qa.tsv
文件,你将看到一个清晰的表格,列出了每个 MAG 的完整度、污染度和菌株异质性等关键信息。
bin Completeness Contamination Strain heterogeneity ...
metawrap_50_10_bins.1 98.5 1.2 0.0 ...
metawrap_50_10_bins.2 92.1 3.5 15.2 ...
metawrap_50_10_bins.3 75.4 0.0 0.0 ...
...
根据这个表格,你可以轻松筛选出**高质量 MAGs (Completeness > 90%, Contamination < 5%) 和中等质量 MAGs (Completeness > 50%, Contamination < 10%)**,用于后续的物种注释、功能分析和比较基因组学研究。
通过 metaWRAP 的“三部曲”,我们高效地完成了从混合 contigs 到高质量、已评估的微生物基因组的重建过程。现在,你手中这些 MAGs 就像是从复杂的微生物暗物质中发掘出的宝藏,等待着你去揭示它们的身份和秘密!
我们深知,科研的宝贵时间不应浪费在环境配置的反复试错与计算任务的漫长等待上。为此,我们推出的高性能计算服务器,正是为解决这些痛点而生。我们不仅为您准备了拥有大内存、多核心的强劲硬件,更将通用分析工具及所需数据库进行了预装和深度优化,为您打造一个“开箱即用”的宏基因组分析平台。让您告别繁琐配置,专注数据,加速您的科研进程。
天意云服务器产品类型包括集成分析环境、共享服务器、独享服务器三种。服务器配置科学划分,按需部署。考虑到项目需求较小、周期较短的用户,我们基于共享服务器搭建了集成分析环境,通过浏览器即可登录使用Rstudio和Jupyter。服务器产品都提前预装了常用的软件、R包、Python库,无论你是做宏基因、宏病毒还是做单细胞组学、空间转录组,都有适配的软件供你使用,帮你节省很多安装软件的时间。最重要的,选择我们的服务器就相当于选择了一个专业的辅助团队,在你使用服务器期间,我们技术人员免费提供技术支持服务。