学习技能(点击标题跳转)
01
02
03
04
05
06
07
经过了 De Novo 组装 和 自动化分箱,我们已经成功从复杂的宏基因组数据中重建出了一批微生物基因组草图 (MAGs)。但是,这些 MAGs 准备好用于下游的科学分析和论文发表了吗?
答案是:还差最后一步——精细化质量控制 (QC) 。
一个高质量的 MAG 不仅要满足完整度和污染度的基本门槛,还必须通过嵌合体检测、基因组结构完整性评估和菌株异质性分析等多重考验。本教程将为你揭示一套完整的、符合顶级期刊发表标准的 MAGs 质控流程。
本教程核心内容:
我们将继续使用之前的 Conda 环境,并补充安装本次质控流程所需的几个新工具。
# 激活环境
conda activate metagenome
# 安装新工具
# GUNC, Barrnap, tRNAscan-SE 是本次核心新工具
# Prokka 用于基因预测,是菌株异质性分析的前置步骤
# CMSeq 用于计算异质性
conda install -c bioconda -c conda-forge gunc barrnap trnascan-se prokka cmseq -y
# GUNC 需要下载专用数据库,首次使用前必须运行
gunc download_db
S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/
(来自上一篇教程宏基因组进阶:从 Contigs 到高质量基因组草图 (MAGs) 的分箱实战)S1_clean_R1.fq.gz 和 S1_clean_R2.fq.gz
(用于菌株异质性分析)这一步是质控的“守门员”,旨在快速过滤掉不合格的 MAGs。
我们假设 CheckM 已经运行完毕。接下来对通过 CheckM 初筛的 MAGs 运行 GUNC。
# 对整个 MAGs 目录运行 GUNC
gunc run --input_dir S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/ \
--out_dir S1_GUNC_QC \
--threads 24
# 参数解释:
# --input_dir: 包含所有 MAGs (.fa 或 .fna) 的目录。
# --out_dir: 输出结果目录。
# --threads: 线程数。
运行结束后,查看核心输出文件 S1_GUNC_QC/GUNC_output.tsv。关注 pass.gunc 这一列,值为 TRUE 的 MAGs 才算通过了嵌合体检测。只有同时满足 CheckM 标准和 GUNC 检测的 MAGs,才能进入下一步。
根据 MIMAG 标准,一个高质量 (High-quality) 的 MAG 不仅要满足 >90% 完整度和 <5% 污染度,还必须包含完整的 rRNA 操纵子(5S, 16S, 23S rRNA)和至少18种不同的 tRNA。这证明了基因组组装的连续性和结构的完整性。
我们需要为每个通过第一步筛选的 MAG 单独运行这两个工具。这里以一个 MAG (bin.1.fa) 为例,你可以编写一个简单的循环脚本来处理所有 MAGs。
MAG_FILE="path/to/bin.1.fa" # 替换为你的 MAG 文件
# 1. 预测 rRNA
barrnap --threads 8 --outseq bin.1.rRNA.fa ${MAG_FILE} > bin.1.rRNA.gff
# 2. 预测 tRNA
tRNAscan-SE -o bin.1.tRNA.out -g general.gff ${MAG_FILE}
# 结果解读:
# - 查看 bin.1.rRNA.gff 文件,检查是否同时包含 5S_rRNA, 16S_rRNA, 23S_rRNA。
# - 查看 bin.1.tRNA.out 文件,看识别出的 tRNA 种类是否 >= 18 种。
在宏基因组中,一个物种可能由多个遗传上略有差异的菌株组成。如果我们的 MAG 混合了多个菌株的序列,它实际上是一个“种群共有基因组”,而不是单个菌株的基因组。高菌株异质性 (Strain Heterogeneity) 会干扰后续的 SNP 分析和代谢通路重建。CMSeq 是一个专门用于评估 MAGs 菌株异质性的工具。它通过计算**种内多态性 (Intra-population Polymorphism)**,即在单拷贝核心基因上的核苷酸多样性(π),来量化异质性程度。
这是一个多步流程,需要先将 reads 比对回 MAG,然后进行变异检测。
MAG_FILE="path/to/bin.1.fa" # 目标 MAG
THREADS=24
# 1. 基因预测 (CMSeq 需要基因位置信息)
prokka --outdir bin.1_prokka --prefix bin.1 --cpus ${THREADS} --quiet ${MAG_FILE}
GFF_FILE="bin.1_prokka/bin.1.gff"
# 2. 比对 reads 到 MAG
bwa index ${MAG_FILE}
bwa mem -t ${THREADS} ${MAG_FILE} S1_clean_R1.fq.gz S1_clean_R2.fq.gz | \
samtools view -bS -F 4 - | \
samtools sort -o bin.1.sorted.bam -
samtools index bin.1.sorted.bam
# 3. 运行 CMSeq
cmseq --threads ${THREADS} polymut --bam bin.1.sorted.bam --gff ${GFF_FILE} --output bin.1.polymut.tsv
查看输出文件 bin.1.polymut.tsv
。其中 mean_SNV_frequency
或相关的核苷酸多样性指标,可以用来评估异质性。通常,一个值很低(如 < 0.01) 表示该 MAG 代表了一个相对单一的菌株群体。
通过以上层层筛选,现在拥有了一批高质量、高可信度的 MAGs。
最后一步,也是最重要的一步,是为这些 MAGs 建立一个标准化的比较背景。需要从公共数据库(如 NCBI RefSeq)下载相关的参考基因组,并对它们执行完全相同的质控流程(CheckM, GUNC 等),确保你的 MAGs 和参考基因组是在同一标准下进行比较的。
完成这一步后,就可以进入最终的分析阶段:
最终分析阶段我们下一节分享。
我们深知,科研的宝贵时间不应浪费在环境配置的反复试错与计算任务的漫长等待上。为此,我们推出的高性能计算服务器,正是为解决这些痛点而生。我们不仅为您准备了拥有大内存、多核心的强劲硬件,更将通用分析工具及所需数据库进行了预装和深度优化,为您打造一个“开箱即用”的宏基因组分析平台。让您告别繁琐配置,专注数据,加速您的科研进程。
天意云服务器产品类型包括集成分析环境、共享服务器、独享服务器三种。服务器配置科学划分,按需部署。考虑到项目需求较小、周期较短的用户,我们基于共享服务器搭建了集成分析环境,通过浏览器即可登录使用Rstudio和Jupyter。服务器产品都提前预装了常用的软件、R包、Python库,无论你是做宏基因、宏病毒还是做单细胞组学、空间转录组,都有适配的软件供你使用,帮你节省很多安装软件的时间。最重要的,选择我们的服务器就相当于选择了一个专业的辅助团队,在你使用服务器期间,我们技术人员免费提供技术支持服务。