首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >宏基因组进阶:从初级 MAGs 到发表级基因组的精细化质控

宏基因组进阶:从初级 MAGs 到发表级基因组的精细化质控

作者头像
天意生信云
发布2025-09-30 14:53:13
发布2025-09-30 14:53:13
14400
代码可运行
举报
运行总次数:0
代码可运行
图片
图片

学习技能(点击标题跳转)

01

天意云生信专用服务器(Rstudio仅需99元/月)

02

单细胞转录组测序分析

03

三代全长转录组测序分析

04

空间转录组分析

05

生信自学攻略

06

NCS顶刊文章复现

07

AI辅助生信分析

经过了 De Novo 组装自动化分箱,我们已经成功从复杂的宏基因组数据中重建出了一批微生物基因组草图 (MAGs)。但是,这些 MAGs 准备好用于下游的科学分析和论文发表了吗?

答案是:还差最后一步——精细化质量控制 (QC)

一个高质量的 MAG 不仅要满足完整度和污染度的基本门槛,还必须通过嵌合体检测、基因组结构完整性评估和菌株异质性分析等多重考验。本教程将为你揭示一套完整的、符合顶级期刊发表标准的 MAGs 质控流程。

本教程核心内容:

  1. 基础质控: 使用 CheckM 评估完整度/污染度。
  2. 嵌合体检测: 使用 GUNC 剔除跨物种污染的基因组。
  3. 结构完整性评估: 使用 Barrnap 和 tRNAscan-SE 检查 rRNA/tRNA 的完整性。
  4. 菌株异质性评估: 使用 CMSeq 评估 MAG 是否代表单一菌株。

准备工作:环境与输入文件

环境部署

我们将继续使用之前的 Conda 环境,并补充安装本次质控流程所需的几个新工具。

代码语言:javascript
代码运行次数:0
运行
复制
# 激活环境
conda activate metagenome

# 安装新工具
# GUNC, Barrnap, tRNAscan-SE 是本次核心新工具
# Prokka 用于基因预测,是菌株异质性分析的前置步骤
# CMSeq 用于计算异质性
conda install -c bioconda -c conda-forge gunc barrnap trnascan-se prokka cmseq -y

# GUNC 需要下载专用数据库,首次使用前必须运行
gunc download_db

输入文件

步骤一:基础质控与嵌合体检测 (CheckM + GUNC)

这一步是质控的“守门员”,旨在快速过滤掉不合格的 MAGs。

软件作用

  • CheckM: 我们在上一篇教程中已经用过它,这里再次强调其作为评估完整度 (Completeness) 和 污染度 (Contamination) 的金标准地位。
  • GUNC (Genes of Unexpected Normality for Contamination): 这是一个非常重要的补充工具。CheckM 主要关注单拷贝基因,但可能无法有效识别嵌合体 (Chimerism)——即一个 MAG 中错误地包含了来自不同分类单元(如不同门)的 Contigs。GUNC 通过评估 MAG 内所有基因的分类一致性来检测这种跨域污染,能有效剔除看似合格但实则“缝合怪”的 MAGs。

软件用法

我们假设 CheckM 已经运行完毕。接下来对通过 CheckM 初筛的 MAGs 运行 GUNC。

代码语言:javascript
代码运行次数:0
运行
复制
# 对整个 MAGs 目录运行 GUNC
gunc run --input_dir S1_BINNING/BIN_REFINEMENT/metawrap_50_10_bins/ \
         --out_dir S1_GUNC_QC \
         --threads 24

# 参数解释:
# --input_dir: 包含所有 MAGs (.fa 或 .fna) 的目录。
# --out_dir: 输出结果目录。
# --threads: 线程数。

运行结束后,查看核心输出文件 S1_GUNC_QC/GUNC_output.tsv。关注 pass.gunc 这一列,值为 TRUE 的 MAGs 才算通过了嵌合体检测。只有同时满足 CheckM 标准和 GUNC 检测的 MAGs,才能进入下一步。

步骤二:结构完整性评估 (rRNA & tRNA)

软件作用

根据 MIMAG 标准,一个高质量 (High-quality) 的 MAG 不仅要满足 >90% 完整度和 <5% 污染度,还必须包含完整的 rRNA 操纵子(5S, 16S, 23S rRNA)和至少18种不同的 tRNA。这证明了基因组组装的连续性和结构的完整性。

  • Barrnap: 快速、准确地从基因组中预测 rRNA 基因。
  • tRNAscan-SE: 识别 tRNA 基因的权威工具。

软件用法

我们需要为每个通过第一步筛选的 MAG 单独运行这两个工具。这里以一个 MAG (bin.1.fa) 为例,你可以编写一个简单的循环脚本来处理所有 MAGs。

代码语言:javascript
代码运行次数:0
运行
复制
MAG_FILE="path/to/bin.1.fa" # 替换为你的 MAG 文件

# 1. 预测 rRNA
barrnap --threads 8 --outseq bin.1.rRNA.fa ${MAG_FILE} > bin.1.rRNA.gff

# 2. 预测 tRNA
tRNAscan-SE -o bin.1.tRNA.out -g general.gff ${MAG_FILE}

# 结果解读:
# - 查看 bin.1.rRNA.gff 文件,检查是否同时包含 5S_rRNA, 16S_rRNA, 23S_rRNA。
# - 查看 bin.1.tRNA.out 文件,看识别出的 tRNA 种类是否 >= 18 种。

步骤三:菌株异质性评估 (CMSeq)

软件作用

在宏基因组中,一个物种可能由多个遗传上略有差异的菌株组成。如果我们的 MAG 混合了多个菌株的序列,它实际上是一个“种群共有基因组”,而不是单个菌株的基因组。高菌株异质性 (Strain Heterogeneity) 会干扰后续的 SNP 分析和代谢通路重建。CMSeq 是一个专门用于评估 MAGs 菌株异质性的工具。它通过计算**种内多态性 (Intra-population Polymorphism)**,即在单拷贝核心基因上的核苷酸多样性(π),来量化异质性程度。

软件用法

这是一个多步流程,需要先将 reads 比对回 MAG,然后进行变异检测。

代码语言:javascript
代码运行次数:0
运行
复制
MAG_FILE="path/to/bin.1.fa" # 目标 MAG
THREADS=24

# 1. 基因预测 (CMSeq 需要基因位置信息)
prokka --outdir bin.1_prokka --prefix bin.1 --cpus ${THREADS} --quiet ${MAG_FILE}
GFF_FILE="bin.1_prokka/bin.1.gff"

# 2. 比对 reads 到 MAG
bwa index ${MAG_FILE}
bwa mem -t ${THREADS} ${MAG_FILE} S1_clean_R1.fq.gz S1_clean_R2.fq.gz | \
  samtools view -bS -F 4 - | \
  samtools sort -o bin.1.sorted.bam -

samtools index bin.1.sorted.bam

# 3. 运行 CMSeq
cmseq --threads ${THREADS} polymut --bam bin.1.sorted.bam --gff ${GFF_FILE} --output bin.1.polymut.tsv

查看输出文件 bin.1.polymut.tsv。其中 mean_SNV_frequency 或相关的核苷酸多样性指标,可以用来评估异质性。通常,一个值很低(如 < 0.01) 表示该 MAG 代表了一个相对单一的菌株群体。

总结与展望:构建你自己的参考数据库

通过以上层层筛选,现在拥有了一批高质量、高可信度的 MAGs。

最后一步,也是最重要的一步,是为这些 MAGs 建立一个标准化的比较背景。需要从公共数据库(如 NCBI RefSeq)下载相关的参考基因组,并对它们执行完全相同的质控流程(CheckM, GUNC 等),确保你的 MAGs 和参考基因组是在同一标准下进行比较的。

完成这一步后,就可以进入最终的分析阶段:

  • 物种分类鉴定 (GTDB-Tk)
  • 功能注释 (eggNOG-mapper, KOFAMscan)
  • 比较基因组学分析

最终分析阶段我们下一节分享。

我们深知,科研的宝贵时间不应浪费在环境配置的反复试错与计算任务的漫长等待上。为此,我们推出的高性能计算服务器,正是为解决这些痛点而生。我们不仅为您准备了拥有大内存、多核心的强劲硬件,更将通用分析工具及所需数据库进行了预装和深度优化,为您打造一个“开箱即用”的宏基因组分析平台。让您告别繁琐配置,专注数据,加速您的科研进程。

图片
图片
图片
图片

1 天意云服务器产品

天意云服务器产品类型包括集成分析环境、共享服务器、独享服务器三种。服务器配置科学划分,按需部署。考虑到项目需求较小、周期较短的用户,我们基于共享服务器搭建了集成分析环境,通过浏览器即可登录使用Rstudio和Jupyter。服务器产品都提前预装了常用的软件、R包、Python库,无论你是做宏基因、宏病毒还是做单细胞组学、空间转录组,都有适配的软件供你使用,帮你节省很多安装软件的时间。最重要的,选择我们的服务器就相当于选择了一个专业的辅助团队,在你使用服务器期间,我们技术人员免费提供技术支持服务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BioOmics 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 准备工作:环境与输入文件
    • 环境部署
    • 输入文件
  • 步骤一:基础质控与嵌合体检测 (CheckM + GUNC)
    • 软件作用
    • 软件用法
  • 步骤二:结构完整性评估 (rRNA & tRNA)
    • 软件作用
    • 软件用法
  • 步骤三:菌株异质性评估 (CMSeq)
    • 软件作用
    • 软件用法
  • 总结与展望:构建你自己的参考数据库
    • 1 天意云服务器产品
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档