首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >代谢组学—Metabolomics Workbench数据库介绍

代谢组学—Metabolomics Workbench数据库介绍

原创
作者头像
sheldor没耳朵
发布2025-08-19 11:32:43
发布2025-08-19 11:32:43
1.2K0
举报

代谢组学—Metabolomics Workbench数据库介绍

之前做的代谢组学下游分析,其实都是从测序公司给的下游数据开始处理的。对于代谢组学还有两个比较关键的点没有涉及,一是从原始的离子峰(质谱数据)处理,而是从公共数据库出发,利用别人的数据,做些数据挖掘方面的工作。

之前看过许多微生物组或代谢组学的文章,其中的原始数据常常是不公开的,每次看到我都觉得“太离谱咯”,如下图

今天介绍下Metabolomics Workbench数据库,第一次看到我就觉得这不就是代谢组中的“GEO”吗?

(刚刚接触,可能会有写的不对的地方)

1.简介

Metabolomics Workbench 数据库(中国语常称为代谢组学工作台),这是一个由美国国立卫生研究院(NIH)支持、由加州大学圣地亚哥分校运营的国家级代谢组数据与工具平台:

  • 核心定位与功能
    • 国家级代谢组数据中心:Metabolomics Workbench 托管 NIH Common Fund 的国家代谢组数据存储库(NMDR),作为一个国际化的代谢组数据与元数据资源中心,涵盖多种物种与实验平台,包括 MS(质谱)和 NMR(核磁共振)数据
    • 数据类型丰富:支持上传与访问原始数据(MS/NMR 原始文件)、处理后的定量结果(如代谢物浓度、峰高/面积、谱图等),适用于靶向和非靶向研究
    • 集成多种数据库:
      • 代谢物数据库(Metabolite Database):截至 2025 年 2 月,已收录超过 174,000 个结构化代谢物记录,来源包括 LIPID MAPS、ChEBI、HMDB、PubChem、NP Atlas、EPA CompTox、KEGG 等。支持文本、子结构、质量(m/z)搜索等功能。
      • RefMet 标准名称体系:提供统一的代谢物命名规范,覆盖 >700,000 个名称,源自 3,500 多项 MS 和 NMR 研究,增强研究间数据对比和整合能力。
      • 人类代谢基因/蛋白数据库(MGP):提供代谢相关的大约 7,300 个基因和 15,500 个蛋白质的数据资源。
  • 分析工具与平台功能
    • 在线分析工具:
      • MetStat:跨多个研究进行代谢物的浓度趋势统计汇总,支持按物种、组织、分析方法等筛选比较。
      • MSCAT(Metabolomics Software CATALOG):基于 Docker 的软件目录,可在线生成代谢组学分析流程。
      • DSPC 网络图工具:使用“去偏差稀疏偏相关”(Debiased Sparse Partial Correlation)算法绘制代谢物间关联网络,可映射化合物分类或 fold-change 等。
      • LC-MS 搜索功能:支持搜索超过 4.5 百万个 m/z + 保留时间特征,覆盖 890 多项研究,允许按样本来源、设备类型等筛选条件定位信息
    • RefMet 工具
      • 名称转换、结构浏览、核心结构层级、离子加合物(ion-adduct)计算、m/z 计算以及输入名称批量映射等功能都支持在线调用
    • 开放应用接口(REST 服务):支持程序化调用,用于检索研究数据、代谢物信息、分析流程等内容,便于自动化整合与二次开发
    • Jupyter Notebook 支撑分析:通过 Binder 启动 Jupyter Notebooks,便于用户分析 NMDR 中的研究数据,也可浏览 JSON 格式的 mwTab 文件
  • 数据资源与研究实践
    • 研究浏览与检索:支持按物种、样本类型、疾病关联等维度筛选研究,并提供一键检索功能(包括代谢物本身与其在研究中的表现)
    • 数据引用规范:使用者引用 NMDR 数据时,需提供 Project ID 和 DOI(可在项目概要页面查到)。平台还提供推荐引用模板
    • 综合支持资源:文件资料包括实验方案,教程,培训材料,协议;同时提供代谢物标准、工具、外部链接及教育资源

2 代谢组数据库比较

  • Metabolomics Workbench (NIH):美国主导,除了数据仓库外,更强调 数据标准化(mwTab 格式) 和 可直接用于分析的处理后数据
  • MetaboLights (EBI-EMBL):欧洲主导,侧重代谢组原始数据存储
  • HMDB (Human Metabolome Database):是代谢物知识库,主要是代谢物本身的信息(化学、通路、浓度),而 MW/MetaboLights 更偏向于实验数据

3.实践

  • 以“ST002318”为例,业务提供了数据集的基本介绍,样本信息以及各种形式的文件下载
  • 文件下载
    • Perform statistical analysis:直接在 Metabolomics Workbench 的网页版界面调用内置分析工具(ANOVA、t-test、PCA 等)。优点:无需下载,适合快速看差异和可视化。局限:功能有限、灵活度低,通常只用于初步探索
    • Show all samples:显示该 study 下所有样本的元信息(metadata):包括样本编号、分组信息(比如处理 vs 对照)、样本类型(细胞/血清)、时间点、技术平台等
    • Show named metabolites:显示作者已经鉴定并命名的代谢物清单(如乳酸、谷氨酸、色氨酸等),通常附带定量值(强度、峰面积、浓度)。用处:最常用的部分,直接用来做差异代谢物分析、通路富集。
    • Download named metabolite data:下载一份表格(通常是 TSV/CSV),包含所有已命名代谢物在各样本中的定量值,用处:最推荐下载这个文件,它就是可直接导入 R(MetaboAnalystR)、Python(pandas)或 MetaboAnalyst 在线工具的矩阵
    • Download mwTab file (text) / (JSON):这是 Metabolomics Workbench 的标准数据交换格式,叫做 mwTab。text 版本:人类可读的结构化文本。JSON 版本:机器可读,方便程序批量处理。内容:不仅包括代谢物数据,还包括 metadata、实验条件、质控信息。用处:如果打算用 Workbench API 或做自动化批量下载,就用它;一般科研人员直接分析时不必用
    • Download data files (Contains raw data):
    • 下载该研究的原始质谱/核磁数据(mzML、CDF、RAW 等格式)。优点:可以自己做峰提取、峰对齐、代谢物鉴定。局限:非常大(几个 GB 到几十 GB),需要专业软件(XCMS、MS-DIAL、MZmine 等)和经验。一般只有在需要验证作者的峰提取/鉴定或开发新算法时才需要;大多数生物学研究直接用 “named metabolite data” 就够了

以上是对Metabolomics Workbench数据库的初步探索与介绍,后续在实际使用过程中再遇到问题,再写帖子记录下吧。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 代谢组学—Metabolomics Workbench数据库介绍
    • 1.简介
    • 2 代谢组数据库比较
    • 3.实践
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档