首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Comput. Sci. | 通过质谱数据库检索实现分子变体识别

Nat. Comput. Sci. | 通过质谱数据库检索实现分子变体识别

作者头像
DrugOne
发布2025-12-17 17:03:38
发布2025-12-17 17:03:38
890
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

质谱是解析复杂样品中小分子的核心技术,但现有数据库搜索工具在规模与能力上仍受限,通常仅能识别数据库中已知分子,且多为“严格匹配”。为突破这一限制,研究人员提出 VInSMoC,一种可在大规模数据库中识别分子变体的可变匹配算法。VInSMoC 通过自适应碎裂图优化加速搜索,并引入统计显著性评估以降低假阳性。研究人员将 4.8 亿条 GNPS 光谱与 8700 万个数据库分子匹配,检出 43,000 个已知分子及 85,000 个此前未报道的分子变体。此外,VInSMoC 能辅助推断微生物代谢产物的生物合成途径,包括 promothiocin B 与 depsidomycin。

在环境科学、临床检测、天然产物化学与药物研发等领域,快速识别复杂样品中的小分子至关重要。尽管串联质谱广泛应用,但其数据库检索方法通常基于已知分子的参考光谱,因此难以识别未知结构、结构类似物或经微小修饰后的变体。

理论碎裂方法允许从结构数据库生成“计算光谱”,但传统算法计算代价极高。例如,将数百万分子与一条光谱全量匹配常需要数周的 CPU 时间。此外,现有“可变匹配(open search / analog-tolerant search)”方法主要局限于肽类分子,对一般小分子并不适用。

研究人员开发 VInSMoC 旨在:

  • 在大规模数据库中实现快速、可扩展的可变匹配;
  • 识别数据库中未显式存在的分子变体;
  • 提供统计显著性评估减少假阳性。

方法

VInSMoC 以输入分子的分子结构构建 代谢图(metabolite graph),并在此基础上利用 自适应碎裂图(adaptive fragmentation graph) 生成理论碎裂。与传统一次性构建全碎裂图不同,VInSMoC 仅在某些碎片能解释光谱峰时才向更深层扩展,从而显著降低计算量。对于给定光谱与候选分子,VInSMoC 会对代谢图的每个节点施加一个可能的质量偏移 δ,用于模拟潜在化学修饰,并逐一计算匹配得分,最终选择最高分作为“可变得分”。得分的统计显著性通过马尔可夫链蒙特卡洛方法估计,以矫正结构拓扑带来的偏差。

结果

VInSMoC 的加速与可扩展性

VInSMoC 相比以往基于碎裂图的搜索工具实现了数量级提升的速度优化:

  • 代谢图计算快 28 倍;
  • 碎裂图构建快 6,700 倍;
  • 单个分子–光谱匹配总时间快 2,800 倍。

在 exact 模式下与多种主流方法比较,VInSMoC 均为最快工具;在可变搜索(open search)中,其速度甚至超过以往专用于肽类的 VarQuest。

可定位分子修饰位置

在 GNPS 标准库中,研究人员人为构建 4966 个带不同修饰的分子并生成模拟光谱。

VInSMoC 能够:

  • 在 68% 的案例中,将预测修饰位置与真实位置的平均距离控制在 3 个原子以内;
  • 优于基线 VarQuest 和其他 exact 搜索工具;
  • 对多种常见修饰均具有一致表现。

与光谱网络结果一致

研究人员将 VInSMoC 与 Networking+ 光谱网络方法进行比对:

  • 在多个数据集中,VInSMoC 与光谱网络的关联关系完全一致;
  • 某些差异由碎裂差异或精确模式下的误配导致;
  • 结果表明 VInSMoC 在变体识别层面与光谱网络具有良好互补性。

大规模 GNPS 数据库搜索

研究人员使用 VInSMoC 对 1,990 个 GNPS 数据集共 4.8 亿条光谱进行全库搜索:

使用 PubChem(8700 万分子)exact 搜索:

  • 计算 6.3 万亿个匹配;
  • 仅需 12.7 天(128 线程);
  • 识别 43,598 个已知分子。

使用 COCONUT 在可变模式下:

  • 识别 85,151 个此前未报告的分子变体;
  • 主要对应常见修饰如 ±14(甲基化)、−16(去氧)、+42(三甲基化)等。

VInSMoC 的速度使得此前需“数十年”的任务变得可行。

杂质结构识别与天然产物分析

(1)药物杂质识别

研究人员测试了与 imatinib 相关的六种杂质:

  • 2 种杂质被准确 exact 匹配;
  • 未能匹配的 4 个中,VInSMoC 在 open search 中准确定位修饰位点;
  • 对比 Waters 化学家的人工解析,VInSMoC 结果一致。

(2)非核糖体肽(NRP)与基因簇推断

在 Streptomyces sp. F-2747 的质谱数据中:

  • 成功识别 depsidomycin;
  • 可变匹配显示其与 marformycin 类结构相关;
  • 与基因组中 ktzI/ktzT 同源基因合理对应。

(3)识别新型修饰肽类

在 Streptomyces bellus 光谱中:

  • 在可变模式下定位到一类 thiopeptide 序列;
  • 在基因组中找到对应的基因簇;
  • exact 模式下也检出 promothiocin B,并与其生物合成基因一致。

P 值修正结构偏倚

传统碎裂图方法对“环状结构”存在得分偏倚。

VInSMoC 的 MCMC P 值:

  • 能矫正环状 vs 线性结构的碎裂数量差异;
  • 提升匹配可信度。

讨论

研究人员展示了 VInSMoC 作为一种可扩展、快速且可变容错的数据库搜索框架,在识别未知分子变体、推断修饰位置、辅助代谢途径分析等方面具有广泛应用潜力。其核心优势包括:

  • 自适应碎裂 节省大量无效计算;
  • 可变 scoring 能捕捉数据库中未存在的变体;
  • 统计显著性估计 纠正结构拓扑带来的偏差;
  • 跨分子类型适用,可配置性强。

当前限制主要在于只能对单一修饰进行显式建模,但研究人员认为未来可通过启发式方法扩展至多修饰情形。此外,VInSMoC 的框架能够容纳更复杂的 scoring 方法,为下一代质谱分析算法奠定基础。

整理 | DrugOne团队

参考资料

Guler, M., Krummenacher, B., Hall, T. et al. Identifying variants of molecules through database search of mass spectra. Nat Comput Sci (2025).

https://doi.org/10.1038/s43588-025-00923-5

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档