
DRUGONE
质谱是解析复杂样品中小分子的核心技术,但现有数据库搜索工具在规模与能力上仍受限,通常仅能识别数据库中已知分子,且多为“严格匹配”。为突破这一限制,研究人员提出 VInSMoC,一种可在大规模数据库中识别分子变体的可变匹配算法。VInSMoC 通过自适应碎裂图优化加速搜索,并引入统计显著性评估以降低假阳性。研究人员将 4.8 亿条 GNPS 光谱与 8700 万个数据库分子匹配,检出 43,000 个已知分子及 85,000 个此前未报道的分子变体。此外,VInSMoC 能辅助推断微生物代谢产物的生物合成途径,包括 promothiocin B 与 depsidomycin。

在环境科学、临床检测、天然产物化学与药物研发等领域,快速识别复杂样品中的小分子至关重要。尽管串联质谱广泛应用,但其数据库检索方法通常基于已知分子的参考光谱,因此难以识别未知结构、结构类似物或经微小修饰后的变体。
理论碎裂方法允许从结构数据库生成“计算光谱”,但传统算法计算代价极高。例如,将数百万分子与一条光谱全量匹配常需要数周的 CPU 时间。此外,现有“可变匹配(open search / analog-tolerant search)”方法主要局限于肽类分子,对一般小分子并不适用。
研究人员开发 VInSMoC 旨在:

方法
VInSMoC 以输入分子的分子结构构建 代谢图(metabolite graph),并在此基础上利用 自适应碎裂图(adaptive fragmentation graph) 生成理论碎裂。与传统一次性构建全碎裂图不同,VInSMoC 仅在某些碎片能解释光谱峰时才向更深层扩展,从而显著降低计算量。对于给定光谱与候选分子,VInSMoC 会对代谢图的每个节点施加一个可能的质量偏移 δ,用于模拟潜在化学修饰,并逐一计算匹配得分,最终选择最高分作为“可变得分”。得分的统计显著性通过马尔可夫链蒙特卡洛方法估计,以矫正结构拓扑带来的偏差。
结果
VInSMoC 的加速与可扩展性
VInSMoC 相比以往基于碎裂图的搜索工具实现了数量级提升的速度优化:
在 exact 模式下与多种主流方法比较,VInSMoC 均为最快工具;在可变搜索(open search)中,其速度甚至超过以往专用于肽类的 VarQuest。

可定位分子修饰位置
在 GNPS 标准库中,研究人员人为构建 4966 个带不同修饰的分子并生成模拟光谱。
VInSMoC 能够:
与光谱网络结果一致
研究人员将 VInSMoC 与 Networking+ 光谱网络方法进行比对:
大规模 GNPS 数据库搜索
研究人员使用 VInSMoC 对 1,990 个 GNPS 数据集共 4.8 亿条光谱进行全库搜索:
使用 PubChem(8700 万分子)exact 搜索:
使用 COCONUT 在可变模式下:
VInSMoC 的速度使得此前需“数十年”的任务变得可行。

杂质结构识别与天然产物分析
(1)药物杂质识别
研究人员测试了与 imatinib 相关的六种杂质:
(2)非核糖体肽(NRP)与基因簇推断
在 Streptomyces sp. F-2747 的质谱数据中:
(3)识别新型修饰肽类
在 Streptomyces bellus 光谱中:

P 值修正结构偏倚
传统碎裂图方法对“环状结构”存在得分偏倚。
VInSMoC 的 MCMC P 值:
讨论
研究人员展示了 VInSMoC 作为一种可扩展、快速且可变容错的数据库搜索框架,在识别未知分子变体、推断修饰位置、辅助代谢途径分析等方面具有广泛应用潜力。其核心优势包括:
当前限制主要在于只能对单一修饰进行显式建模,但研究人员认为未来可通过启发式方法扩展至多修饰情形。此外,VInSMoC 的框架能够容纳更复杂的 scoring 方法,为下一代质谱分析算法奠定基础。
整理 | DrugOne团队
参考资料
Guler, M., Krummenacher, B., Hall, T. et al. Identifying variants of molecules through database search of mass spectra. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00923-5
内容为【DrugOne】公众号原创|转载请注明来源