
DRUGONE
在代谢组学数据解释中,一个主要瓶颈是如何有效利用领域知识,通过碎片化模式分配结构信息。质谱查询语言(MassQL)旨在使这一过程在多种分析平台上都可应用。尽管先进的计算方法能够从碎片化数据预测化合物结构,但AI/ML 方法往往依赖复杂且不透明的判据,难以解释或修改。因此,这些预测模式无法轻易转化为人类可读的规则。研究人员在本研究中提出了 ChemEcho,一种机器学习嵌入方法,将串联质谱数据转化为稀疏特征向量,包含峰和中性损失亚公式,从而提升可解释性。基于这些特征向量训练的决策树可直接转化为 MassQL 查询。研究人员利用 ChemEcho 训练的一系列决策树,生成了 1500 多个 MassQL 查询,涵盖 765 个分子特征,并评估其精确度和召回率。表现最佳的 50 个查询被整合进 MassQL 大全,包含环境和生物学相关类别,如 PFAS 及含磷酸酯或硫酸酯亚结构的分子。应用于公共代谢组学数据集时,这些查询显著提升了结构信息的提取效率。研究人员预计,这些查询的开放共享将推动代谢组学中更精确的结构注释。

串联质谱是代谢组学中常用的分析方法,但传统的光谱库比对方法只能注释少量特征。近年来,机器学习工具被开发用于直接从光谱预测分子属性,例如化学类别或分子结构。然而,这些方法往往牺牲了可解释性,产生“黑箱”式预测。缺乏可读的规则限制了研究人员直接利用这些模型来提出假设或设计查询。为了解决这一问题,研究人员提出了 ChemEcho 方法,能够将碎片化数据表示为稀疏且可解释的特征向量,为训练可解释的模型(如决策树)提供基础,并可无缝转化为 MassQL 查询。
结果
分子子结构与类别定义
研究人员结合多种方法定义分子子结构和化学类别,包括 BRICS 分解、Murcko 骨架提取以及 NP-Classifier 分类体系,并引入化学相似性网络的无监督聚类结果。最终共获得 1748 个独立的子结构和类别定义,作为模型训练的起点。
ChemEcho 向量与模型训练
通过 MSBuddy 工具将碎片峰与中性损失分配至亚公式,并进行归一化处理后,研究人员将光谱转化为稀疏特征向量。利用这些特征向量训练的浅层决策树(最大深度 3),能够输出简洁可解释的规则。研究人员共训练了 1793 个分类器,其中部分模型在精确度和召回率方面表现优异。尽管受限于树深度,部分复杂结构难以捕捉,但许多碎片模式与结构关系能够通过简单规则被描述。

MassQL 查询生成与示例
研究人员将决策树逻辑直接转化为 MassQL 查询,使规则更直观、易共享。例如,通过训练 sulfo 基团的分类器,模型识别了典型的 HO4S 和 O3S 碎片及中性损失路径,并将其转化为 MassQL 查询。这样,研究人员能够快速从数据中检索到具有特定结构特征的光谱。

在真实数据集中的应用
研究人员选择了性能最佳的 50 个查询(正负离子模式各 25 个),并应用于 Brachypodium distachyon 的代谢组学数据集。结果显示,负离子模式中,MassQL 查询为 1188 个此前未能通过光谱库匹配注释的光谱提供了结构或子结构信息;正离子模式中也额外注释了 594 个光谱。整体注释率分别提升了 23%(正模式)与 43%(负模式),显著增强了结构信息的获取。

讨论
本研究证明,ChemEcho 提供了一种可扩展且可解释的途径,将机器学习模型的预测结果转化为 MassQL 查询,大幅提升了代谢组学中结构注释的效率与透明度。浅层决策树虽在捕捉复杂模式方面有限,但其逻辑清晰,便于转化为可执行规则,适合快速部署。未来,ChemEcho 向量还可与更复杂的模型(如随机森林、XGBoost)结合,以提升预测性能,但需在解释性与准确性之间权衡。研究人员认为,该方法不仅能扩展 MassQL 大全规模,还能推动 AI 与人类专家知识之间的融合,使代谢组学中的结构解析更加高效、可靠。
整理 | DrugOne团队
参考资料
Harwood, Thomas V., Mingxun Wang, Trent R. Northen, and Benjamin P. Bowen. "Increasing the Scale of the Mass Spectrometry Query Language Compendium with Explainable AI." Analytical Chemistry (2025).
内容为【DrugOne】公众号原创|转载请注明来源