DRUGAI
科学界积累的大规模数据已超出现有处理方法的能力,凸显出亟需高效算法来深入挖掘实验数据。为应对这一挑战,研究人员开发了一种专为太量级高分辨质谱(HRMS)数据设计的机器学习搜索引擎。该引擎结合同位素分布算法与两个协同的机器学习模型,助力发现未知化学反应。这一方法不仅高效支持化学假设验证,减少实验需求,还拓展了自动化反应假设生成的可能性。在实际验证中,研究人员成功识别出多种反应,包括Mizoroki-Heck反应中的杂环-乙烯基偶联,展示了该引擎解析复杂化学过程的潜力。
实验在验证假设和推动化学发现中起着关键作用。然而,实验过程往往受限于方法效率、试剂成本、废物处理、操作延迟以及数据处理的复杂性,导致耗时较长。为此,研究人员主要采用两种策略来降低实验所需的时间和人力资源:一是自动化数据采集,例如自动合成、基于质谱的蛋白质组学或高通量显微成像;二是自动化数据解析,如化学空间探索、核磁共振或质谱数据分析。
此外,研究人员也提出第三种策略,即利用已有实验数据进行假设验证,从而减少新的实验需求。尽管该策略面临数据可获取性与管理(如遵循FAIR原则)等挑战,但通过建立开放数据库和共享分析平台等方式,这些问题正在逐步解决。然而,目前仍缺乏专门的软件来实现高效的化学数据搜索与提取。
在有机合成中,研究人员通常通过设定特定反应条件、准备样品,并使用分析方法(如高分辨质谱 HRMS)进行产物检测。HRMS 凭借分析速度快、灵敏度高和数据积累便利等优势,被广泛应用于多个化学领域。日常实验中,HRMS实验室会持续产生大量质谱数据,短时间内便可积累上万个文件,总量高达数TB。然而,人工分析通常只关注目标产物及少数副产物,忽略大量潜在的信号,导致已有数据资源被严重低估。
因此,研究人员提出开发能在TB级数据库中高效筛查分子模式的方法,有助于在无需新实验的前提下,实现绿色、低成本的化学发现。
本研究展示了一种面向质谱数据的搜索引擎思路,通过自动化离子检测算法,开发出名为 MEDUSA Search 的工具。该工具能够在高复杂度的HRMS数据库中高效搜索目标离子,并识别已知与未知的化学产物、转化路径或杂质。该方法不仅避免化学品消耗与实验废弃物,还能辅助用户利用如NMR、MS/MS等手段进行后续验证。
目前复杂质谱数据的搜索主要应用于代谢组学和蛋白质组学,常依赖于将实验MS/MS谱与理论谱进行匹配,但存在化学空间覆盖有限等问题。此外,尽管部分软件已实现同位素分布识别,但其准确性仍受限,易导致误报。
为了克服监督学习中标注数据稀缺的问题,研究人员采用了合成质谱数据进行模型训练。过去相关研究已验证合成数据在原子模式识别、去同位素处理和反向结构预测中的可行性,同时,质谱增强技术也在持续发展中。
综上,研究人员提出了一种基于合成数据训练的搜索算法,应用于超过8TB、含22000个HRMS光谱的数据库中,实现大规模离子搜索。MEDUSA Search 不仅适用于多种离子形式,还可广泛应用于催化反应、偶联反应等多个领域。作为示例,该工具成功发现了Mizoroki–Heck反应中一个此前未被关注的杂环-乙烯基偶联过程,充分体现出其在揭示被忽略化学现象方面的优势。
这种“重用过去实验”的策略,为交叉偶联与加氢反应中催化转化路径的发现提供了新途径,也证明了有机化学领域在数据复用上的巨大潜力。
结果与讨论
搜索引擎概览
为了实现反应发现流程,研究人员首先开发了一个搜索引擎,即本文提出方法的核心。MEDUSA Search 引擎采用了一个由五个步骤组成的机器学习驱动的搜索流程(见图2)。其多层架构借鉴了网页搜索引擎的设计,确保了搜索速度的实用性。
值得一提的是,该搜索系统无需大量标注质谱数据即可训练。所有模型均通过合成质谱数据进行训练,合成数据基于分子式构建同位素分布图,并通过模拟仪器误差进行数据增强。
在正式搜索之前,需基于反应系统的先验知识生成一系列假设反应路径(图2,步骤A)。此处,我们基于可断裂的化学键及其重组片段构建查询离子。用户可提供潜在的反应片段,系统会自动组合生成查询离子;同时也支持基于BRICS片段化或多模态大模型生成假设(示例见补充材料 S5)。假设生成方法仍是一个开放研究问题,未来的新方法可轻松集成至本系统。
当输入离子的分子式和电荷信息后,系统可计算其理论同位素分布图。接着,在构建的倒排索引中搜索该离子最强的两个同位素峰,允许精度为0.001 m/z(图2,步骤B)。包含这些峰值的质谱数据被定义为候选谱图,后续步骤将在这些候选中进行更精细的搜索。
在候选谱图中,系统执行查询离子的同位素分布匹配,包括三个步骤:
其中,匹配算法以余弦距离衡量理论分布与候选谱图中观测分布的相似度。是否存在该离子取决于预先估算的余弦距离阈值,该阈值由离子分子式决定。该阈值由一个机器学习回归模型估算。
在分布匹配步骤(图2,步骤C2)中,算法将理论峰与实验谱图中的峰逐一匹配,并计算余弦距离。如果某一峰缺失,则以噪音中位数作为替代。最终余弦距离若小于离子存在阈值,则认为该离子在谱图中被发现。
为避免误判(例如将目标分布错误识别为其他离子的子集),系统引入了额外的ML分类器,利用邻近峰的信息判断是否为假阳性。
反应发现策略
在提出多种可能新反应的假设路径之后,为尽可能覆盖广阔的化学空间,本研究通过组合法则生成候选产物的分子式(即结构唯一、取代基不同的分子式),并将其与现有的质谱数据进行自动化比对,以实现反应发现与数据驱动的离子搜索之间的结合。来自以往实验的 FAIR 描述数据同样在实际验证搜索结果中起到了重要作用。
在无任何先验成分信息的前提下,研究人员在超过20,000个质谱数据中进行新反应产物的搜索(图3b)。该搜索过程不限制文件名、实验记录者或其他可能缩小搜索空间的信息。为可视化大规模数据集的复杂性,采用 t-SNE 降维技术绘制了两个图谱:图3a 显示这些质谱所覆盖的化学空间具有良好的多样性,而图3b 中每个点代表一个质谱图,相似的图谱在空间中彼此靠近。由图中可见,不同研究人员记录的谱图存在显著差异;同时也能识别出由多人参与的同一项目记录的相似谱图。其中,操作员C负责样品接收服务,记录了最多样化的数据。
在有机反应研究中,中间体的发现对于机制解析和新反应路径设计至关重要,电喷雾电离质谱(ESI-MS)是常用的检测工具之一[65–70]。为验证所开发搜索引擎的实际适用性,研究人员以 Pd/NHC(NHC = N-杂环卡宾)催化反应为例,结合离子公式生成方法,探索了潜在的新反应路径(图3c)。对于13种结构核心中的每一个官能团或NHC配体(图3d),均计算出对应的分子式,最终共生成520个离子公式,其中400个具有唯一质量。由于高分辨质谱(HRMS)在不进行碎片化的前提下,仅能提供分子式信息,因此不能区分结构异构体。
生成假设集合后,研究人员将其应用于先前采集的数据和实验记录中进行验证。整个搜索流程(图2)对这520个生成离子逐一运行,遍历 TB 级质谱数据库,总计算时间为3–4天(平均每个离子8–11分钟)。结果发现多个具有代表性的同位素分布模式,但多数搜索结果无法验证,原因是缺乏 FAIR 数据来识别反应混合物的初始组成。不过,部分样本通过实验室记录得以验证,汇总结果如下:
图3e 总结了整个搜索中检测到的离子数量,这些离子均具有唯一的质量。结果显示,最常见的转化类型为 phenyl–NHC 偶联,而 vinyl–NHC 偶联则较为罕见。所得结果与反应路径的量子化学计算研究相一致。
需要指出的是,大多数离子的反应来源无法明确确认,缺乏进一步结构确认实验。因此,后续仍需开展更深入的实验验证工作(图5)。
除 Pd/NHC 催化反应外,为展示搜索引擎的多样化应用能力,研究人员还利用其识别了镍催化烯硫化反应中的副产物。
实验验证
图3d中催化剂转化产物的形成与相关反应机理密切相关。研究人员此前已进行多种Pd/NHC催化的Mizoroki–Heck和偶联反应(如Sonogashira、Suzuki、Buchwald-Hartwig等),使用不同的NHC配体和卤素取代基。在通过ESI-MS分析反应混合物时,发现了[NHC-H]+、[NHC-Ph]+、[NHC-O]+ 和 [NHC-N]+等偶联产物。基于这些结果,研究人员揭示了R-NHC偶联和M-NHC键断裂在催化条件下M/NHC复合物转化过程中的关键作用。此类研究首次描述了M/NHC催化剂活性种的演化过程及无NHC共催化体系的形成,包括H-NHC盐和O-NHC偶联产物的形成。
在Sonogashira反应中,研究人员分离得到了此前未知的乙炔-NHC偶联产物,并探讨了可能的反应路径。该产物较为活泼,可能参与其他转化反应。在分析氢化衍生物的过程中,ESI-MS谱图中还观察到了[NHC-(CH2)2-Ph]+产物,推测可能通过氢转移反应生成。
类比乙炔-NHC和芳基-NHC偶联产物的发现,研究人员预测在Mizoroki–Heck反应中可能形成插入步骤前后的两种乙烯基-NHC偶联产物。实验表明,这两类产物均可在反应混合物中检测到。为了验证此转化过程,研究人员回溯实验记录,在p-甲氧基碘苯与丁基丙烯酸酯反应中(催化剂为[BIMePh]+[BIMePdI3]-),通过超高分辨质谱确认了[BIMe(CH)2COOBu]+的分子式。在另一实验中,为区分均相与非均相催化机制,研究人员采用[IPrCHC(Ph)COOBu]+的生成实验(未添加汞),也通过超高分辨质谱与MS/MS验证其结构。
进一步实验表明,使用不同NHC配体的Pd复合物也均可观察到乙烯基-NHC偶联产物,表明该反应具有普适性。研究人员测试了五种不同的Pd/NHC配合物,在所有情况下均检测到乙烯基-NHC和乙基-NHC产物,且质量误差小于1 ppm。为防止在测定过程中发生转化,研究人员调整了MS设置。通过ESI-MS监测也进一步确认了该偶联产物的存在。
此外,在转移氢化反应中,也观察到了另一类型的乙炔-NHC偶联产物的形成,揭示了该催化体系的动态特性,为开发Pd催化的咪唑环官能化反应提供了新线索。
为进一步验证这些新发现反应的可行性,研究人员还进行了DFT理论计算,证实了乙烯基-NHC偶联路径的合理性。
本研究开发了一种基于机器学习的高效反应发现计算系统。该方法从化合物假设生成入手,利用同位素分布算法与两个机器学习模型组合,显著降低了误报率,从而提升了海量数据库中的搜索效率。模型具备良好的可解释性,搜索步骤经过合成和实验验证,突出体现了以同位素分布为核心的优势策略。
此系统适用于所有具备足够分辨率检测同位素分布的质谱仪,结合其他计算方法(如离子碎片预测、加合物分析)后可成为强大的分析工具,加速多学科研究进展。
尽管FAIR数据描述是该方法的关键前提,研究人员仍可通过多次查询降低误报率,例如同时搜索产物和起始原料,以缩小验证范围。此外,本研究强调了数据规范采集与描述在反应发现中的重要性。
该系统已成功识别出Pd/NHC催化反应中的新型副产物,实现了“回顾性实验发现”理念的实践,主要体现在以下两方面的新颖性:
所有发现均通过不同配体体系下的实验复现、超高分辨质谱验证(误差小于1 ppm)以及MS/MS结构确证,结合理论计算,进一步增强了反应可行性的信心。
研究人员将继续探索质谱数据自动解析,期待其在未来成为化学发现的重要途径。
整理 | WJM
参考资料
Kozlov, K.S., Boiko, D.A., Burykina, J.V. et al. Discovering organic reactions with a machine-learning-powered deciphering of tera-scale mass spectrometry data. Nat Commun 16, 2587 (2025).
https://doi.org/10.1038/s41467-025-56905-8
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有