DRUGONE
质量守恒是化学反应预测中至关重要的物理约束,但现有许多数据驱动模型往往忽略这一基本原则。研究人员在本文中将反应预测重新表述为电子再分配问题,并采用生成式流匹配框架进行建模。提出的模型 FlowER 通过键-电子矩阵(BE matrix)表示,显式保持质量与电子守恒。该方法克服了以往模型的局限,避免了“幻觉式”错误,能够恢复未见过底物骨架的机理反应序列,并能以极高的数据效率推广至不同反应类型。FlowER 还可以用于热力学或动力学可行性的下游估计,并在反应预测中表现出一定的化学直觉。这一可解释的框架为弥合预测精度与机理理解之间的差距提供了重要进展。

质量守恒由拉瓦锡提出,是化学中的基本原则,确保反应前后原子总数不变,为化学计量与反应方程式配平提供基础。然而,许多基于机器学习的反应预测模型并未显式遵循这一原则。
传统的反应预测方法通常基于分子图编辑或 SMILES 序列翻译。这些方法大多只预测主要产物,缺乏机理层面的解释能力。研究人员曾尝试使用教科书反应训练模型以识别电子给体和受体配对,但深度学习模型仍容易出现虚构原子或电子的现象,违反物理规律,削弱了模型的可靠性。

生成式建模为解决这一问题提供了新思路。特别是扩散模型与流匹配框架,可以从简单分布逐步生成复杂分布,并已在蛋白设计、小分子生成、逆合成等任务中表现突出。研究人员在此基础上提出 FlowER,将反应预测定义为电子再分配的生成过程,使之与箭头推动式机理图解保持一致,并显式保证质量与电子守恒。
结果
FlowER 模型的构建与原理
FlowER 将化学反应建模为电子在原子间的再分配过程,使用 BE 矩阵表示共价键与孤对电子。每一步反应对应 BE 矩阵的变化,数据集中仅包含化学上明确定义的离散步骤。通过在反应物与产物之间采样插值轨迹,FlowER 学习条件流场,递归生成完整机理,确保每个中间态都满足质量和电子守恒。
质量与电子守恒
FlowER 的 ΔBE 矩阵保证了电子总数守恒,直接对应化学家常用的箭头推动图示。在预测中,FlowER 几乎完全保持原子、质子与电子守恒,而传统序列模型(如 Graph2SMILES、Molecular Transformer)即使在百万级平衡数据集上训练,也频繁违反守恒律,生成无意义或错误的结构。这使得 FlowER 的预测更可靠,且能够无缝对接量子化学计算。

准确性与数据效率
尽管引入了守恒约束,FlowER 在预测准确性上与主流模型相当甚至更优。较小规模的 FlowER 模型(700 万参数)已能接近或超越更大模型的表现,扩大至 1600 万参数时更在路径预测准确率上全面领先。值得注意的是,在仅使用 500 个反应步骤训练时,FlowER 仍能保持较高准确性,而序列模型几乎完全失效,显示其出色的数据效率。
对反应条件的敏感性
FlowER 能够区分不同条件下的反应路径。例如,在羧酸与胺缩合的案例中,它能给出不同试剂条件下的多步机理,并预测主要产物和副产物。这体现了模型对反应条件的适应性。
再现教科书反应趋势
FlowER 在预测中自然反映了酸碱性与亲核性等基本化学规律。例如,在 β-酮酯 α-位烷基化反应中,它能够依据不同碱的 pKa 值与亲核性选择不同路径(SN2 或 α-烷基化),结果与化学直觉一致。这说明模型不仅学习了统计规律,还内化了基础化学原理。

未见反应的预测与验证
研究人员测试了 FlowER 在 2024 年专利数据集中无明确分类的反应。FlowER 成功恢复了部分新型或复合机理路径,并在一个实例中通过量子化学计算验证了产物比例,与实验观测高度一致。这展示了其在未知化学空间中的泛化潜力。
少样本微调
在 12 种训练集中未出现的反应类型上,FlowER 仅用 32 个新样本进行微调,就能在多数情况下达到 65% 以上的路径预测准确率,且不会遗忘原有知识。除了“酰胺交换”反应外,其余类型均显著提升。这凸显了模型在新化学领域的可扩展性与数据高效性。

讨论
研究人员提出的 FlowER 将反应预测重新定义为电子再分配问题,严格遵守质量与电子守恒,从而兼顾了预测精度与机理可解释性。实验证明,FlowER 不仅能在标准数据集上表现优异,还能在小样本、跨反应类型和条件变化下保持鲁棒性。
这一框架具备以下优势:
随着机理数据集和模板的不断扩充,FlowER 的适用范围将进一步扩大。研究人员相信,这一结合生成建模与化学基本规律的框架,将为合成规划、反应设计与机理探索开辟新的方向。
整理 | DrugOne团队
参考资料
Joung, J.F., Fong, M.H., Casetti, N. et al. Electron flow matching for generative reaction mechanism prediction. Nature (2025).
https://doi.org/10.1038/s41586-025-09426-9
内容为【DrugOne】公众号原创|转载请注明来源