
DRUGAI
本文介绍一篇来自浙江大学谢昌谕和侯廷军团队联合乐普医疗团队发表的论文。该研究提出了一个深度融合合成规划的生成式流网络模型 SynGFN,能够在可合成化学空间中高效发现多样且高性能的新分子。SynGFN通过分层策略网络在反应模板的约束下逐步组合分子砌块,将分子生成过程建模为近似满足细致平衡条件的马尔可夫决策过程。基于生成式流网络的概率流分配机制,SynGFN为每条生成轨迹分配与分子性质相关的奖励,并能够从目标分布中独立、同分布地采样,使得“最优解”以外的解也可以有非零的采样概率,显著提升了模型的化学空间探索能力。实验证明,SynGFN在大规模可合成化学空间中的探索能力相比现有方法最高提升约 70 倍,并能为生成的分子给出可直接执行的合成路线。在GluN1/GluN3A靶点的实验验证中,SynGFN所设计的候选化合物均成功合成,其中多种具有抑制活性,展现出实际药物设计中的可靠性与应用潜力。

近年来,随着人工智能和计算化学的持续进步,分子设计中的 Design-Make-Test-Analyze(DMTA)循环正经历深刻的变革。生成式模型为分子结构创新带来了前所未有的速度,使研究者能够在早期阶段快速提出结构新颖、性质优良的候选分子;与之并行发展的计算机辅助合成规划(Computer-Aided Synthesis Planning, CASP)也为自动化设计提供了新的可能性。然而,尽管设计与预测能力显著提升,DMTA的“Make”环节依旧是整个流程中最具不确定性和成本压力的部分。大量模型生成的分子往往因缺乏可行的合成路径而无法进入实验验证,导致设计成果“停留在纸面”而无法转化为可实验获得的真实化合物。可合成性难以保证、性质评估成本高昂和反馈周期漫长等因素,使得DMTA循环仍难实现真正意义上的高效闭环,这些挑战逐渐成为制约 AI 驱动分子发现向实际应用迈进的关键障碍。
为缓解这一困境,研究者尝试将逆合成预测作为生成模型的后处理模块,为候选分子提供合成路线。然而,现有CASP方法通常需要数分钟甚至更长时间才能给出一条可靠的合成路径,在复杂生成模型需要大量候选结构的场景下,这种方法难以规模化应用。同时,另一类常见的方法是使用可合成性评分(如SAScore)对生成分子进行快速评估,然而这类启发式指标仅基于已有分子中出现的子结构特征,无法严格反映化学反应可行性,更难捕捉合成条件、反应类型等细粒度因素。因此,既能与真实化学反应逻辑相一致,又能在大规模化学空间下高效探索的方法成为迫切需求。在此背景下,组合化学重新受到关注:通过在反应模板约束下迭代组合构建块,可以构建大规模且具有实际合成可能性的虚拟化学空间。这类化学空间在可合成性、多样性与结构新颖性之间实现了较好的平衡。然而,组合化学空间会随着构建块数量呈指数级增长,传统的虚拟筛选或穷举方法难以在合理时间内探索其中蕴含的高价值区域。
为应对超大化学空间带来的挑战,一系列融合反应模板与深度学习策略的生成方法开始出现。这类方法通过模拟化学反应的逐步构建过程,使生成过程更贴近真实化合成逻辑,在一定程度上提升了分子结构合理性与可合成性。SynNet、PGFS、REACTOR,以及近期的SyntheMol和SynFlowNet等方法均采用基于反应规则的组合策略,尝试在保证合成可行性的前提下扩大可探索区域。然而,这些方法普遍面临两个关键问题。其一,化学空间覆盖度仍然不足,即模型的探索范围往往集中于分布密集的结构模式,难以遍历稀疏而高价值的区域。其二,尽管反应模板保证了基本的化学合理性,但模型所能探索的路径仍有限,难以在不断扩张的可合成化学空间中保持高效搜索。此外,随着更多任务引入三维性质、对接评分或基于物理的高精度评价,高成本的性质反馈进一步限制了大规模生成模型的实际效能。
方法概述
本研究提出了面向可合成化学空间的生成式流网络模型 SynGFN。为解决生成分子难以合成、探索范围有限以及多样性不足等难题,SynGFN将分子构建过程视为一系列可执行的化学反应步骤,并通过反应模板与构建块的组合模拟真实的级联反应过程。在模型结构上,SynGFN采用生成式流网络框架,通过构建满足近似细致平衡的概率流网络,使不同生成路径获得与其性质奖励成比例的采样概率,从而能够从目标分布中独立、同分布地采样,使“最优解”以外的潜在优良结构也能以非零概率出现,有效提升化学空间覆盖度与分子多样性。考虑到“反应+反应物”联合动作空间规模巨大,SynGFN设计了分层策略网络:第一层策略从反应词汇表中选择反应模板,并引入温度系数调整softmax分布以控制采样随机性;第二层策略在给定模板下从构建块库中选择反应兼容的反应物。此外,模型在训练阶段结合反应掩码机制与定制化预训练策略,进一步提升化学空间探索效率。考虑到实际药物设计中高精度评价工具代价高昂,本研究提出了SynGFN的多精度主动学习版本SynGFN-MFA。该框架利用高斯过程作为多精度替代模型,以最大熵搜索作为采集函数,在低精度预测与高精度打分工具之间进行自适应分配,动态选择最具价值的候选分子进行标注。SynGFN-MFA能够在不牺牲设计质量的前提下显著降低计算成本,并在高维稀疏化学空间中保持稳定的优化性能。

图1. SynGFN算法概述
结果
可合成空间设计
本研究基于Enamine砌块库,通过分子量、官能团特征及反应活性等标准进行分层筛选,构建了四种规模的反应物库:S、M、L与XL,分别对应从资源受限的实验环境到接近工业级的大规模药物化学空间。为保持可控性,研究采用统一的、以药物化学为中心的高可靠性反应模板,而非简单增加反应数量。文献表明,不同反应类型对虚拟筛选命中率贡献不一,经典偶联与高选择性的多组分反应往往更具优势。基于此,研究从公共反应来源中精选反应类型,综合考虑官能团兼容性、作用位点、产率与构建块匹配度,建立了高质量的反应库,为SynGFN在可合成化学空间中的广泛探索奠定基础。
高效虚拟筛选
在超大规模组合化学空间中,传统虚拟筛选方法往往难以兼具效率与覆盖度。研究以S级反应物库构建约3亿规模的虚拟化学空间,并采用SynGFN迭代探索10万个分子、保留1万个活性较高的候选分子。对照组则从全空间随机抽取100万个分子并穷举打分。结果显示(图2),尽管计算量仅为对照的十分之一,SynGFN的化学空间覆盖度(#Circles 指标)显著更高,并识别出更多高分数分子。t-SNE可视化与得分分布进一步支持这一结论。此外,在不同活性阈值下,SynGFN的富集因子均显著高于随机筛选,体现出其在超大化学空间中快速定位“高质量区域”的能力。

图2. SynGFN作为化学空间搜索算法与传统虚拟筛选的对比
生成性能
研究在S、M、L、XL四种规模的组合化学空间上训练 SynGFN,并与 SyntheMol、SynFlowNet和 REINVENT4.0进行系统比较(图3)。在AURKA、DRD2与sEH三个靶点上,每个模型采样1万分子,以药物相似性指标、QSAR 得分与结构分布等维度评估生成质量。结果表明,SynGFN在QED、logP等药物化学属性上持续占优,且在筛选前1000个高活性分子时表现更为突出。t-SNE结果显示,其生成分子分布更为广阔,结构新颖性与覆盖范围均优于其他方法。

图3. 不同生成方法的生成分子质量评估
化学空间探索覆盖能力
为了全面评估化学空间覆盖能力,研究利用#Circles指标在不同距离阈值下对模型生成的1万样本及前1000高活性样本进行分析(表1)。SynGFN,尤其是 XL规模模型,在中高阈值(t>0.65)下持续获得最高覆盖度。在t=0.7–0.8的关键区间中,SynGFN-XL在前1000分子中可实现最高70倍于基线模型的覆盖提升;在1万样本规模下也达到2–52倍的提升。相比依赖随机扰动或惩罚项提升多样性的传统方法,SynGFN借助生成式流网络的奖励传播机制,使采样概率与活性成正比,在保证探索–开发平衡的同时,大幅提升化学空间的全局覆盖能力。

表1.不同分子生成方法的化学空间探索覆盖能力评估结果
活性验证
研究使用AutoDock Vina对各模型生成的前1000分子进行分子对接评估。结果表明,SynGFN在 DRD2和sEH等靶点中产生的高得分且多样的分子数量显著多于基线模型,提升幅度最高可达3–70倍。为消除Vina得分偏向大分子的影响,研究进一步采用LBE(Ligand Binding Efficiency)作为标准化指标。SynGFN在前10与前100分子中均保持高水平活性。与此同时,SynGFN-XL与已知活性分子的LBE分布高度重叠,RMSD 多集中在1–2 Å 范围内,说明生成分子可形成合理结合模式。具体案例分析显示,SynGFN生成的分子能稳定嵌入蛋白结合口袋(图4),形成较好相互作用,具有良好成药前景。

图4. SynGFN设计分子的蛋白结合模式示意图
湿实验验证
在前述任务表现基础上,研究将SynGFN应用于GluN1/GluN3A靶点的抑制剂设计。由于缺乏晶体结构且多亚基构象预测不确定性较高,传统基于结构的方法难以开展,研究因此采用基于配体的策略,以已知负变构调节剂EU1180-438与WZB117的三维形状作为查询结构,通过ROCS形状相似性引导SynGFN生成分子。最终筛选的10个分子全部在30天内成功合成,其中6个表现出显著抑制活性,最佳化合物IC50达到2.68 μM。更重要的是,SynGFN提供的合成路线几乎可直接在实验室实施(图5),使合成效率提升一倍。该结果表明 SynGFN能有效连接设计与合成环节,显著加速DMTA流程,为困难靶点药物研发提供了一种可行的计算–实验一体化路径。

图5. SynGFN设计的合成路线与实际合成路线保持高度一致
讨论
尽管近年来涌现了众多分子生成模型,但鲜有工作能够同时、系统地解决影响AI驱动分子设计实用性的三大核心瓶颈:合成可行性约束缺失、化学空间覆盖不足以及高成本反馈限制。本研究提出的SynGFN为这一系列问题提供了一种统一而有效的解决思路。通过在化学空间构建与分子生成过程中引入明确的化学合成约束,研究团队将传统意义上“逐步添加子结构”的分子构建过程,转化为“基于反应模板逐步添加反应物”的反应式组装过程,使模型能够在生成分子的同时实时给出可执行的合成路线。这种反应驱动的生成方式从根本上缓解了可合成性不足的问题,为后续进入实验阶段创造了条件。
参考资料
Zhu, Y., Li, S., Chen, J. et al. SynGFN: learning across chemical space with generative flow-based molecular discovery. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00902-w