

论文全称: Synthesizable Molecular Generation via Soft-constrained GFlowNets with Rich Chemical Priors 作者: Hyeonah Kim, Minsu Kim, Celine Roget, Dionessa Biton, Louis Vaillancourt, Yves V. Brun, Yoshua Bengio, Alex Hernandez-Garcia 机构: Mila – Quebec AI Institute · Université de Montréal · KAIST · Institut Courtois d'innovation biomédicale 预印版: 2026年2月(arXiv:2602.04119v1) 代码: https://github.com/hyeonahkimm/s3gfn
过去十年,生成式模型在分子设计领域取得了令人瞩目的进展。无论是基于图神经网络的分子图生成,还是基于 Transformer 的 SMILES 序列生成,模型都能快速输出大量具有优异预测性质(如结合亲和力、类药性)的候选分子。然而,这些候选分子在实验验证阶段往往遭遇"断崖式失败"——它们在化学上是不可合成的。
Gao & Coley(2020)对此做了系统分析:许多生成模型产出的分子缺乏已知的合成路径,化学家无法在实验室中制备,计算层面的高分因此沦为空谈。这一问题严重制约了AI辅助药物发现在真实实验流程中的落地应用。
可合成性(Synthesizability)并非一个简单的二元属性,而是一个依赖具体实验条件的上下文敏感约束:
这意味着可合成性的判定标准本身会随项目演进而变化,理想的生成模型需要具备对约束变化的快速适应能力。
目前主流的可合成分子生成方法可分为两大范式,各有其根本局限:
范式 | 代表方法 | 核心机制 | 主要局限 |
|---|---|---|---|
反应路径式生成 | RGFN, SynFlowNet, RxnFlow | 将生成过程建模为化学反应序列,每一步选择反应模板+构建模块 | 动作空间随库大小组合爆炸(10⁵个反应 × 200K构建块);被绑定于预定义模板,无法利用大规模SMILES预训练先验 |
序列式生成 + 奖励塑形 | REINVENT+RS, Guo & Schwaller (2025) | 直接用SMILES生成,将可合成性编码为奖励惩罚项 | 约束执行与奖励优化高度耦合,在GFlowNet框架下导致严重的优化冲突和性能退化 |
两条路各有代价:反应式方法的硬约束以丧失灵活性和可扩展性为代价,而软约束的奖励塑形方法在GFlowNet中会导致训练不稳定乃至崩溃。
S3-GFN 的核心洞见在于:可合成性约束应当在分布层面(distributional level)执行,而非在标量奖励层面(scalar reward level)编码。 这一设计决策从根本上将约束满足与奖励优化解耦,避免了奖励塑形方法中两者相互干扰的问题。
具体而言,S3-GFN 结合了三个核心要素:

GFlowNet(GFN)是一类用于非迭代多样候选生成的概率框架,其目标是学习一个策略 ,使得采样概率正比于奖励:。
当存在预训练先验 时,相对轨迹平衡(RTB) 将问题转化为后验推断:
对应的 RTB 损失函数为:
这一框架使得模型能够以预训练化学先验为基础,在保留化学合理性的同时向高奖励区域漂移,而无需从头训练。
S3-GFN 的优化目标是学习如下约束后验分布:
𝟙
其中 是可合成分子空间(通过启发式逆合成搜索判定,默认使用105个反应模板 + Enamine Stock构建块库,最多3步合成)。
每次迭代,模型在线采样一批轨迹,按可合成性分类:
问题: 仅用正样本训练无法显式压制负样本区域的概率质量——模型在未见负样本区域上会根据对称性进行外推,导致可合成率受限(见论文图2的Grid World实验)。
为解决上述问题,S3-GFN 在重放阶段引入 对比辅助损失(Contrastive Auxiliary Loss):
其中 是前向策略对轨迹的序列得分。
完整的重放训练损失为:
其中 为辅助损失系数。
为什么要在重放阶段施加辅助损失,而不是在线阶段?
随着训练进行,在线采样的负样本比例逐渐降低(正是训练有效的体现),导致在线批次中的负样本数量高度不稳定甚至接近于零。重放缓冲区能够提供数量均衡、稳定的正负样本对,使对比损失的优化始终有效。
与奖励塑形(RS)相比,对比辅助损失有一个重要的内在特性:
自适应停止性(Self-limiting Property): 对比损失衡量的是正负样本之间的相对对数概率差异。一旦负样本的概率被充分压低,正负分离已然实现,对比项趋近于零,梯度信号自然消失。这意味着模型不会持续减小负样本区域的概率直至数值下溢——它仅做"刚好足够的分离"。
相比之下,RS 方法对负样本施加持续的显式惩罚。在 SMILES 空间中,可合成与不可合成分子往往共享较长的前缀(相同子结构),RS 的惩罚信号会沿共有子轨迹向上传播,连带压制正样本的子结构概率,导致多样性和奖励下降。
正样本缓冲区 : 基于奖励优先级驱逐(Reward-based Eviction),新样本若奖励更高且非冗余则替换最低奖励样本,确保缓冲区始终储存高质量候选。
负样本缓冲区 : FIFO策略,持续引入新的负样本以保持多样性。
变异生成的增强负样本: 利用 Jensen (2019) 的图遗传算子对正样本做局部变异 ,生成化学上合理但不可合成的邻近分子作为"困难负样本"(Hard Negatives),增强对比学习信号的判别力。
遗传探索的增强正样本: 利用遗传搜索在 内发现更高奖励的可合成分子,通过奖励优先级采样在重放中加以利用,加速在可合成空间内的优化收敛。
论文首先在一个合成的二维网格世界中对方法进行概念验证。该设置将左上象限标记为不可行区域,用以模拟合成约束。结果清晰地表明:

任务设置: 预测结合亲和力至可溶性环氧水解酶(sEH)靶标,使用代理模型(Proxy Model)定义奖励,同时用 AiZynthFinder 独立验证合成性。
关键结果(Table 1 & Figure 3):


关键观察: SynFlowNet 以反应模板为硬约束实现了100%内部合成性,但在独立验证工具 AiZynthFinder 下成功率仅72.7%。这揭示了反应式方法的"自洽泡沫"——其合成性定义被限定在特定模板空间内,缺乏普适性。S3-GFN 在独立验证下达到99%成功率,证明其学到了更本质的合成化学规律。
任务设置: 在 LIT-PCBA 数据集的5个蛋白质靶标(ADRB2、ALDH1、ESR agonist/antagonist、FEN1)上进行口袋特异性优化,使用 GPU 加速的 Uni-Dock 计算 Vina 对接分数,奖励为 ,每靶标评估 Top-100 多样性候选。
Vina 对接分数(越低越好):
方法 | ADRB2 | ALDH1 | ESR ago | ESR antago | FEN1 |
|---|---|---|---|---|---|
SynFlowNet | -10.85 | -10.69 | -10.44 | -10.27 | -7.47 |
RGFN | -9.84 | -9.93 | -9.99 | -9.72 | -6.92 |
RxnFlow | -11.45 | -11.26 | -11.15 | -10.77 | -7.55 |
S3-GFN | -12.32 | -11.63 | -11.41 | -11.24 | -7.70 |
AiZynthFinder 成功率(越高越好):
方法 | ADRB2 | ALDH1 | ESR ago | ESR antago | FEN1 |
|---|---|---|---|---|---|
SynFlowNet | 52.75% | 57.00% | 53.75% | 56.50% | 53.00% |
RxnFlow | 60.25% | 63.25% | 71.25% | 66.50% | 65.50% |
S3-GFN | 100% | 97.0% | 96.67% | 96.33% | 99.0% |
S3-GFN 在两项指标上均全面领先,且优势幅度相当显著。特别是 AiZynthFinder 成功率的绝对领先(+30%以上),再次印证了序列式软约束方法在泛化合成性上的优越性。
实验设计: 从已训练好的模型出发,将约束从105个反应模板更新为32个精选模板(更严格),并同时加入 Lipinski 化学性质约束和 BRENK 结构警示过滤。不做额外在线采样,仅利用已有重放缓冲区中的旧样本(按新约束重新分类正负),进行100步重放训练。
方法 | 平均sEH ↑ | 正样本率 ↑ | Num. Unique ↑ |
|---|---|---|---|
零样本(直接推断) | 1.011 | 74.0% | 927 |
RTB + RS | 0.943 | 90.9% | 770 |
S3-GFN | 0.999 | 88.3% | 929 |
核心发现: RTB+RS 虽然提高了正样本率,但代价是平均奖励和唯一分子数量的显著下降。原因在于 RS 的持续惩罚信号沿共有子轨迹传播,抑制了正样本的多样性和奖励探索。S3-GFN 在保持高正样本率的同时,以更温和的对比信号实现了约束转换,保留了更高的奖励水平和分子多样性。
实验设置: PMO(Practical Molecular Optimization)基准,严格限制10K oracle调用预算,报告训练过程中发现的 Top-10 分子 AUC 曲线下面积(AUC Top-10)。
GSK3β 和 DRD2 任务结果(AUC Top-10):
方法 | GSK3β | DRD2 |
|---|---|---|
Graph GA-ReaSyn | 0.889 | 0.977 |
SynGA | 0.866 | 0.976 |
SynFlowNet | 0.691 | 0.885 |
REINVENT + RS | 0.830 | 0.964 |
RTB + RS | 0.502 | 0.783 |
S3-GFN | 0.807 | 0.963 |
S3-GFN(遗传探索) | 0.905 | 0.979 |
重要现象: 同样的奖励塑形策略,在 REINVENT(策略梯度RL)上表现尚可(AUC 0.830),但在 GFlowNet(RTB+RS)上严重退化(AUC 0.502)。这表明 GFlowNet 的训练目标对奖励信号的干扰更加敏感,而 S3-GFN 通过解耦约束与奖励完全规避了这一问题。结合遗传探索后,S3-GFN 在22个oracle任务的综合得分上(sum AUC = 14.255)超越所有基线方法。
GFlowNet 的奖励温度参数 通过 控制目标分布的锐利程度:
实践中,β 的选择需根据任务阶段平衡探索与利用:早期发现阶段倾向低 β,精细优化阶段倾向高 β。
论文附录 C.1 展示了 α 对生成行为的影响:
总体而言,S3-GFN 对 α 的选择具有较强的鲁棒性,无需针对每个任务精细调参。
附录 Table 8 对使用与不使用变异负样本的 S3-GFN 进行了对比。结果显示变异负样本在大多数任务上有小幅提升,在 Sita.MPO(+0.049)、Rano.MPO(+0.031)等任务上改善明显,综合 sum AUC 持平(14.255 vs 14.254)。变异负样本的核心价值在于:当模型已充分收敛、在线负样本极少时,仍能持续为对比损失提供有效训练信号,防止约束退化。
论文使用两套独立的合成性评估工具:
两套系统的解耦评估揭示了一个重要事实:反应式方法在内部评估上的高分实际上反映了它与训练模板的过拟合,而非普遍合成性。S3-GFN 在外部验证工具上的高得分(~99%)表明它学到了更通用的可合成化学先验。
论文诚实地列出了当前方法的主要局限:
验证层面的局限: 所有实验均基于计算模拟,包括代理模型评分、Vina 对接分数和 AiZynthFinder 成功率。真实化学合成验证(湿实验室实验)尚未完成,计算预测与实际合成成功率之间的差距仍是未知数。这也是生成式药物发现领域的共同挑战。
约束定义的局限性: 当前对可合成性的判定依赖于逆合成搜索程序,该程序本身也有误差率。对于全新骨架的分子,逆合成工具可能给出错误的负向判定(False Negative),从而不必要地压制创新性结构。
规模扩展的潜力: S3-GFN 的框架与底层先验模型解耦,随着更大规模的 SMILES 基础模型(如 ChemFM、MolGPT 的后续版本)涌现,直接替换先验即可获益。
多约束协同优化: 现实药物发现中往往需要同时满足 ADMET(吸收、分布、代谢、排泄、毒性)多维度约束,如何在 S3-GFN 框架下优雅地整合多类软约束,是重要的后续方向。
3D 结构感知: 当前方法在 1D SMILES 空间操作,未来结合 3D 分子先验(如基于等变神经网络的生成模型)并在 3D 空间施加可合成软约束,是更贴近实际对接场景的扩展。
S3-GFN 以优雅的软约束设计填补了序列式分子生成与实验可行性之间的鸿沟:它不告诉模型"如何合成",而是让模型学会"什么值得合成",在保持 SMILES 生成的灵活性与可扩展性的同时,实现了远超反应式方法的独立验证合成成功率。