首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >S3-GFN:让AI设计的分子真的能被合成出来

S3-GFN:让AI设计的分子真的能被合成出来

作者头像
DrugIntel
发布2026-05-08 19:24:20
发布2026-05-08 19:24:20
1650
举报

论文全称: Synthesizable Molecular Generation via Soft-constrained GFlowNets with Rich Chemical Priors 作者: Hyeonah Kim, Minsu Kim, Celine Roget, Dionessa Biton, Louis Vaillancourt, Yves V. Brun, Yoshua Bengio, Alex Hernandez-Garcia 机构: Mila – Quebec AI Institute · Université de Montréal · KAIST · Institut Courtois d'innovation biomédicale 预印版: 2026年2月(arXiv:2602.04119v1) 代码: https://github.com/hyeonahkimm/s3gfn


一、背景与问题动机

1.1 分子生成的困境

过去十年,生成式模型在分子设计领域取得了令人瞩目的进展。无论是基于图神经网络的分子图生成,还是基于 Transformer 的 SMILES 序列生成,模型都能快速输出大量具有优异预测性质(如结合亲和力、类药性)的候选分子。然而,这些候选分子在实验验证阶段往往遭遇"断崖式失败"——它们在化学上是不可合成的

Gao & Coley(2020)对此做了系统分析:许多生成模型产出的分子缺乏已知的合成路径,化学家无法在实验室中制备,计算层面的高分因此沦为空谈。这一问题严重制约了AI辅助药物发现在真实实验流程中的落地应用。

1.2 什么是 可合成性 ?

可合成性(Synthesizability)并非一个简单的二元属性,而是一个依赖具体实验条件的上下文敏感约束

  • 反应模板(Reaction Templates): 实验室可以执行哪些类型的化学反应?
  • 构建模块库(Building Block Library): 哪些起始原料是商业可购的?
  • 合成步骤数(Synthesis Steps): 几步反应以内是可接受的?
  • 结构过滤规则: 分子是否满足 Lipinski 五规则、BRENK 结构警示等?

这意味着可合成性的判定标准本身会随项目演进而变化,理想的生成模型需要具备对约束变化的快速适应能力。

1.3 现有方法的核心矛盾

目前主流的可合成分子生成方法可分为两大范式,各有其根本局限:

范式

代表方法

核心机制

主要局限

反应路径式生成

RGFN, SynFlowNet, RxnFlow

将生成过程建模为化学反应序列,每一步选择反应模板+构建模块

动作空间随库大小组合爆炸(10⁵个反应 × 200K构建块);被绑定于预定义模板,无法利用大规模SMILES预训练先验

序列式生成 + 奖励塑形

REINVENT+RS, Guo & Schwaller (2025)

直接用SMILES生成,将可合成性编码为奖励惩罚项

约束执行与奖励优化高度耦合,在GFlowNet框架下导致严重的优化冲突和性能退化

两条路各有代价:反应式方法的硬约束以丧失灵活性和可扩展性为代价,而软约束的奖励塑形方法在GFlowNet中会导致训练不稳定乃至崩溃。


二、方法详解:S3-GFN 的设计哲学

2.1 核心思想

S3-GFN 的核心洞见在于:可合成性约束应当在分布层面(distributional level)执行,而非在标量奖励层面(scalar reward level)编码。 这一设计决策从根本上将约束满足与奖励优化解耦,避免了奖励塑形方法中两者相互干扰的问题。

具体而言,S3-GFN 结合了三个核心要素:

  1. 1. 富化学先验(Rich Chemical Prior): 利用在大规模SMILES数据集上预训练的语言模型作为起点
  2. 2. GFlowNet后训练(GFlowNet Post-training): 通过相对轨迹平衡(RTB)目标在可合成空间内做后验推断
  3. 3. 对比式重放训练(Contrastive Replay Training): 通过维护正/负样本缓冲区,用对比学习损失在分布层面显式抑制不可合成区域

2.2 理论基础:GFlowNet 与相对轨迹平衡

GFlowNet(GFN)是一类用于非迭代多样候选生成的概率框架,其目标是学习一个策略 ,使得采样概率正比于奖励:。

当存在预训练先验 时,相对轨迹平衡(RTB) 将问题转化为后验推断:

对应的 RTB 损失函数为:

这一框架使得模型能够以预训练化学先验为基础,在保留化学合理性的同时向高奖励区域漂移,而无需从头训练。

2.3 目标分布的精确表述

S3-GFN 的优化目标是学习如下约束后验分布:

𝟙

其中 是可合成分子空间(通过启发式逆合成搜索判定,默认使用105个反应模板 + Enamine Stock构建块库,最多3步合成)。

2.4 两阶段训练流程

阶段一:仅以正样本做在线 RTB 更新

每次迭代,模型在线采样一批轨迹,按可合成性分类:

  • 正样本:计算 ,加入正样本缓冲区 ,并对此轮正样本做 RTB 更新
  • 负样本:直接加入负样本缓冲区 ,不参与本阶段损失计算

问题: 仅用正样本训练无法显式压制负样本区域的概率质量——模型在未见负样本区域上会根据对称性进行外推,导致可合成率受限(见论文图2的Grid World实验)。

阶段二:引入对比辅助损失的重放训练

为解决上述问题,S3-GFN 在重放阶段引入 对比辅助损失(Contrastive Auxiliary Loss)

其中 是前向策略对轨迹的序列得分。

完整的重放训练损失为:

其中 为辅助损失系数。

为什么要在重放阶段施加辅助损失,而不是在线阶段?

随着训练进行,在线采样的负样本比例逐渐降低(正是训练有效的体现),导致在线批次中的负样本数量高度不稳定甚至接近于零。重放缓冲区能够提供数量均衡、稳定的正负样本对,使对比损失的优化始终有效。

2.5 对比损失的关键设计优势

与奖励塑形(RS)相比,对比辅助损失有一个重要的内在特性:

自适应停止性(Self-limiting Property): 对比损失衡量的是正负样本之间的相对对数概率差异。一旦负样本的概率被充分压低,正负分离已然实现,对比项趋近于零,梯度信号自然消失。这意味着模型不会持续减小负样本区域的概率直至数值下溢——它仅做"刚好足够的分离"。

相比之下,RS 方法对负样本施加持续的显式惩罚。在 SMILES 空间中,可合成与不可合成分子往往共享较长的前缀(相同子结构),RS 的惩罚信号会沿共有子轨迹向上传播,连带压制正样本的子结构概率,导致多样性和奖励下降。

2.6 缓冲区管理与离线数据扩展

正样本缓冲区 : 基于奖励优先级驱逐(Reward-based Eviction),新样本若奖励更高且非冗余则替换最低奖励样本,确保缓冲区始终储存高质量候选。

负样本缓冲区 : FIFO策略,持续引入新的负样本以保持多样性。

变异生成的增强负样本: 利用 Jensen (2019) 的图遗传算子对正样本做局部变异 ,生成化学上合理但不可合成的邻近分子作为"困难负样本"(Hard Negatives),增强对比学习信号的判别力。

遗传探索的增强正样本: 利用遗传搜索在 内发现更高奖励的可合成分子,通过奖励优先级采样在重放中加以利用,加速在可合成空间内的优化收敛。


三、实验设计与结果分析

3.1 概念验证:二维Grid World

论文首先在一个合成的二维网格世界中对方法进行概念验证。该设置将左上象限标记为不可行区域,用以模拟合成约束。结果清晰地表明:

  • 仅用正样本训练(无辅助损失): 模型对不可行区域进行对称外推,无法有效抑制负样本区域
  • 加入对比辅助损失: 负样本区域的概率质量被显式压制至接近零,而正样本区域的奖励分布得到保留

3.2 sEH 基准任务

任务设置: 预测结合亲和力至可溶性环氧水解酶(sEH)靶标,使用代理模型(Proxy Model)定义奖励,同时用 AiZynthFinder 独立验证合成性。

关键结果(Table 1 & Figure 3):

关键观察: SynFlowNet 以反应模板为硬约束实现了100%内部合成性,但在独立验证工具 AiZynthFinder 下成功率仅72.7%。这揭示了反应式方法的"自洽泡沫"——其合成性定义被限定在特定模板空间内,缺乏普适性。S3-GFN 在独立验证下达到99%成功率,证明其学到了更本质的合成化学规律。

3.3 结构化药物发现(LIT-PCBA 五靶点)

任务设置: 在 LIT-PCBA 数据集的5个蛋白质靶标(ADRB2、ALDH1、ESR agonist/antagonist、FEN1)上进行口袋特异性优化,使用 GPU 加速的 Uni-Dock 计算 Vina 对接分数,奖励为 ,每靶标评估 Top-100 多样性候选。

Vina 对接分数(越低越好):

方法

ADRB2

ALDH1

ESR ago

ESR antago

FEN1

SynFlowNet

-10.85

-10.69

-10.44

-10.27

-7.47

RGFN

-9.84

-9.93

-9.99

-9.72

-6.92

RxnFlow

-11.45

-11.26

-11.15

-10.77

-7.55

S3-GFN

-12.32

-11.63

-11.41

-11.24

-7.70

AiZynthFinder 成功率(越高越好):

方法

ADRB2

ALDH1

ESR ago

ESR antago

FEN1

SynFlowNet

52.75%

57.00%

53.75%

56.50%

53.00%

RxnFlow

60.25%

63.25%

71.25%

66.50%

65.50%

S3-GFN

100%

97.0%

96.67%

96.33%

99.0%

S3-GFN 在两项指标上均全面领先,且优势幅度相当显著。特别是 AiZynthFinder 成功率的绝对领先(+30%以上),再次印证了序列式软约束方法在泛化合成性上的优越性。

3.4 分析实验 I:约束变化下的快速适应

实验设计: 从已训练好的模型出发,将约束从105个反应模板更新为32个精选模板(更严格),并同时加入 Lipinski 化学性质约束和 BRENK 结构警示过滤。不做额外在线采样,仅利用已有重放缓冲区中的旧样本(按新约束重新分类正负),进行100步重放训练。

方法

平均sEH ↑

正样本率 ↑

Num. Unique ↑

零样本(直接推断)

1.011

74.0%

927

RTB + RS

0.943

90.9%

770

S3-GFN

0.999

88.3%

929

核心发现: RTB+RS 虽然提高了正样本率,但代价是平均奖励和唯一分子数量的显著下降。原因在于 RS 的持续惩罚信号沿共有子轨迹传播,抑制了正样本的多样性和奖励探索。S3-GFN 在保持高正样本率的同时,以更温和的对比信号实现了约束转换,保留了更高的奖励水平和分子多样性。

3.5 分析实验 II:样本受限场景下的鲁棒性(PMO基准)

实验设置: PMO(Practical Molecular Optimization)基准,严格限制10K oracle调用预算,报告训练过程中发现的 Top-10 分子 AUC 曲线下面积(AUC Top-10)。

GSK3β 和 DRD2 任务结果(AUC Top-10):

方法

GSK3β

DRD2

Graph GA-ReaSyn

0.889

0.977

SynGA

0.866

0.976

SynFlowNet

0.691

0.885

REINVENT + RS

0.830

0.964

RTB + RS

0.502

0.783

S3-GFN

0.807

0.963

S3-GFN(遗传探索)

0.905

0.979

重要现象: 同样的奖励塑形策略,在 REINVENT(策略梯度RL)上表现尚可(AUC 0.830),但在 GFlowNet(RTB+RS)上严重退化(AUC 0.502)。这表明 GFlowNet 的训练目标对奖励信号的干扰更加敏感,而 S3-GFN 通过解耦约束与奖励完全规避了这一问题。结合遗传探索后,S3-GFN 在22个oracle任务的综合得分上(sum AUC = 14.255)超越所有基线方法。


四、深层机制分析与工程实践要点

4.1 奖励温度参数 β 的权衡

GFlowNet 的奖励温度参数 通过 控制目标分布的锐利程度:

  • β = 25(主实验默认): 更高奖励集中度,可合成率 94.5%,Top-100 sEH = 1.043
  • β = 15: 更高多样性,可合成率 92.8%,Top-100 sEH = 1.021,SA 分数更优(2.427 vs 2.364)

实践中,β 的选择需根据任务阶段平衡探索与利用:早期发现阶段倾向低 β,精细优化阶段倾向高 β。

4.2 辅助损失系数 α 的敏感性

论文附录 C.1 展示了 α 对生成行为的影响:

  • α 过大(如0.1): 对负样本施加过度惩罚,策略趋于保守,多样性下降
  • α 适中(0.01 或 0.001): 在约束满足与奖励探索之间取得平衡
  • α = 10⁻³(论文默认): 在主实验和PMO基准均表现稳定

总体而言,S3-GFN 对 α 的选择具有较强的鲁棒性,无需针对每个任务精细调参。

4.3 变异负样本的贡献

附录 Table 8 对使用与不使用变异负样本的 S3-GFN 进行了对比。结果显示变异负样本在大多数任务上有小幅提升,在 Sita.MPO(+0.049)、Rano.MPO(+0.031)等任务上改善明显,综合 sum AUC 持平(14.255 vs 14.254)。变异负样本的核心价值在于:当模型已充分收敛、在线负样本极少时,仍能持续为对比损失提供有效训练信号,防止约束退化。

4.4 可合成性的判定方法

论文使用两套独立的合成性评估工具:

  1. 1. 训练时约束判定(内部): 基于 SynFlowNet 的逆合成搜索流程,使用105个反应模板 + Enamine Stock库,最多3步合成
  2. 2. 评估时独立验证(外部): AiZynthFinder,基于 USPTO 专利反应数据库的逆合成规划工具

两套系统的解耦评估揭示了一个重要事实:反应式方法在内部评估上的高分实际上反映了它与训练模板的过拟合,而非普遍合成性。S3-GFN 在外部验证工具上的高得分(~99%)表明它学到了更通用的可合成化学先验。


五、局限性与未来方向

5.1 作者明确指出的局限

论文诚实地列出了当前方法的主要局限:

验证层面的局限: 所有实验均基于计算模拟,包括代理模型评分、Vina 对接分数和 AiZynthFinder 成功率。真实化学合成验证(湿实验室实验)尚未完成,计算预测与实际合成成功率之间的差距仍是未知数。这也是生成式药物发现领域的共同挑战。

5.2 延伸思考:方法的边界与潜力

约束定义的局限性: 当前对可合成性的判定依赖于逆合成搜索程序,该程序本身也有误差率。对于全新骨架的分子,逆合成工具可能给出错误的负向判定(False Negative),从而不必要地压制创新性结构。

规模扩展的潜力: S3-GFN 的框架与底层先验模型解耦,随着更大规模的 SMILES 基础模型(如 ChemFM、MolGPT 的后续版本)涌现,直接替换先验即可获益。

多约束协同优化: 现实药物发现中往往需要同时满足 ADMET(吸收、分布、代谢、排泄、毒性)多维度约束,如何在 S3-GFN 框架下优雅地整合多类软约束,是重要的后续方向。

3D 结构感知: 当前方法在 1D SMILES 空间操作,未来结合 3D 分子先验(如基于等变神经网络的生成模型)并在 3D 空间施加可合成软约束,是更贴近实际对接场景的扩展。

S3-GFN 以优雅的软约束设计填补了序列式分子生成与实验可行性之间的鸿沟:它不告诉模型"如何合成",而是让模型学会"什么值得合成",在保持 SMILES 生成的灵活性与可扩展性的同时,实现了远超反应式方法的独立验证合成成功率。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景与问题动机
    • 1.1 分子生成的困境
    • 1.2 什么是 可合成性 ?
    • 1.3 现有方法的核心矛盾
  • 二、方法详解:S3-GFN 的设计哲学
    • 2.1 核心思想
    • 2.2 理论基础:GFlowNet 与相对轨迹平衡
    • 2.3 目标分布的精确表述
    • 2.4 两阶段训练流程
      • 阶段一:仅以正样本做在线 RTB 更新
      • 阶段二:引入对比辅助损失的重放训练
    • 2.5 对比损失的关键设计优势
    • 2.6 缓冲区管理与离线数据扩展
  • 三、实验设计与结果分析
    • 3.1 概念验证:二维Grid World
    • 3.2 sEH 基准任务
    • 3.3 结构化药物发现(LIT-PCBA 五靶点)
    • 3.4 分析实验 I:约束变化下的快速适应
    • 3.5 分析实验 II:样本受限场景下的鲁棒性(PMO基准)
  • 四、深层机制分析与工程实践要点
    • 4.1 奖励温度参数 β 的权衡
    • 4.2 辅助损失系数 α 的敏感性
    • 4.3 变异负样本的贡献
    • 4.4 可合成性的判定方法
  • 五、局限性与未来方向
    • 5.1 作者明确指出的局限
    • 5.2 延伸思考:方法的边界与潜力
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档