
期刊: arxiv 链接: https://arxiv.org/abs/2504.08051 代码: https://github.com/tonyshen1997(代码应该还没公开) 简介: 该论文提出了一种新的组合生成流(CGFlow)框架,其创新点在于将流匹配扩展到组合步骤生成对象并建模连续状态,同时结合生成流网络(GFlowNets)实现奖励引导的组合结构采样。该方法通过组合流和状态流两个交错过程,分别处理组合结构的概率路径和连续状态变量的传输,并将其应用于 3D 分子与合成路径协同设计,开发出 3DSynthFlow。实验在 LIT-PCBA 基准的 15 个靶标上进行,3DSynthFlow 在结合亲和力和可合成性方面均达到最先进水平,采样效率较 2D 基线提高 4.2 倍;在 CrossDocked2020 基准上,首次在 Vina Dock(-9.42)和 AiZynth 成功率(36.1%)上同时取得最先进性能。该论文为 3D 分子与合成路径的协同设计提供了有效的框架和方法。

在当代药物研发与计算化学领域,如何精准构建兼具高活性与可合成性的分子结构,始终是学界与产业界共同面临的核心挑战。近期一篇聚焦组合生成流(Compositional Generative Flows, CGFlow)框架的研究文献,为解决这一难题提供了开创性思路。该研究不仅在理论层面突破了传统生成模型的固有局限,更通过实际应用验证了其在药物发现中的巨大潜力,值得领域内研究者深入研读。
在基于靶标的药物设计中,研究人员需要同时实现两个关键目标:一是生成能与蛋白质靶点高效结合的3D分子构象,二是确保生成的分子具备可行的合成路径。这一过程本质上是对“组合结构(合成步骤)”与“连续状态(3D构象)”的协同优化,但现有技术体系始终存在难以调和的矛盾。
扩散模型与流匹配模型虽在高维连续数据建模中表现优异,却采用“全维度同时建模”策略,无法模拟分子合成的分步组合特性,导致生成的分子常因违反化学规则而失去实际价值。自回归模型虽能按顺序构建分子结构,但“早期误差累积”问题严重——初始步骤的微小偏差会在后续步骤中被不断放大,最终生成无效分子。生成流网络(GFlowNets)虽在2D分子的合成路径设计中取得成功,却无法扩展至3D构象建模,难以满足药物与靶点结合的空间需求。这些技术瓶颈直接制约了药物研发的效率与成功率。

3D 分子(包含合成路径和 3D 构象)的生成过程。3DSynthFlow 的生成过程交错进行两个步骤:1)用于建模位置的连续过程;2)在离散时间间隔(t=0、0.25、0.5、0.75、1)对合成步骤进行顺序采样。合成路径和位置的建模均依赖于对象,确保两个过程之间的相互作用。
CGFlow框架的提出,基于对组合对象生成本质的深刻洞察:组合结构的状态转换可通过流匹配插值过程的扩展来精准建模。该框架创新性地融合了流匹配与GFlowNets的优势,构建了“双流协同”的生成机制。

每个组件的局部时间随时间的变化。
组合流负责建模组合结构从完整分子到空结构的逆向拆解过程,通过概率路径描述分子如何被逐步分解为基本化学单元;状态流则专注于连续状态变量的噪声化处理,将3D坐标等连续特征从数据分布平滑过渡至噪声分布。二者的关键协同点在于:状态流会为组合流中较早移除的组件分配更高噪声水平,确保在逆向拆解与正向生成过程中,组合结构与连续状态的依赖关系始终被精准捕捉。

说明在t=iλ时,组合流模型基于状态和先前预测采样组件,过渡函数T将该组件整合到对象中;在t=1时,基于生成对象x1的奖励训练组合流模型

两种组合规则:(a) 基于反应物单元;(b) 基于合成子单元(本文所采用的方式)。
在正向生成阶段,CGFlow采用多层次策略建模:利用GFlowNets实现组合状态空间的高效探索,通过奖励信号(如分子活性、可合成性)引导采样方向;借助条件流匹配(CFM)目标估计状态变量的向量场,确保3D构象生成的准确性。这种设计既保留了流模型在连续数据建模中的优势,又通过组合流的分步机制实现了误差修正,解决了自回归模型的固有缺陷。
作为CGFlow框架的典型应用,3DSynthFlow方法在可合成靶向药物设计任务中展现出卓越性能,其核心价值在于实现了“3D分子构象”与“合成路径”的联合生成。
研究团队在CrossDocked2020数据集与LIT-PCBA基准上开展了系统性评估,重点关注四个核心指标:分子与靶点的结合亲和力(通过Vina Dock评分衡量)、合成路径成功率(AiZynth评分)、采样效率(高评分分子的发现速度)以及配体效率(分子活性与分子量的比值)。
在口袋特定优化任务中,3DSynthFlow生成的分子在结合亲和力与配体效率上全面超越现有基线模型,蛋白质-配体相互作用数量显著提升,证明其能精准捕捉分子与靶点的空间作用模式。在采样效率方面,当采样64,000个分子后,该方法识别的多样化高评分分子数量达到RxnFlow模型的4.2倍,极大降低了筛选成本。

不同方法在 LIT-PCBA 的 5 个蛋白质靶标上的平均 Vina 对接分数,包含平均值(Avg.)和中位数(Med.),最佳结果以粗体显示,其余 10 个靶标的结果在附录中。

不同生成方法在有效性、Vina 对接分数、QED、AiZynth 成功率、多样性(Div.)和时间(Time)等指标上的表现,包含平均值(Avg.)和中位数(Med.),参考值为已知活性物质。
在CrossDocked基准测试中,3DSynthFlow-highβ版本实现了-9.42 kcal/mol的平均对接分数,同时保持36.1%的合成成功率,成为首个在结合亲和力与可合成性两大核心指标上同时达到最先进水平的模型。在LIT-PCBA的15个靶标测试中,其结合亲和力性能均显著优于现有方法,充分验证了框架的通用性与有效性。

对比 3DSynthFlow(3D)与 RxnFlow(2D)在 3 个种子下,随采样预算变化的发现模式数量(满足 Vina <-10 kcal/mol、QED> 0.5、Sim < 0.5),数值越高越好。
该研究的学术价值与应用前景体现在三个维度:(1)理论层面,CGFlow首次实现了组合结构与连续状态的协同流建模,为组合对象生成提供了全新的数学框架;(2)方法层面,3DSynthFlow创新性地将3D构象生成与合成路径设计深度融合,解决了药物设计中“活性与可合成性难以兼顾”的痛点;(3)应用层面,其高效的奖励引导采样机制大幅提升了药物筛选效率,为加速靶向药物研发提供了切实可行的技术方案。
对于药物研发从业者,CGFlow框架提示了“分步生成+动态修正”的新范式,可直接应用于先导化合物的优化与设计;对于计算化学研究者,该框架为组合生成模型的构建提供了可复用的技术蓝图,有望扩展至材料设计、催化剂开发等更多领域。可以预见,这一研究将推动分子设计领域从“单一维度优化”向“多维度协同生成”的跨越式发展。
(●'◡'●) 需要进一步讨论的同学欢迎留言交流!