首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SYNCOGEN:开创可合成 3D 分子生成的新纪元

SYNCOGEN:开创可合成 3D 分子生成的新纪元

作者头像
MindDance
发布2026-01-08 12:57:53
发布2026-01-08 12:57:53
5970
举报

SynCoGen: Synthesizable 3D Molecule Generation via Joint Reaction and Coordinate Modeling

期刊: arxiv 链接: https://arxiv.org/abs/2507.11818 代码: https://github.com/andreirekesh/SynCoGen 简介: 该论文提出了 SynCoGen 框架,旨在解决生成小分子设计中可合成性的挑战,其创新点在于结合同时掩码图扩散和流匹配实现可合成 3D 分子生成,填补了 3D 分子生成与实际合成可及性之间的差距。该方法通过联合采样分子构建块、化学反应和原子坐标的分布来生成分子。实验中,研究者使用了包含 622,766 个合成感知构建块图和 336 万个构象的 SynSpace 数据集,结果显示 SynCoGen 在无条件小分子图和构象生成方面达到最先进性能,在药物发现中的零样本分子连接子设计等任务中也表现出竞争力。该论文为非自回归分子生成的未来应用奠定了基础,推动了可合成性感知的 3D 分子生成领域的发展。


在计算机辅助药物设计与分子工程领域,如何平衡分子生成的结构精准性合成可及性一直是核心难题。近日,由多伦多大学、剑桥大学等机构联合发表的研究论文《SynCoGen: Synthesizable 3D Molecule Generation via Joint Reaction and Coordinate Modeling》提出了一种突破性框架,首次实现了分子构建块反应网络与3D原子坐标的联合生成,为解决这一难题提供了全新范式。

研究背景:3D分子生成的双重挑战

当前分子生成技术存在显著割裂:

  • 合成导向方法:基于反应模板与分子构建块组装,虽能保证合成可行性,但仅能生成2D分子图,无法捕捉影响分子活性的3D构象信息。
  • 结构导向方法:通过扩散模型或流匹配生成3D原子坐标,虽能建模分子空间结构,却因忽视合成路径约束,导致生成分子难以实验制备。

这种割裂严重限制了生成模型在药物研发中的实际应用——据统计,现有方法生成的分子中仅约30%能通过 retros合成分析验证其可合成性。

核心创新:SynCoGen框架的技术突破

SynCoGen 是一个同时进行掩码图扩散和流匹配的模型,可在 3D 坐标空间中生成可合成分子。每个节点对应一个构建块,边编码化学反应。注意,节点不一定是线性的,且未显示离去基团。
SynCoGen 是一个同时进行掩码图扩散和流匹配的模型,可在 3D 坐标空间中生成可合成分子。每个节点对应一个构建块,边编码化学反应。注意,节点不一定是线性的,且未显示离去基团。

SynCoGen 是一个同时进行掩码图扩散和流匹配的模型,可在 3D 坐标空间中生成可合成分子。每个节点对应一个构建块,边编码化学反应。注意,节点不一定是线性的,且未显示离去基团。

1. 多模态联合生成架构

SynCoGen创新性地将掩码图扩散(用于离散反应网络建模)与流匹配(用于连续坐标生成)整合到统一时间尺度中,实现了:

  • • 分子构建块身份(X)
  • • 反应连接关系(E)
  • • 3D原子坐标(C)

三者的联合采样。这种设计确保了生成过程中化学反应逻辑与空间结构约束的一致性。模型输出的三元组(X,E,C)既包含完整的合成路线信息,又提供精确的3D构象,解决了传统方法"顾此失彼"的痛点。

2. SynSpace数据集:高质量训练数据的基石

为支撑模型训练,研究团队构建了包含622,766个可合成分子336万个低能构象的SynSpace数据集:

  • • 分子结构通过93种商用构建块与19种高收率反应模板迭代组装生成
  • • 构象优化采用ETKDG初始生成+MMFF94力场优化+GFN2-xTB量子化学优化的三级流程
  • • 每个分子平均保留5.4个能量在全局最小值10kcal/mol以内的构象

与传统合成子数据集相比,SynSpace的优势在于:

  • • 直接提供可执行的多步合成路线
  • • 确保所有产物原子均来自输入试剂
  • • 支持反应中心级别的精细约束
SynSpace 创建过程的图形概述。高可合成性分子通过从预定义的构建块和反应集中采样合成路径来程序化构建。从初始构建块开始,该过程选择反应中心、兼容的反应和合适的反应物。此过程针对固定数量的反应步骤迭代重复。最终结构组装完成后,生成多个低能量 3D 构象。
SynSpace 创建过程的图形概述。高可合成性分子通过从预定义的构建块和反应集中采样合成路径来程序化构建。从初始构建块开始,该过程选择反应中心、兼容的反应和合适的反应物。此过程针对固定数量的反应步骤迭代重复。最终结构组装完成后,生成多个低能量 3D 构象。

SynSpace 创建过程的图形概述。高可合成性分子通过从预定义的构建块和反应集中采样合成路径来程序化构建。从初始构建块开始,该过程选择反应中心、兼容的反应和合适的反应物。此过程针对固定数量的反应步骤迭代重复。最终结构组装完成后,生成多个低能量 3D 构象。

3. 训练与采样的关键设计

  • 噪声机制:对反应图采用离散吸收扩散,对坐标采用基于可见性掩码的居中策略,解决了掩码状态下原子坐标对齐问题。
  • 约束条件:实施无自环边缘、边缘计数限制和反应兼容性掩码,确保生成分子的化学合理性。
  • 采样策略:通过单父边缘约束算法确保分子连接性,采用坐标退火策略提升构象质量。

实验验证:全面超越现有方法

1. 无条件生成性能

在1000个生成分子的基准测试中,SynCoGen表现出显著优势:

  • 化学有效性:96.7%的分子通过RDKit sanitization验证,远超FlowMol-Gaussian的48.3%。
  • 合成可及性:AiZynthFinder和Synthesheseus retros合成解析率分别达50%和72%,是SEMLAFLOW模型的1.3-2倍。
  • 结构合理性
    • • GFN-FF非键相互作用能3.01 kcal/mol,优于所有基线方法
    • • 87.2%通过PoseBusters构象检查
    • • 键长、键角分布与训练数据的Wasserstein距离最小
从头 3D 分子生成的生成方法比较。↑/↓表示越高 / 越低越好。
从头 3D 分子生成的生成方法比较。↑/↓表示越高 / 越低越好。

从头 3D 分子生成的生成方法比较。↑/↓表示越高 / 越低越好。

构象几何和能量分布比较。a)键长、b)键角、c-d)二面角、e)平均每个原子的 GFN2-xTB 非共价相互作用能和 f)平均每个原子的 GFN-FF 非键相互作用能的分布。实线表示训练数据密度;(a-d)中的下部子图显示生成样本与数据之间的偏差。
构象几何和能量分布比较。a)键长、b)键角、c-d)二面角、e)平均每个原子的 GFN2-xTB 非共价相互作用能和 f)平均每个原子的 GFN-FF 非键相互作用能的分布。实线表示训练数据密度;(a-d)中的下部子图显示生成样本与数据之间的偏差。

构象几何和能量分布比较。a)键长、b)键角、c-d)二面角、e)平均每个原子的 GFN2-xTB 非共价相互作用能和 f)平均每个原子的 GFN-FF 非键相互作用能的分布。实线表示训练数据密度;(a-d)中的下部子图显示生成样本与数据之间的偏差。

2. 零样本分子修复任务

在片段链接(fragment linking)实验中,针对PDB 7N7X、4EYR和5L2S等靶点:

  • • 生成分子与天然配体的AutoDock Vina对接分数相当(-6.09至-10.66 kcal/mol)
  • • 100%保证分子连接性,而DiffLinker存在离散片段问题
  • • retros合成解析率58-79%,DiffLinker则为0%
分子修复。a)片段连接从 PDB 中三个实验确定的配体开始,这些配体包含与我们的构建块匹配的子结构。我们为每个结构展示三个由 SYNCOGEN 生成的连接子示例以及 Vina 对接分数的分布。b)从我们的模型中采样的分子(1)的拟议合成路径,以及 c)使用 AlphaFold3 将(1)的结构(蓝色)对接至 PDB 7N7X 与 PDB 配体(米色)的比较。
分子修复。a)片段连接从 PDB 中三个实验确定的配体开始,这些配体包含与我们的构建块匹配的子结构。我们为每个结构展示三个由 SYNCOGEN 生成的连接子示例以及 Vina 对接分数的分布。b)从我们的模型中采样的分子(1)的拟议合成路径,以及 c)使用 AlphaFold3 将(1)的结构(蓝色)对接至 PDB 7N7X 与 PDB 配体(米色)的比较。

分子修复。a)片段连接从 PDB 中三个实验确定的配体开始,这些配体包含与我们的构建块匹配的子结构。我们为每个结构展示三个由 SYNCOGEN 生成的连接子示例以及 Vina 对接分数的分布。b)从我们的模型中采样的分子(1)的拟议合成路径,以及 c)使用 AlphaFold3 将(1)的结构(蓝色)对接至 PDB 7N7X 与 PDB 配体(米色)的比较。

3. 消融实验验证关键组件

通过系统性移除模型组件的对照实验表明:

  • • 化学感知约束的移除导致有效性降至42.4%,能量值恶化至67.006 kcal/mol
  • • 自条件机制对维持构象质量至关重要,移除后有效性下降24.5%

局限性与未来方向

尽管表现优异,SynCoGen仍存在局限:

  • • 反应模板限于19种交叉偶联反应,未涵盖大环合成等复杂场景
  • • 构象生成未考虑溶剂效应和温度影响
  • • 合成路线优化未涉及产率和成本因素

未来研究可拓展至:

  • • 引入更多反应类型,扩展化学空间覆盖范围
  • • 整合量子力学计算提升构象预测精度
  • • 结合强化学习优化合成路线的经济性

总结

SynCoGen通过创新性的多模态联合建模框架,首次实现了"从合成路线到3D结构"的端到端生成,其核心价值在于:

  1. 1. 解决了生成分子"好看不好做"的行业痛点
  2. 2. 提供了可直接用于实验验证的合成方案
  3. 3. 为药物先导化合物优化、材料设计等领域提供了新工具

该研究不仅发表了性能卓越的模型,更构建了SynSpace这一宝贵数据集(https://huggingface.co/datasets/DreiSSB/SynSpace),其开源代码(https://github.com/andreirekesh/SynCoGen)将极大推动该领域的发展。对于从事计算化学、药物研发和人工智能交叉研究的学者而言,这篇论文无疑是值得深入研读的里程碑式成果。


(●'◡'●) 需要进一步讨论的同学欢迎留言交流!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SynCoGen: Synthesizable 3D Molecule Generation via Joint Reaction and Coordinate Modeling
  • 研究背景:3D分子生成的双重挑战
  • 核心创新:SynCoGen框架的技术突破
    • 1. 多模态联合生成架构
    • 2. SynSpace数据集:高质量训练数据的基石
    • 3. 训练与采样的关键设计
  • 实验验证:全面超越现有方法
    • 1. 无条件生成性能
    • 2. 零样本分子修复任务
    • 3. 消融实验验证关键组件
  • 局限性与未来方向
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档