
期刊: arxiv 链接: https://arxiv.org/abs/2507.11818 代码: https://github.com/andreirekesh/SynCoGen 简介: 该论文提出了 SynCoGen 框架,旨在解决生成小分子设计中可合成性的挑战,其创新点在于结合同时掩码图扩散和流匹配实现可合成 3D 分子生成,填补了 3D 分子生成与实际合成可及性之间的差距。该方法通过联合采样分子构建块、化学反应和原子坐标的分布来生成分子。实验中,研究者使用了包含 622,766 个合成感知构建块图和 336 万个构象的 SynSpace 数据集,结果显示 SynCoGen 在无条件小分子图和构象生成方面达到最先进性能,在药物发现中的零样本分子连接子设计等任务中也表现出竞争力。该论文为非自回归分子生成的未来应用奠定了基础,推动了可合成性感知的 3D 分子生成领域的发展。

在计算机辅助药物设计与分子工程领域,如何平衡分子生成的结构精准性与合成可及性一直是核心难题。近日,由多伦多大学、剑桥大学等机构联合发表的研究论文《SynCoGen: Synthesizable 3D Molecule Generation via Joint Reaction and Coordinate Modeling》提出了一种突破性框架,首次实现了分子构建块反应网络与3D原子坐标的联合生成,为解决这一难题提供了全新范式。
当前分子生成技术存在显著割裂:
这种割裂严重限制了生成模型在药物研发中的实际应用——据统计,现有方法生成的分子中仅约30%能通过 retros合成分析验证其可合成性。

SynCoGen 是一个同时进行掩码图扩散和流匹配的模型,可在 3D 坐标空间中生成可合成分子。每个节点对应一个构建块,边编码化学反应。注意,节点不一定是线性的,且未显示离去基团。
SynCoGen创新性地将掩码图扩散(用于离散反应网络建模)与流匹配(用于连续坐标生成)整合到统一时间尺度中,实现了:
三者的联合采样。这种设计确保了生成过程中化学反应逻辑与空间结构约束的一致性。模型输出的三元组(X,E,C)既包含完整的合成路线信息,又提供精确的3D构象,解决了传统方法"顾此失彼"的痛点。
为支撑模型训练,研究团队构建了包含622,766个可合成分子和336万个低能构象的SynSpace数据集:
与传统合成子数据集相比,SynSpace的优势在于:

SynSpace 创建过程的图形概述。高可合成性分子通过从预定义的构建块和反应集中采样合成路径来程序化构建。从初始构建块开始,该过程选择反应中心、兼容的反应和合适的反应物。此过程针对固定数量的反应步骤迭代重复。最终结构组装完成后,生成多个低能量 3D 构象。
在1000个生成分子的基准测试中,SynCoGen表现出显著优势:

从头 3D 分子生成的生成方法比较。↑/↓表示越高 / 越低越好。

构象几何和能量分布比较。a)键长、b)键角、c-d)二面角、e)平均每个原子的 GFN2-xTB 非共价相互作用能和 f)平均每个原子的 GFN-FF 非键相互作用能的分布。实线表示训练数据密度;(a-d)中的下部子图显示生成样本与数据之间的偏差。
在片段链接(fragment linking)实验中,针对PDB 7N7X、4EYR和5L2S等靶点:

分子修复。a)片段连接从 PDB 中三个实验确定的配体开始,这些配体包含与我们的构建块匹配的子结构。我们为每个结构展示三个由 SYNCOGEN 生成的连接子示例以及 Vina 对接分数的分布。b)从我们的模型中采样的分子(1)的拟议合成路径,以及 c)使用 AlphaFold3 将(1)的结构(蓝色)对接至 PDB 7N7X 与 PDB 配体(米色)的比较。
通过系统性移除模型组件的对照实验表明:
尽管表现优异,SynCoGen仍存在局限:
未来研究可拓展至:
SynCoGen通过创新性的多模态联合建模框架,首次实现了"从合成路线到3D结构"的端到端生成,其核心价值在于:
该研究不仅发表了性能卓越的模型,更构建了SynSpace这一宝贵数据集(https://huggingface.co/datasets/DreiSSB/SynSpace),其开源代码(https://github.com/andreirekesh/SynCoGen)将极大推动该领域的发展。对于从事计算化学、药物研发和人工智能交叉研究的学者而言,这篇论文无疑是值得深入研读的里程碑式成果。
(●'◡'●) 需要进一步讨论的同学欢迎留言交流!