
DRUGONE
快速且经济地合成具有活性的全新化合物仍是药物发现中的关键瓶颈。该研究展示了一套整合式的药物化学流程,可高效实现 hit 与 lead 的结构多样化,加速 hit-to-lead 优化阶段。研究人员利用高通量实验(HTE)生成 13,490 条 Minisci-型 C–H 烷基化反应数据,并据此训练深度图神经网络,实现精确的反应结果预测。基于中等活性的 MAGL 抑制剂,研究人员通过骨架导向枚举构建了包含 26,375 个分子的虚拟化合物库,并进一步结合反应预测、理化性质评估和基于结构的评分,筛选出 212 个候选分子。最终合成并测试了其中 14 个化合物,活性最高可比原始 hit 提升 4,500 倍,并展示了良好的药代动力学特性。三种新分子的蛋白共晶结构揭示了其结合模式。本研究证明,结合迷你化 HTE、深度学习与多维分子优化,可显著缩短 hit-to-lead 周期。

在小分子药物研发中,高效合成新分子依然需要大量时间与资源,尤其是当目标化合物结构复杂、需建立结构–活性关系时。晚期 C–H 功能化(如 Minisci 反应)因能直接在杂环上引入烷基片段而备受关注。含较多 sp³ 碳的羧酸构建块可提升候选药物的可开发性、选择性和理化性质。然而,C–H 活化反应对底物结构敏感,成功率难以预测。HTE 可加速反应条件探索,而高质量反应数据集的构建为图神经网络等机器学习方法提供了基础,从而实现反应性能预测。本研究将反应预测、分子性质评估与模板对接整合到 hit-to-lead 优化流程中,并将其应用于治疗神经炎症相关 CNS 疾病的重要靶点 MAGL。
方法
研究人员首先利用 80 个电子缺陷杂环与 59 个 sp³-富集羧酸,在迷你化的 HTE 平台上建立了 13,490 条 Minisci-型反应数据。随后基于这些数据训练图神经网络,用于预测反应产率与二元反应结果。研究人员再将 125 个 MAGL hit 分子与 211 个羧酸片段组合生成 26,375 个虚拟化合物,通过“机器学习筛选漏斗”进行多维度优化,包括模板对接与 2D/3D 评分、反应可合成性预测、关键 ADME 性质预测(LogD、溶解度、P-gp 渗透性、PAMPA)。优先级最高的 34 个分子进入 HTE 条件筛选,最终 14 个成功放大合成并进入生物活性测试与晶体结构研究。
结果
高通量实验构建大规模 Minisci 反应数据集
研究人员在 24 孔体系中系统评估羧酸、银盐、酸性添加剂等条件组合,最终执行了 13,490 条反应,覆盖潜在反应空间的约 12%。其中约 30% 获得 ≥5% 产率的正向结果,产率分布均衡,为训练反应预测模型提供了理想数据质量。

图 1|Hit 优化总体工作流程
基于图神经网络的反应预测性能可靠
使用不同的数据拆分策略(0D、1D、2D)验证模型外推能力。
该模型证明可用于指导虚拟化合物的可合成性评估。

图 2|用于构建反应预测模型的高通量实验数据生成流程
26,375 个虚拟分子的多维度优化与筛选
步骤包括:
筛选流程显著减少了实验负担,并确保候选分子的综合质量。

图 3|基于机器学习的虚拟筛选与候选分子优选流程
14 个新型 MAGL 抑制剂的合成与活性验证
Minisci 反应使关键中间体的步骤数从传统方法的 7 步减少到 3 步,大幅提升效率。
14 个新合成分子(18–31)对人/鼠/鼠类灵长类的 MAGL 均有活性提升:

图 4|新型 MAGL 抑制剂的合成路线与蛋白复合物结构
结合模式的晶体结构解析
4 个分子(17、23、27、29)成功获得人源 MAGL 共晶结构:
结构信息解释了活性显著提升的分子机制。
讨论
本研究展示了一个可显著缩短 hit-to-lead 周期的整合式药物化学流程。关键在于:
总周期仅约 1 个月,比传统流程快数倍。
研究人员强调,高质量、FAIR 化的反应和生物数据是建模成功的核心;随着数据与模型质量继续提升,该类机器学习漏斗将成为未来药物化学加速器。
整理 | DrugOne团队
参考资料
Nippa, D.F., Atz, K., Stenzhorn, Y. et al. Expediting hit-to-lead progression in drug discovery through reaction prediction and multi-dimensional optimization. Nat Commun (2025).
https://doi.org/10.1038/s41467-025-66324-4
内容为【DrugOne】公众号原创|转载请注明来源