首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >仅用500个分子数据,AI如何加速新药发现?

仅用500个分子数据,AI如何加速新药发现?

作者头像
用户1151118
发布2026-01-08 12:39:21
发布2026-01-08 12:39:21
860
举报

引言:药物研发的痛点与希望

药物研发是一项耗时、昂贵且复杂的过程。从找到能够调节疾病相关蛋白的“苗头化合物”,到优化出具备高活性、选择性和药代动力学特性的候选药物,往往需要数年时间和数千万美元的投入。而这一切的核心挑战在于:化学空间极其庞大,合成和测试每个新分子的成本高昂。

今天,我们要向大家介绍一篇来自 Variational AI 的博客文章——《How To Drug A Novel Target In 500 Molecules》。这篇文章展示了人工智能(AI)在药物发现领域的巨大潜力,尤其是其基于主动学习(Active Learning)的生成模型 Enki ,可以在仅使用500个分子数据的情况下,快速找到极具潜力的药物候选分子!

亮点一:AI如何颠覆传统药物研发流程?

传统的药物研发依赖于“设计-合成-测试-分析”(DMTA)循环。这个过程虽然有效,但效率低下,每一轮都需要大量实验验证。而 Enki 的出现,将这一流程自动化并极大加速:

图 1:传统的 DMTA 循环可以通过 Enki 的生成基础模型实现自动化。

1. 主动学习:AI版的DMTA循环

Enki 使用贝叶斯优化(Bayesian Optimization)方法,在每一轮中根据现有数据预测哪些分子最有可能满足优化目标(如高活性、高选择性、良好的药代动力学特性等),然后生成新的分子进行测试。这种方法不仅减少了需要合成和测试的分子数量,还显著提升了命中率。

2. 强大的预训练模型

Enki 是一个基于生成式基础模型的工具,它在数百万个活性数据点上进行了预训练,涵盖了数百个靶点。这种预训练使得 Enki 在面对全新靶点时,也能迅速适应并生成高质量的候选分子。

3. 高效的目标优化

Enki 不仅追求高活性(pIC50),还兼顾了药物的可合成性(QED,定量药物相似性评估)。通过平衡这些目标,Enki 能够生成既有效又易于合成的分子。

亮点二:Enki的实际表现如何?

为了验证 Enki 的性能,研究团队选择了三个重要的激酶靶点(FGFR1、AURKA 和 EGFR)作为基准测试对象,并将 Enki 的结果与以下两种方法进行了对比:

//高通量筛选(HTS) :对约200万个分子进行筛选。

//其他AI方法 :包括 REINVENT 和 Graph GA。

结果如下所示:

1

超越高通量筛选

图2和图3显示了 Enki 在三轮任务中的表现。在所有测试任务中,Enki 生成的分子在优化目标上的表现均优于高通量筛选库中的最佳分子。这表明,Enki 能够以极高的效率找到更优的候选药物。

图 2:对于三个基准任务,高通量筛选文库和 Enki 优化分子在高通量筛选文库和 Enki 优化分子上的分布。

图 3:对于三个基准任务,高通量筛选文库和 Enki 优化分子在高通量筛选文库和 Enki 优化分子上的分布,缩放以突出显示最佳分子。

2

分子新颖性

图4和图5展示了 Enki 在第五轮主动学习中生成的分子示例,以及它们与初始100个随机分子的相似性。结果显示,Enki 生成的分子与初始分子完全不同(见图6中的 Tanimoto 相似性分布)。这意味着 Enki 并非简单地模仿已有分子,而是真正探索了全新的化学空间。

图 4:FGFR1 效力第五轮主动学习中 Enki 优化分子的示例,以及用于初始化优化的 100 个分子集中最相似的分子。

图 5:AURKA 效力第五轮主动学习中 Enki 优化分子的示例,以及用于初始化优化的 100 个分子集中最相似的分子。

图 6:从第五轮主动学习到 3 个基准任务的初始 100 个分子集中最接近的分子的 Enki 优化分子的谷本相似性分布。

3

可合成性

研究团队使用 Molecule.one 对 Enki 生成的分子进行了逆合成路径预测(见图7)。结果显示,90%的分子可以在10步以内合成。这对于实际药物开发来说至关重要。

图 7:第五轮主动学习中 Enki 优化分子的逆合成途径预测的合成步骤数分布。

4

统计显著性优势

图8和图9展示了 Enki 在五轮主动学习中的表现,与 REINVENT 和 Graph GA 进行对比。Enki 在所有靶点上的表现均显著优于其他方法(见表1中的 Mann-Whitney U 检验 p 值和 Cohen’s d 效应大小)。特别是在活性(pIC50)方面,Enki 的分子远远领先于其他方法(见图10)。相比之下,REINVENT 和 Graph GA 更倾向于过度优化 QED,牺牲了活性(见图11)。

图 8:使用 Enki、REINVENT 和 Graph GA 进行五轮主动学习后优化目标的演变。中心线、方框和晶须分别表示中位数、第 25/75 个百分位、第 3/97 个百分位数。附加点表示超出该范围的异常值。对于所有靶标,第 5 轮 Enki 优化的化合物均优于 REINVENT 和 Graph GA 生产的化合物,根据 Mann-Whitney U 检验,p < 0.005。

图 9:第五轮主动学习中 Enki、REINVENT 和 Graph GA 优化分子的优化目标分布。每个分布的平均值用虚线表示。

图 10:第五轮主动学习中 Enki、REINVENT 和 Graph GA 优化分子的对接分数(效能)分布。每个分布的平均值用虚线表示。

图 11:第五轮主动学习中 Enki、REINVENT 和 Graph GA 优化分子的 QED(药物相似度定量估计)分布。每个分布的平均值用虚线表示。

表 1:Enki 生成的第五轮主动学习分子与 REINVENT 和 Graph GA 的统计比较。P 值使用 Mann-Whitney U 检验计算,效应大小使用 Cohen 的 d 进行评估。d = 0.2 被认为是小效应量,d=0.5 是中等,d=0.8 则是大,1.2 是非常大。

亮点三:Enki的应用前景

Enki 的成功不仅限于理论层面,它的实际应用也非常具有吸引力:

1. 快速收敛到候选药物 通过结合绝对结合自由能(ABFE)计算,Enki 可以在几周内找到极具潜力的先导化合物,并通过少量实验验证进一步优化。

2. 降低研发成本 相比传统方法,Enki 大幅减少了需要合成和测试的分子数量,从而显著降低了研发成本。

3. 适用于多种靶点 尽管本次测试集中在激酶靶点,但 Enki 的生成式模型具有广泛的适用性,未来可以扩展到更多类型的靶点。

结语:AI正在改变药物研发的未来

这篇博客不仅展示了 Enki 在药物发现中的强大能力,也让我们看到了 AI 技术在生物医药领域的广阔前景。如果你对药物研发感兴趣,或者想了解 AI 如何解决现实世界中的复杂问题,那么这篇博客绝对值得一读!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档