引言:药物研发的痛点与希望
药物研发是一项耗时、昂贵且复杂的过程。从找到能够调节疾病相关蛋白的“苗头化合物”,到优化出具备高活性、选择性和药代动力学特性的候选药物,往往需要数年时间和数千万美元的投入。而这一切的核心挑战在于:化学空间极其庞大,合成和测试每个新分子的成本高昂。
今天,我们要向大家介绍一篇来自 Variational AI 的博客文章——《How To Drug A Novel Target In 500 Molecules》。这篇文章展示了人工智能(AI)在药物发现领域的巨大潜力,尤其是其基于主动学习(Active Learning)的生成模型 Enki ,可以在仅使用500个分子数据的情况下,快速找到极具潜力的药物候选分子!
亮点一:AI如何颠覆传统药物研发流程?
传统的药物研发依赖于“设计-合成-测试-分析”(DMTA)循环。这个过程虽然有效,但效率低下,每一轮都需要大量实验验证。而 Enki 的出现,将这一流程自动化并极大加速:

图 1:传统的 DMTA 循环可以通过 Enki 的生成基础模型实现自动化。
1. 主动学习:AI版的DMTA循环
Enki 使用贝叶斯优化(Bayesian Optimization)方法,在每一轮中根据现有数据预测哪些分子最有可能满足优化目标(如高活性、高选择性、良好的药代动力学特性等),然后生成新的分子进行测试。这种方法不仅减少了需要合成和测试的分子数量,还显著提升了命中率。
2. 强大的预训练模型
Enki 是一个基于生成式基础模型的工具,它在数百万个活性数据点上进行了预训练,涵盖了数百个靶点。这种预训练使得 Enki 在面对全新靶点时,也能迅速适应并生成高质量的候选分子。
3. 高效的目标优化
Enki 不仅追求高活性(pIC50),还兼顾了药物的可合成性(QED,定量药物相似性评估)。通过平衡这些目标,Enki 能够生成既有效又易于合成的分子。
亮点二:Enki的实际表现如何?
为了验证 Enki 的性能,研究团队选择了三个重要的激酶靶点(FGFR1、AURKA 和 EGFR)作为基准测试对象,并将 Enki 的结果与以下两种方法进行了对比:
//高通量筛选(HTS) :对约200万个分子进行筛选。
//其他AI方法 :包括 REINVENT 和 Graph GA。
结果如下所示:
1
超越高通量筛选
图2和图3显示了 Enki 在三轮任务中的表现。在所有测试任务中,Enki 生成的分子在优化目标上的表现均优于高通量筛选库中的最佳分子。这表明,Enki 能够以极高的效率找到更优的候选药物。

图 2:对于三个基准任务,高通量筛选文库和 Enki 优化分子在高通量筛选文库和 Enki 优化分子上的分布。

图 3:对于三个基准任务,高通量筛选文库和 Enki 优化分子在高通量筛选文库和 Enki 优化分子上的分布,缩放以突出显示最佳分子。
2
分子新颖性
图4和图5展示了 Enki 在第五轮主动学习中生成的分子示例,以及它们与初始100个随机分子的相似性。结果显示,Enki 生成的分子与初始分子完全不同(见图6中的 Tanimoto 相似性分布)。这意味着 Enki 并非简单地模仿已有分子,而是真正探索了全新的化学空间。

图 4:FGFR1 效力第五轮主动学习中 Enki 优化分子的示例,以及用于初始化优化的 100 个分子集中最相似的分子。

图 5:AURKA 效力第五轮主动学习中 Enki 优化分子的示例,以及用于初始化优化的 100 个分子集中最相似的分子。

图 6:从第五轮主动学习到 3 个基准任务的初始 100 个分子集中最接近的分子的 Enki 优化分子的谷本相似性分布。
3
可合成性
研究团队使用 Molecule.one 对 Enki 生成的分子进行了逆合成路径预测(见图7)。结果显示,90%的分子可以在10步以内合成。这对于实际药物开发来说至关重要。

图 7:第五轮主动学习中 Enki 优化分子的逆合成途径预测的合成步骤数分布。
4
统计显著性优势
图8和图9展示了 Enki 在五轮主动学习中的表现,与 REINVENT 和 Graph GA 进行对比。Enki 在所有靶点上的表现均显著优于其他方法(见表1中的 Mann-Whitney U 检验 p 值和 Cohen’s d 效应大小)。特别是在活性(pIC50)方面,Enki 的分子远远领先于其他方法(见图10)。相比之下,REINVENT 和 Graph GA 更倾向于过度优化 QED,牺牲了活性(见图11)。

图 8:使用 Enki、REINVENT 和 Graph GA 进行五轮主动学习后优化目标的演变。中心线、方框和晶须分别表示中位数、第 25/75 个百分位、第 3/97 个百分位数。附加点表示超出该范围的异常值。对于所有靶标,第 5 轮 Enki 优化的化合物均优于 REINVENT 和 Graph GA 生产的化合物,根据 Mann-Whitney U 检验,p < 0.005。

图 9:第五轮主动学习中 Enki、REINVENT 和 Graph GA 优化分子的优化目标分布。每个分布的平均值用虚线表示。

图 10:第五轮主动学习中 Enki、REINVENT 和 Graph GA 优化分子的对接分数(效能)分布。每个分布的平均值用虚线表示。

图 11:第五轮主动学习中 Enki、REINVENT 和 Graph GA 优化分子的 QED(药物相似度定量估计)分布。每个分布的平均值用虚线表示。

表 1:Enki 生成的第五轮主动学习分子与 REINVENT 和 Graph GA 的统计比较。P 值使用 Mann-Whitney U 检验计算,效应大小使用 Cohen 的 d 进行评估。d = 0.2 被认为是小效应量,d=0.5 是中等,d=0.8 则是大,1.2 是非常大。
亮点三:Enki的应用前景
Enki 的成功不仅限于理论层面,它的实际应用也非常具有吸引力:
1. 快速收敛到候选药物 通过结合绝对结合自由能(ABFE)计算,Enki 可以在几周内找到极具潜力的先导化合物,并通过少量实验验证进一步优化。
2. 降低研发成本 相比传统方法,Enki 大幅减少了需要合成和测试的分子数量,从而显著降低了研发成本。
3. 适用于多种靶点 尽管本次测试集中在激酶靶点,但 Enki 的生成式模型具有广泛的适用性,未来可以扩展到更多类型的靶点。
结语:AI正在改变药物研发的未来
这篇博客不仅展示了 Enki 在药物发现中的强大能力,也让我们看到了 AI 技术在生物医药领域的广阔前景。如果你对药物研发感兴趣,或者想了解 AI 如何解决现实世界中的复杂问题,那么这篇博客绝对值得一读!