
近日发表于 bioRxiv 平台的预印本论文《Directed Chemical Evolution via Navigating Molecular Encoding Space》完成了一项创新的研究。该研究由来自中国医学科学院、新加坡国立大学等机构的 Lin Wang、Yifan Wu、Hao Luo 等学者共同完成。研究团队通过构建统一框架 Ouroboros,将分子表征学习与生成建模相结合,实现了在分子编码空间中的定向化学进化,为人工智能驱动的药物发现带来了新的思路 。
在药物研发领域,深度学习技术已经取得了不少进展,尤其是在小分子药物发现方面。人工神经网络凭借其强大的表征学习能力,能够自主识别数据结构,许多原本用于自然语言处理和图像生成的技术也成功应用于药物研发。比如,利用深度神经网络学习可解释的分子表征和编码,在分子性质预测和基于配体的虚拟筛选中发挥了重要作用。
然而,目前该领域仍面临着一些关键问题。一方面,分子表征学习和小分子生成之间存在明显差距,这限制了深度学习在新药研发中的有效性。现有的基于定量构效关系(QSAR)的方法,虽然有助于迭代分子生成,但难以让模型准确感知优化方向。另一方面,将药物性质预测和结合口袋条件整合到生成模型的训练过程中,也面临着模型外推和可重用性的挑战。此外,在化学空间中搜索已知药物分子的邻居来生成新分子的方法,由于缺乏能够定量映射编码到化学空间的强大模型,其应用效果也大打折扣。
为了解决这些问题,研究团队提出了 Ouroboros 框架。这个框架的创新之处在于,它将分子表示学习与生成模型集成在一起,通过重新构建分子生成过程,把它看作是编码空间的压缩和解压缩过程,有效解决了迭代分子优化面临的挑战,实现了在编码空间内的定向化学进化。
具体来说,Ouroboros 框架包含三个关键组件:一是通用分子编码器,它能将化学结构投影成一维编码向量,就像是给每个分子生成一个独特的 “数字身份证”;二是独立结构解码器,可将这些一维向量重构为 SMILES 序列,也就是把 “数字身份证”还原成分子的具体结构信息;三是化学空间导航器,能够实现定向分子优化,帮助研究人员更有目的地寻找理想的药物分子。

用于化学空间导航的 Ouroboros 协议
a. Ouroboros 的三个独立模块。化学空间压缩器通常由图神经网络(GNN)实现,将分子图转换为一维向量;性质解码器通过多层感知器(MLP)将一维向量投影到分子性质上;最后,化学空间解压器利用 Transformer 解码器这一文本生成模型,将这些一维向量转换为 SMILES 表示。 b. 用于化学空间建模的分子编码器,分子图由基于全局注意力的 GNN 模块进行编码,并表示为一维编码向量,其中 “E” 代表化学键,“V” 代表原子,“H” 代表隐藏层大小。 c. 用于将分子编码解压缩为分子结构的分子解码器,“L” 代表序列长度。 d. 化学空间导航的两种方法。
在实验过程中,研究团队从多个方面对 Ouroboros 框架进行了测试。
在压缩化学空间方面,通过引入新的相似性学习策略,结合扩展的构象空间相似性(CSS)和分子指纹相似性(MFS),提升了分子编码器的性能。实验结果显示,经过约 20,000 步预训练,验证数据集上的斯皮尔曼相关性达到收敛,且在测试集上表现相似。
在虚拟筛选和性质预测的基准测试中,Ouroboros 表现卓越。在基于配体的虚拟筛选实验中,与 6 种基线方法相比,Ouroboros 编码在两个虚拟筛选基准(DUD-E 和 LIT-PCBA)中均获得最高富集分数,在其他指标如 AUPRC、AUROC 等方面也优于基线方法。这表明 Ouroboros 能更有效地在编码空间中聚集具有相似药理特征的分子。在化学性质预测实验中,Ouroboros 的分子性质预测器在 10 个不同分子性质数据集上的平均斯皮尔曼相关系数显著高于其他对比模型,在 6 个性质任务中取得最高分数,充分展示了其强大的泛化能力。

评估 Ouroboros 中化学空间建模的质量
a. 不同方法在DUD-E的102个靶点和LIT-PCBA的15个靶点上,基于相似性的虚拟筛选性能,通过平均BEDROC进行评估。这些方法包括Ouroboros、GeminoMol、PhaseShape、ChemBERTa(ChemMLM表现最佳的版本)、AtomPairs、ECFP4和MACCS。 b. 三种分子编码器在10个不同分子性质回归任务上的斯皮尔曼相关系数。对于GeminiMol和Ouroboros,解码器由多层感知器构建。CombineFP结合了包括AtomPairs、拓扑扭转(TopologicalTorsion)、ECFP4和FCFP6在内的四种分子指纹,并使用AutoGluon构建性质预测器。“**”表示p值=0.0079,“*”表示p值=0.0540,“n.s”表示不显著(p值>0.3)。 c. Ouroboros在10个不同分子性质回归任务上(颜色不同)与CombineFP的斯皮尔曼相关系数对比。
研究团队还将 Ouroboros 应用于多靶点癌症抑制剂的发现。从 10 个药物靶点和 119 种参考化合物的实验中,成功从 4820 万化合物数据集中鉴定出 3 种多靶点活性分子,证明了 Ouroboros 在超大型分子结构数据集上的泛化能力。

使用 Ouroboros 发现新型多靶点抑制剂
a. 筛选潜在多靶点癌症驱动抑制剂的流程。针对5种常见癌症驱动基因突变,从ChEMBL数据库检索相关分子,经聚类筛选出119种参考化合物。以4820万个化合物的Enamine REAL多样性集为筛选库,基于Ouroboros编码进行相似性筛选,再通过分子对接验证,最终对筛选出的化合物进行实验检测。 b. 三种命中化合物(2、6和13)对PI3Kα、PI3Kγ和AURKA三个靶点的半数抑制浓度(IC50)及抑制曲线。从曲线能直观看到不同浓度下各化合物对靶点的抑制效果,#13号化合物对AURKA靶点的IC50达到纳摩尔级别,显示出较强的抑制活性 。
在从分子编码空间解压缩化学结构的实验中,Ouroboros 的分子结构解码器能快速恢复 80% 以上的分子结构,且在引入随机性解码时,能在保持结构有效性的同时生成新颖多样的分子结构。

用 Ouroboros 探索化学空间
a. 以阿司匹林为起始分子的随机传播过程。在随机传播实验中,通过向阿司匹林的编码向量添加随机噪声,逐步生成新的分子结构。图中展示了不同步骤生成的分子,分子下方标注了与起始分子的编码相似性。随着传播步骤增加,生成的分子结构逐渐偏离起始分子,编码相似性逐渐降低,表明该过程可探索起始分子在编码空间的邻近区域,发现结构类似物。 b. 为优化溶解度和膜通透性进行的定向迁移。图中展示了从特定分子出发,通过定向迁移优化分子性质的过程。分子上的性质标签是在基准测试中训练的性质预测器的预测结果,每个分子下方显示了编码相似性值。溶解度用LogS表示(棕色,位于分子左侧),膜通透性用LogPeff表示,其中平行人工膜通透性测定(PAMPA)值以橙色突出显示,Caco-2细胞通透性值以蓝色显示。结果表明Ouroboros能在保持分子结构相似性的同时,有效优化目标性质。 c、d. 在膜通透性(c)和溶解度(d)的多目标分子性质优化中,随机传播(S.P.)和定向迁移(D.M.)的比较。图中的虚线代表起始分子,箱线图中的所有点表示在传播过程和迁移路径中生成的编码相似性大于0.6的新分子。“***”表示p值<0.0001,说明定向迁移在优化分子性质方面具有显著效果 。
此外,在定向化学进化实验中,无论是以阿司匹林为例的随机传播实验,还是以水溶解度和膜通透性为优化目标的定向迁移实验,Ouroboros 都展现出良好的效果,能够有效优化分子性质,生成具有特定性质的分子。在双靶点药物优化实验中,通过化学融合生成的分子比相似性筛选得到的分子具有更高的编码相似性和更好的结合亲和力。

编码空间中用于双靶点药物发现的化学融合
a. 基于相似性的虚拟筛选与Ouroboros化学进化的比较。针对AURKA和PI3Kγ靶点,在4820万个化合物的Enamine REAL多样性集中,分别使用相似性筛选和Ouroboros化学融合方法寻找潜在双靶点抑制剂。相似性筛选直接基于分子相似性选择化合物,化学融合则通过优化分子编码向量来生成融合分子,最后都通过分子对接评估化合物的潜力。 b. AURKA和PI3Kγ参考分子之间的编码相似性矩阵。图中箭头指出了相似性最高的一对分子,其最大相似性为0.61,但这些化合物中没有显示出双靶点抑制作用,表明可能需要更高相似性的分子来提高双靶点抑制剂的筛选成功率。 c. 对化学融合和相似性筛选生成分子的评估。图中黑色菱形代表相似性筛选产生的分子,红色圆圈代表化学融合产生的分子。图中的灰色实线表示化学融合中用于筛选分子的0.65相似性阈值,右上角半透明区域代表高质量候选分子。化学融合产生的分子在编码相似性上表现更优,许多分子对两个靶点的相似性得分都高于0.7,且在分子对接分数和结合自由能等方面也更具优势,证明了化学融合在双靶点药物设计中的优越性 。
Ouroboros 框架成功地将分子表示学习与生成式 AI 相结合,为药物研发开辟了新的道路。它在相似性虚拟筛选、分子性质预测和多靶点药物发现等方面展现出卓越的性能,能够有效提高药物研发的效率,加速新药的发现过程。
不过,该研究也存在一定的局限性。目前的基准测试仅包含 10 种分子性质,未来还有很大的拓展空间。而且,Ouroboros 目前不能直接预测药物 - 靶点结合亲和力,需要依赖分子对接来筛选分子。
展望未来,研究人员计划将蛋白质表示纳入药物 - 靶点结合亲和力预测模型的训练中,进一步提升 Ouroboros 框架的能力。随着分子表示学习技术的不断进步,Ouroboros 有望成为 AI 驱动药物研发的关键工具,推动制药研究取得更大的进展。
文章链接: https://doi.org/10.1101/2025.03.18.643899 代码链接: https://github.com/Wang-Lin-boop/Ouroboros