首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >在万亿分子中寻找药物:一种自下而上的超大规模虚拟筛选策略

在万亿分子中寻找药物:一种自下而上的超大规模虚拟筛选策略

作者头像
DrugIntel
发布2026-05-20 12:47:31
发布2026-05-20 12:47:31
1050
举报

原文A bottom-up approach to find lead compounds in expansive chemical spaces 期刊Communications Chemistry(Nature Portfolio),2025年,DOI: 10.1038/s42004-025-01610-2 单位:巴塞罗那大学、IRB Barcelona、EMBL Hamburg 等多机构联合


一句话读懂这篇文章

面对万亿量级的按需合成化合物库,传统虚拟筛选已无力穷举。本文提出了一套「先系统探索片段空间,再聚焦扩展成药空间」的分层策略,以约 万分之一 的计算代价,从 Enamine REAL Space(当时约 200 亿化合物)中发现了 19 个经实验验证的 BRD4(BD1) 新型结合物,命中率约 22%,活性覆盖低纳摩尔至微摩尔范围,与已上市候选药物相当。


研究背景:化学空间的爆炸式增长带来的挑战

化合物库规模的历史演变

药物发现中的苗头化合物(Hit Compound)筛选依赖于化合物库的质量与规模。历史上,高通量筛选(HTS)库通常包含 ~ 个化合物;进入 2010 年代中期,十亿量级的按需合成(make-on-demand)库相继出现;而到本文发表时,Enamine REAL Space 已突破 200 亿,整个虚拟化学宇宙的估计规模更是达到了 万亿(10¹²)级别

库类型

典型规模

代表平台

传统 HTS 实体库

企业内部

按需合成库(早期)

Enamine REAL(早期)

当前超大型虚拟库

Enamine REAL Space、ZINC20 等

理论化学宇宙(≤30重原子)

GDB 数据库估算

化学多样性的提升带来了显著优势:更大的库理论上包含更多样的骨架,能够提供活性更高、选择性更好的苗头化合物,甚至直接到达苗头到先导(Hit-to-Lead)阶段。

核心矛盾:规模 vs. 算力

然而,化合物库规模的增长速度远超算力的提升。即使采用最快的对接程序,以 每分子 10 秒估算,对 200 亿化合物进行暴力对接需要约 秒,折合约 3 × 10⁸ CPU 小时——这在现实中几乎不可行。

已有的应对策略主要分为两类:

  1. 1. 机器学习加速虚拟筛选(ML-accelerated VS):通过主动学习(Active Learning)框架,用少量已对接分子训练代理模型,预测未对接分子的打分,大幅减少实际对接次数。代表工作包括 Deep Docking、FAAST 等。但这类方法依赖对接打分函数的准确性,且需要枚举化合物库的大片区域。
  2. 2. 合成子(Synthon)策略:利用组合库的合成架构,独立对接合成模块(synthon),再基于反应规则进行组合扩展。代表工作包括 Sadybekov et al.(Nature 2022)提出的方法。该策略无需枚举全库,但受限于已知合成路线,不适用于合成信息保密的化合物库。

核心创新:自下而上的分层探索策略

方法设计哲学

本文方法的核心洞见源于化学空间的分层结构

  • • 化学空间随重原子数增加呈指数级增长——增加一个原子,可能的分子数量增加数十到数百倍
  • • 低分子量区间(片段空间,≤14个重原子)虽然也有约 个分子,但相对可穷举
  • • 同一骨架在更高分子量区间拥有大量衍生物——骨架信息可以作为"锚点"引导高层探索

基于此,研究者设计了两阶段策略:

代码语言:javascript
复制
[片段空间彻底探索] ──骨架提炼──▶ [超大库聚焦挖掘]
    ≤14 重原子                          25~35 重原子
    ~400万片段                          每骨架最多 2000万化合物
    可穷举                               定向枚举,大幅降维

与已有方法的关键区别

维度

暴力对接

ML加速筛选

Synthon策略

本文方法

是否需要枚举全库

部分

是否依赖合成信息

是否考虑结构多样性

强(聚类策略)

精度层次

单一

单一

多层递进

可否从任意起点启动


技术流程详解

第一阶段:片段空间系统探索

1.1 片段库构建

低分子量片段库整合自两个数据源:

  • Enamine REAL 数据库(≤350 MW 子集)
  • ZINC20 数据库(≤350 MW 子集)

筛选条件:

  • • 重原子数 ≤ 14
  • • 至少含一个环系(排除链状小分子,避免对接假阳性)
  • • 去重后共约 400万 个唯一 SMILES

经 Jchem 处理质子化/互变异构态,Corina 生成最多 4 个立体异构体及 5 种环构象后,最终生成约 1200万 个三维构象用于对接。

1.2 基于 MDMix 的结合位点热点识别

在片段对接前,首先通过 MDMix(混合有机溶剂分子动力学)模拟识别 BRD4(BD1) 结合口袋中的关键相互作用热点。

具体操作:

  • • 溶剂体系:乙醇/水(1:4)和吡啶/水(1:20)两组截断八面体盒子
  • • 每种溶剂体系运行 3组×50 ns 的复制模拟
  • • 通过溶剂占据率(0.002 百分位点)识别热点,并按相互作用类型(极性/疏水)分解

结果识别出两个关键热点:

  • 极性热点:Asn140 的 Nδ 原子(氢键受体位点)
  • 疏水热点:结合位点底部特征水分子簇附近区域

这两个热点随后作为药效团约束嵌入对接步骤。

1.3 受约束高通量对接(rDock)

使用 rDock 进行高通量虚拟筛选(HTVS 模式),关键参数:

  • • 对接口袋:以共结晶配体质心为中心、半径 6 Å 的球形空间
  • • 药效团约束:
    • • H 键受体位于距 Asn140 Nδ 原子 2.9 ± 0.5 Å 范围内
    • • 疏水基团位于特征水网络 3 ± 1 Å 范围内
  • • 遗传算法:最多 15 次迭代
  • • 打分阈值:SCORE.INTER ≥ −12,保留约 36万 个高分片段
1.4 化学多样性聚类(CCS 签名 + K-means)

直接从36万分子中挑选代表,会导致结果严重集中在少数骨架。研究者采用了基于 Chemical Checker 签名器(CCS) 的聚类策略:

  • • 使用 A1-A5 签名器编码分子特征(涵盖 2D/3D 拓扑指纹、骨架、结构键、理化性质)
  • • K-means 聚类划分为 2000 个簇
  • • 取每簇质心最近分子作为代表

该聚类策略同时最大化了候选集的化学多样性——作者通过图S8验证,聚类代表几乎均匀覆盖了片段库的化学多样性空间。

1.5 MM/GBSA 溶剂化能过滤

对 2000 个聚类代表进行 MM/GBSA(Schrödinger Prime)单点计算,仅保留 的化合物,过滤后保留 973 个片段用于下一步。

1.6 DUck 动态解离筛选

DUck(Dynamic Undocking) 是由本课题组开发的分子动力学方法,其原理是:通过沿氢键方向施加偏置力,测量破坏关键蛋白-配体相互作用(此处为 Asn140 氢键)所需的功(),以此量化结合态的稳定性。

操作细节:

  • • 蛋白"chunk"定义:Asn140 周围 6 Å 范围内残基(共约 30 个残基)+ 7 个结构水分子
  • • 每个分子在 298 K 和 303 K 各运行 5次 DUck 模拟
  • • 阈值:任意轨迹中 即提前淘汰
  • • 最终保留 5 个片段:化合物 7、8、9、10、11(对应 Comp1、2、4、5、6)

这五个片段含有彼此不同的核心骨架,为后续扩展提供了结构多样性基础。


第二阶段:骨架聚焦库构建与筛选

2.1 SpaceMACS 子结构搜索

利用工具 SpaceMACS(Maximum Common Substructure Search in Combinatorial Make-on-Demand Spaces)对 Enamine REAL Space 进行基于 SMARTS 的子结构搜索:

  • • 每个骨架限制最多搜索 2000万 化合物(平衡探索广度与算力)
  • • 目标分子量范围:25~35 个重原子
  • • 从 5 个虚拟片段骨架各获得化合物库:16M、27M、16M、0.3M、2.8M

相比 Synthon 策略,SMARTS 子结构搜索不受合成路线约束,可跨越多个合成模块,检索更广泛的化学邻域。

2.2 类药性过滤与三维构象生成

对搜索结果应用药物化学过滤:

  • Lipinski Ro5 规则
  • • 可旋转键 ≤ 8
  • • PAINS 过滤(去除泛筛选干扰化合物)
  • • 溶解性预测过滤

随后生成多种质子化态、互变异构体及立体异构体,最终合并形成约 3500万 个三维构象用于对接。

2.3 束缚对接(Tethered Docking)

核心技术创新之一:在对接时将属于母体骨架的原子位置固定(平移/旋转阈值 <0.01 Å),称为束缚对接(Tethered Docking)。

优势:

  • 保留已验证的结合模式,减少预测误差
  • 大幅减少构象搜索空间,提升计算速度
  • 减少假阳性:对接打分同时要求超过母体片段的 SCORE.INTER(约 −10)

束缚对接过滤比例:各骨架保留 1%~19% 的化合物(具体取决于骨架的刚性与复杂性),总计剩余约数十万化合物。

2.4 再次 CCS 聚类 + MM/GBSA + DUck

对束缚对接结果再次:

  • • K-means 聚类(每骨架 1000 个簇
  • • MM/GBSA 过滤( 阈值)
  • • DUck 排序(WQB 不得低于母体片段)
  • • MM/GBSA 与 DUck 联合共识打分,每骨架各取 Top 10 化合物

最终每个场景送合成的化合物数量如下表:

骨架来源

子结构搜索结果

成功合成

虚拟片段骨架(5个)

42个候选

32个(76%)

晶体片段骨架(3个)

30个候选

24个(80%)

BRD4 已知药物骨架(3个)

30个候选

29个(97%)

合计

102个

85个(83%)


实验验证体系

研究采用了四种正交实验方法,构成严格的递进式验证体系:

初筛:DSF + SPR 双平行单剂量筛选(10 μM)

差示扫描荧光法(DSF)

  • • 用 SYPRO Orange 荧光探针监测 BRD4(BD1) 热变性曲线
  • • 阳性判定:(即 )
  • • 结果:52个化合物为阳性(虚拟片段来源 14/32,44%;晶体片段 17/24,71%;药物骨架 21/29,72%)

表面等离子体共振(SPR)

  • • 将 His6-BRD4(BD1) 固定于 NIHC 芯片,经 Ni²⁺ 配位 + 胺偶联双重固定
  • • 阳性判定:平均信号 (排除 DMSO 背景干扰)
  • • 结果:20、10、9 个化合物分别来自三个场景

两种方法结合,共 25 个化合物 在两项初筛中均为阳性,进入定量验证阶段。

定量表征:竞争性 HTRF TR-FRET

  • • 原理:检测化合物竞争性置换乙酰化组蛋白 H4 多肽与 BRD4(BD1) 的结合
  • • 检测体系:His-BRD4 + 生物素化肽 + 抗His6-XL665 抗体 + Eu³⁺-链霉亲和素
  • • 滴定范围:0.1 nM~10 μM,16点浓度曲线,双复孔
  • • 结果:25个DSF/SPR双阳性化合物中,19个(76%)呈现剂量依赖性抑制曲线,可拟合出 IC₅₀

代表性 IC₅₀ 数据:

化合物

骨架来源

IC₅₀(HTRF TR-FRET)

67

晶体片段

低 nM 级别

87

BRD4 药物

低 nM 级别

94

晶体片段

27.9 nM

92

晶体片段

621.8 nM

50

BRD4 药物

1129 nM

24、43

多种

1~2 位数 μM

结构验证:X射线晶体学

对全部 85 个合成化合物进行晶体筛选(Morpheus 筛选板),最终获得三个化合物的共晶结构:

  • 化合物 94(IC₅₀ = 27.9 nM):结合模式与对接预测完全吻合
  • 化合物 92(IC₅₀ = 621.8 nM):结合模式与对接预测吻合
  • 化合物 50(IC₅₀ = 1129 nM):意外发现——相对于母体药物 ABBV-075 呈"倒置结合"(upside-down pose),但仍保留了药效团特征(如关键氢键),说明骨架扩展策略具有探索结合模式多样性的潜力

X 射线数据在 EMBL PETRA III P13 光束线采集,结构用 Phaser/Phenix/Coot 解析并经 PDB-redo 精修,已提交至 PDB(9HT0、9HT1、9HT2)。


化学多样性分析

研究者将 19 个已验证结合物与以下两个对照集进行比较:

  1. 1. Chemical Checker 宇宙中的随机分子样本
  2. 2. ChEMBL 数据库中所有已记录的 BRD4(BD1) 结合物

通过 Chemical Checker 签名降维后的 t-SNE 可视化和组内余弦距离分布分析显示:

  • 19 个新化合物在化学空间中呈现分散分布,未聚集于已知 BRD4 抑制剂附近
  • • 组内距离分布与随机分子相似,显著宽于已知 BRD4 抑制剂(后者更集中)
  • • 即使那些在化学空间中更接近已知 BRD4 抑制剂的化合物(如 51、71、73),并非均来自以已知药物为起点的场景二——体现了方法的无偏性

这一结果对于已高度研发的靶点(如 BRD4)尤其重要:在已有大量专利布局的靶点上,发现化学结构新颖的苗头化合物,对于知识产权策略和后续先导优化均有重要意义。


计算效率分析

指标

暴力对接(等效规模)

本文方法

评估化合物数

155 M

155 M(约占 REAL 库 0.7%)

所需 CPU 小时

~3 × 10⁸ h

~3 × 10⁴ h

效率提升

约 10,000 倍

最终合成化合物

85 个

实验命中率

~22%(19/85)

值得注意的是,本文的 10,000 倍效率提升是在使用了比暴力对接更精确的方法(MM/GBSA + DUck)的前提下实现的——即在更高准确度的同时,计算成本反而大幅下降。


🔭局限性与未来方向

作者在讨论中坦诚指出了若干局限性与可改进方向:

  1. 1. 已知药物骨架的命中率偏低:来自 ABBV-075、IBET-151、(+)-JQ1 等复杂骨架(如苯并二氮䓬类)的命中率低于片段来源的骨架。可能原因是这些复杂结构在按需合成库中的覆盖度较低,SMARTS 检索返回的化合物数量少且多样性有限。
  2. 2. 对接打分函数的固有局限:尽管使用了 MM/GBSA 和 DUck 进行后续过滤,整个流程仍以对接为起点,受限于对接评分的准确性。
  3. 3. 可扩展方向
    • • 加入 FEP(自由能微扰) 网络用于骨架聚焦库的精细排序
    • • 加入 ABFE(绝对结合自由能) 用于初始片段的精确评价
    • • 将方法扩展至 PROTAC、分子胶等新型模态的化学空间探索
    • • 与生成模型结合,动态生成满足特定骨架约束的新颖分子
  4. 4. 对化学空间增长趋势的预判:引用 Lyu et al.(Nature Chem. Biol. 2023)的分析:由于不同供应商的化学空间重叠度低,未来库的增长主要来自新化学类型区域的拓展,而非已有骨架周围的密度增加(每10倍库大小仅带来2-3倍的骨架深度提升)。这意味着本文提出的基于优势骨架区域精细挖掘的策略,将在未来持续保持竞争力。

方法论意义与启示

本文在方法层面的贡献,超越了具体的 BRD4 案例,具有以下普适价值:

对计算化学/CADD 领域:

  • • 提供了一套完整的、可完全自动化的超大化学空间探索框架
  • • 展示了如何在效率与准确度之间做出精巧权衡(每层方法精度递增,处理分子数递减)
  • • 为 ML 加速和 Synthon 方法之外提供了一条互补路径

对药物发现流程:

  • • 验证了从纯虚拟发现(无任何先验苗头)到类先导化合物(低 nM 活性)的完整可行性
  • • 展示了在高度研发靶点(BRD4)上仍可发现化学新颖性
  • • 骨架束缚对接策略为片段生长提供了严格的结构约束,大幅降低了预测失败率

对知识产权策略:

  • • 通过探索已知药物化学空间之外的区域,为在专利密集靶点上建立新型 IP 提供了技术路径

写在最后

本文提出的"自下而上"策略,以化学空间的分层结构为切入点,将超大库探索问题分解为「可穷举的小问题 → 定向扩展的大空间」两个子问题,并通过多层精度递进的计算漏斗,在极低的计算代价下实现了高质量苗头发现。

这一策略的意义不仅在于找到了 19 个新颖的 BRD4 结合物,更在于它为药物发现社区提供了一个面向万亿化学空间的可持续探索范式——而这,正是未来十年超大化学库真正发挥价值所亟需的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一句话读懂这篇文章
  • 研究背景:化学空间的爆炸式增长带来的挑战
    • 化合物库规模的历史演变
    • 核心矛盾:规模 vs. 算力
  • 核心创新:自下而上的分层探索策略
    • 方法设计哲学
    • 与已有方法的关键区别
  • 技术流程详解
    • 第一阶段:片段空间系统探索
      • 1.1 片段库构建
      • 1.2 基于 MDMix 的结合位点热点识别
      • 1.3 受约束高通量对接(rDock)
      • 1.4 化学多样性聚类(CCS 签名 + K-means)
      • 1.5 MM/GBSA 溶剂化能过滤
      • 1.6 DUck 动态解离筛选
    • 第二阶段:骨架聚焦库构建与筛选
      • 2.1 SpaceMACS 子结构搜索
      • 2.2 类药性过滤与三维构象生成
      • 2.3 束缚对接(Tethered Docking)
      • 2.4 再次 CCS 聚类 + MM/GBSA + DUck
  • 实验验证体系
    • 初筛:DSF + SPR 双平行单剂量筛选(10 μM)
    • 定量表征:竞争性 HTRF TR-FRET
    • 结构验证:X射线晶体学
  • 化学多样性分析
  • 计算效率分析
  • 🔭局限性与未来方向
  • 方法论意义与启示
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档