

原文:A bottom-up approach to find lead compounds in expansive chemical spaces 期刊:Communications Chemistry(Nature Portfolio),2025年,DOI: 10.1038/s42004-025-01610-2 单位:巴塞罗那大学、IRB Barcelona、EMBL Hamburg 等多机构联合
面对万亿量级的按需合成化合物库,传统虚拟筛选已无力穷举。本文提出了一套「先系统探索片段空间,再聚焦扩展成药空间」的分层策略,以约 万分之一 的计算代价,从 Enamine REAL Space(当时约 200 亿化合物)中发现了 19 个经实验验证的 BRD4(BD1) 新型结合物,命中率约 22%,活性覆盖低纳摩尔至微摩尔范围,与已上市候选药物相当。
药物发现中的苗头化合物(Hit Compound)筛选依赖于化合物库的质量与规模。历史上,高通量筛选(HTS)库通常包含 ~ 个化合物;进入 2010 年代中期,十亿量级的按需合成(make-on-demand)库相继出现;而到本文发表时,Enamine REAL Space 已突破 200 亿,整个虚拟化学宇宙的估计规模更是达到了 万亿(10¹²)级别。
库类型 | 典型规模 | 代表平台 |
|---|---|---|
传统 HTS 实体库 | ~ | 企业内部 |
按需合成库(早期) | ~ | Enamine REAL(早期) |
当前超大型虚拟库 | ~ | Enamine REAL Space、ZINC20 等 |
理论化学宇宙(≤30重原子) | GDB 数据库估算 |
化学多样性的提升带来了显著优势:更大的库理论上包含更多样的骨架,能够提供活性更高、选择性更好的苗头化合物,甚至直接到达苗头到先导(Hit-to-Lead)阶段。
然而,化合物库规模的增长速度远超算力的提升。即使采用最快的对接程序,以 每分子 10 秒估算,对 200 亿化合物进行暴力对接需要约 秒,折合约 3 × 10⁸ CPU 小时——这在现实中几乎不可行。
已有的应对策略主要分为两类:
本文方法的核心洞见源于化学空间的分层结构:
基于此,研究者设计了两阶段策略:
[片段空间彻底探索] ──骨架提炼──▶ [超大库聚焦挖掘]
≤14 重原子 25~35 重原子
~400万片段 每骨架最多 2000万化合物
可穷举 定向枚举,大幅降维
维度 | 暴力对接 | ML加速筛选 | Synthon策略 | 本文方法 |
|---|---|---|---|---|
是否需要枚举全库 | 是 | 部分 | 否 | 否 |
是否依赖合成信息 | 否 | 否 | 是 | 否 |
是否考虑结构多样性 | 弱 | 中 | 中 | 强(聚类策略) |
精度层次 | 单一 | 单一 | 低 | 多层递进 |
可否从任意起点启动 | 是 | 是 | 否 | 是 |
低分子量片段库整合自两个数据源:
筛选条件:
经 Jchem 处理质子化/互变异构态,Corina 生成最多 4 个立体异构体及 5 种环构象后,最终生成约 1200万 个三维构象用于对接。

在片段对接前,首先通过 MDMix(混合有机溶剂分子动力学)模拟识别 BRD4(BD1) 结合口袋中的关键相互作用热点。
具体操作:
结果识别出两个关键热点:
这两个热点随后作为药效团约束嵌入对接步骤。
使用 rDock 进行高通量虚拟筛选(HTVS 模式),关键参数:
直接从36万分子中挑选代表,会导致结果严重集中在少数骨架。研究者采用了基于 Chemical Checker 签名器(CCS) 的聚类策略:
该聚类策略同时最大化了候选集的化学多样性——作者通过图S8验证,聚类代表几乎均匀覆盖了片段库的化学多样性空间。
对 2000 个聚类代表进行 MM/GBSA(Schrödinger Prime)单点计算,仅保留 的化合物,过滤后保留 973 个片段用于下一步。
DUck(Dynamic Undocking) 是由本课题组开发的分子动力学方法,其原理是:通过沿氢键方向施加偏置力,测量破坏关键蛋白-配体相互作用(此处为 Asn140 氢键)所需的功(),以此量化结合态的稳定性。
操作细节:
这五个片段含有彼此不同的核心骨架,为后续扩展提供了结构多样性基础。
利用工具 SpaceMACS(Maximum Common Substructure Search in Combinatorial Make-on-Demand Spaces)对 Enamine REAL Space 进行基于 SMARTS 的子结构搜索:
相比 Synthon 策略,SMARTS 子结构搜索不受合成路线约束,可跨越多个合成模块,检索更广泛的化学邻域。
对搜索结果应用药物化学过滤:
随后生成多种质子化态、互变异构体及立体异构体,最终合并形成约 3500万 个三维构象用于对接。
核心技术创新之一:在对接时将属于母体骨架的原子位置固定(平移/旋转阈值 <0.01 Å),称为束缚对接(Tethered Docking)。
优势:
束缚对接过滤比例:各骨架保留 1%~19% 的化合物(具体取决于骨架的刚性与复杂性),总计剩余约数十万化合物。
对束缚对接结果再次:

最终每个场景送合成的化合物数量如下表:
骨架来源 | 子结构搜索结果 | 成功合成 |
|---|---|---|
虚拟片段骨架(5个) | 42个候选 | 32个(76%) |
晶体片段骨架(3个) | 30个候选 | 24个(80%) |
BRD4 已知药物骨架(3个) | 30个候选 | 29个(97%) |
合计 | 102个 | 85个(83%) |
研究采用了四种正交实验方法,构成严格的递进式验证体系:
差示扫描荧光法(DSF)
表面等离子体共振(SPR)
两种方法结合,共 25 个化合物 在两项初筛中均为阳性,进入定量验证阶段。

代表性 IC₅₀ 数据:
化合物 | 骨架来源 | IC₅₀(HTRF TR-FRET) |
|---|---|---|
67 | 晶体片段 | 低 nM 级别 |
87 | BRD4 药物 | 低 nM 级别 |
94 | 晶体片段 | 27.9 nM |
92 | 晶体片段 | 621.8 nM |
50 | BRD4 药物 | 1129 nM |
24、43 | 多种 | 1~2 位数 μM |

对全部 85 个合成化合物进行晶体筛选(Morpheus 筛选板),最终获得三个化合物的共晶结构:
X 射线数据在 EMBL PETRA III P13 光束线采集,结构用 Phaser/Phenix/Coot 解析并经 PDB-redo 精修,已提交至 PDB(9HT0、9HT1、9HT2)。
研究者将 19 个已验证结合物与以下两个对照集进行比较:
通过 Chemical Checker 签名降维后的 t-SNE 可视化和组内余弦距离分布分析显示:

这一结果对于已高度研发的靶点(如 BRD4)尤其重要:在已有大量专利布局的靶点上,发现化学结构新颖的苗头化合物,对于知识产权策略和后续先导优化均有重要意义。
指标 | 暴力对接(等效规模) | 本文方法 |
|---|---|---|
评估化合物数 | 155 M | 155 M(约占 REAL 库 0.7%) |
所需 CPU 小时 | ~3 × 10⁸ h | ~3 × 10⁴ h |
效率提升 | — | 约 10,000 倍 |
最终合成化合物 | — | 85 个 |
实验命中率 | — | ~22%(19/85) |
值得注意的是,本文的 10,000 倍效率提升是在使用了比暴力对接更精确的方法(MM/GBSA + DUck)的前提下实现的——即在更高准确度的同时,计算成本反而大幅下降。
作者在讨论中坦诚指出了若干局限性与可改进方向:
本文在方法层面的贡献,超越了具体的 BRD4 案例,具有以下普适价值:
对计算化学/CADD 领域:
对药物发现流程:
对知识产权策略:
本文提出的"自下而上"策略,以化学空间的分层结构为切入点,将超大库探索问题分解为「可穷举的小问题 → 定向扩展的大空间」两个子问题,并通过多层精度递进的计算漏斗,在极低的计算代价下实现了高质量苗头发现。
这一策略的意义不仅在于找到了 19 个新颖的 BRD4 结合物,更在于它为药物发现社区提供了一个面向万亿化学空间的可持续探索范式——而这,正是未来十年超大化学库真正发挥价值所亟需的。