首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >药物发现中的结构与动力学:从计算机辅助到计算机驱动的范式演进

药物发现中的结构与动力学:从计算机辅助到计算机驱动的范式演进

作者头像
DrugIntel
发布2026-05-26 19:53:18
发布2026-05-26 19:53:18
20
举报

文献来源:Wei, H. & McCammon, J. A. Structure and dynamics in drug discovery. npj Drug Discovery 1, 1 (2024). DOI:10.1038/s44386-024-00001-2 发表期刊npj Drug Discovery 作者单位:加州大学圣地亚哥分校(UCSD)化学与生物化学系、药理学系


一、背景与意义:为什么这篇综述值得精读

新药研发是人类科技活动中最昂贵、周期最长的工程之一。据统计,一款新药从靶点确认到最终上市,平均需要 10–14 年、耗资逾 10 亿美元。而计算机辅助药物发现(Computer-Aided Drug Discovery, CADD)的引入,被估算可将上述成本压缩至多 50%

本文由计算生物物理学的奠基人之一、美国国家科学院院士 J. Andrew McCammon(UCSD)与其合作者 Haixin Wei 联合撰写。McCammon 课题组是分子动力学(MD)模拟应用于生物大分子的先驱,其工作直接催生了多个 FDA 批准药物。这使得本综述不仅是一篇文献梳理,更是一份由亲历者书写的领域备忘录。

文章发表于 npj Drug Discovery 创刊号(2024 年 11 月),系统回顾了 SBDD(基于结构的药物设计)从早期 X 射线晶体学应用,到分子动力学模拟,再到当前机器学习浪潮的完整演进路径,并展望了"计算机驱动药物发现"的未来图景。


二、核心框架:CADD 的两大技术路线

文章开篇厘清了 CADD 的基本分类:

方法类别

英文全称

适用前提

核心逻辑

SBDD

Structure-Based Drug Design

靶点三维结构已知

基于靶点结构进行分子对接与构象分析

LBDD

Ligand-Based Drug Design

靶点结构未知

利用已知活性配体的结构-活性关系推断

近年来,随着 cryo-EM、串行飞秒晶体学(SFX)和 AlphaFold 等技术的突破,可用靶点结构的数量发生了量级跃升,使 SBDD 的适用范围大幅扩展,并成为当前药物发现的主流驱动力。

三、第一部分:基于结构的药物发现(SBDD)

3.1 可用结构的爆炸式增长

实验结构方面,结构生物学技术的进步推动了 PDB(蛋白质数据库)条目的持续扩充:

  • • 晶体学自动化(automation in crystallography)显著提高了数据收集效率;
  • • 微晶体学(microcrystallography)与串行飞秒晶体学突破了对大晶体的依赖;
  • cryo-EM 技术的成熟使膜蛋白(如 GPCR、离子通道)结构的解析成为常规,而这类蛋白介导了超过半数已上市药物的作用机制。

预测结构方面,AlphaFold 的横空出世是近年最具颠覆性的进展:

  • • 截至该文成稿,AlphaFold 蛋白质结构数据库已发布超过 2.14 亿条蛋白结构,几乎覆盖 UniProt 全库;
  • • 相比之下,PDB 中约有 20 万条实验结构,对应约 6 万个不重复蛋白序列;
  • • AlphaFold 条目可覆盖蛋白序列全长,弥补了 PDB 条目片段化的不足;
  • • 对于此前无实验结构可用的靶点,AlphaFold 模型为 SBDD 提供了前所未有的入口

3.2 分子对接与虚拟筛选

获得靶点结构后,下一步是将化合物库"对接"至靶点,预测结合构象并打分排序。文章总结了这一领域的关键进展与挑战:

筛选效率

  • • 典型虚拟筛选的实验验证命中率约为 10%–40%
  • • 部分命中化合物对不同类型靶点展现出 0.1–10 μM 的有效活性范围;
  • • GPU 计算与云计算资源的普及,使针对数十亿量级化合物的超大规模虚拟筛选(ultra-large virtual screening)成为现实。

打分函数的挑战

  • • 在十亿化合物库中,即使百万分之一的假阳性率也会产生数千个假命中,严重干扰后续决策;
  • • 改进打分函数的准确性与选择性是当前的核心难题之一。

3.3 化学空间的可及性扩展

文章专门讨论了化合物库的规模化趋势:

  • Enamine REAL 数据库(2017 年建立)是第一个商业化按需合成虚拟库,采用精选积木块与优化并行合成方案,现已从 2017 年的约 1.7 亿化合物扩充至 2024 年的超过 67 亿化合物;
  • • 美国 NIH 开发的 SAVI(Synthetically Accessible Virtual Inventory)是另一个代表性超大虚拟库;
  • • 大型库在增加命中概率的同时,也提供了更丰富的结构多样性,有助于建立有意义的构效关系(SAR)并提高专利价值。

四、第二部分:基于动力学的药物发现

4.1 分子动力学(MD)模拟的引入:松弛复合物方法

SBDD 的根本局限在于:蛋白质在溶液中并非静止不动的刚体,而是处于持续的构象涨落之中。传统对接软件通常将受体固定,仅允许配体柔性,这导致两大严重问题:

  1. 1. 靶点柔性被忽视:活性位点的形状和电荷分布随构象变化而改变,影响结合预测的准确性;
  2. 2. 隐蔽口袋无法发现:cryptic pockets 在基态结构中不可见,只有在特定构象下才会暴露,而这类口袋往往与变构调控相关,具有重要的药物化学价值。

McCammon 课题组提出的**松弛复合物方法(Relaxed Complex Method, RCM)**直接应对这一挑战:

  • • 从 MD 模拟中提取代表性构象集合(包括隐蔽口袋构象);
  • • 对每个构象分别进行分子对接;
  • • 通过集成对接结果,综合评估候选分子的结合能力。

标志性案例——HIV 整合酶抑制剂雷特格韦(Raltegravir)的发现

  1. 1. Davies 课题组解析了 HIV-1 整合酶核心域的 X 射线晶体结构;
  2. 2. McCammon 课题组基于此开展 MD 模拟,发现活性位点具有显著柔性;
  3. 3. 松弛复合物方法揭示了晶体结构中未见的"沟槽"结合位点,且抑制剂可以约 180° 旋转的两种姿态结合于此;
  4. 4. Merck 研究人员注意到这一"双姿态"结合概念,进而开发出第一个 FDA 批准的 HIV 整合酶抑制剂——雷特格韦,于 2007 年获批上市。

这一案例是计算方法直接推动新药上市的经典范例。

4.2 增强采样方法

MD 模拟的经典痛点在于时间尺度问题:积分步长被限制在数飞秒(fs),导致模拟难以穿越较高的能垒,无法有效探索蛋白质能量景观的宏观结构。多种增强采样策略被发展出来,文章将其分为两大类:

第一类:基于集体变量(Collective Variables, CVs)的方法

方法

核心原理

优势

局限

伞形采样(Umbrella Sampling)

沿 CV 施加约束势,获取自由能曲线

精确计算 PMF

需预先知道反应坐标

元动力学(Metadynamics)

在已访问构象处持续填充高斯势,促进逃离

自适应探索自由能面

CV 选择影响结果

加权系综方法(Weighted Ensemble)

按统计权重在相空间内复制/终止轨迹

适合稀有事件采样

对定义明确的端态最有效

第二类:不依赖集体变量的方法

方法

核心原理

副本交换 MD(Replica Exchange MD)

多个不同温度的副本间定期交换,促进翻越能垒

混合蒙特卡洛–MD(MC-MD)

结合 MC 的全局探索与 MD 的局部动力学

加速 MD(aMD)

在势能低谷区施加非负 boost 势,平滑能量面

高斯加速 MD(GaMD)

boost 势服从高斯分布,支持精确重权重(reweighting)

加速 MD 的应用优势

  • • 无需预定义集体变量,适用范围广;
  • • 可直接重权重得到热力学量(自由能、构象占比等);
  • • GaMD 已被集成至 NAMD 等主流 MD 软件包。

代表性应用

  • M2 毒蕈碱型乙酰胆碱受体(mAChR):通过加速 MD 结合迭代对接,成功发现了化学多样性前所未有的正/负变构调节剂,并在体内验证了靶标选择性;
  • 结核分枝杆菌细胞色素 bd 氧化酶:通过 GaMD 发现了全新骨架的抑制剂,为耐药结核治疗提供了新思路。

4.3 自由能计算

MD 模拟的另一重要贡献是允许计算结合自由能(Binding Free Energy)——这是对分子对接打分函数的根本性超越:

理论基础

  • • 自由能反映系统所有允许构象的统计平均,其组分(焓变 ΔH 与熵变 TΔS)捕捉了配体–受体结合的全部物理化学本质;
  • • 标准结合自由能的计算框架于 1988 年首次被 Jorgensen 等人演示,1997 年由 Gilson & McCammon 建立完整的统计热力学基础。

自由能微扰(Free Energy Perturbation, FEP)

  • • 通过"计算炼金术"(computational alchemy),在热力学循环中计算一对分子的相对结合自由能差
  • • 近年 GPU 的普及使 FEP 的速度与精度大幅提升,已能满足先导优化阶段的实用要求;
  • • FEP 可帮助药物化学家在合成前预判构效关系,减少无效合成。

工业界大规模实践

机构

规模与结果

Merck KGaA(2016–)

12 个靶点、23 个化学系列,逾 35,000 次 FEP 计算,新识别 400+ 高亲和力分子

Bayer

用计算赋能工作流发现 KRAS G12C 共价变构结合剂

GPCR 研究(A2B 腺苷受体)

对数百万化合物枚举库进行 FEP 筛选

诺如病毒 RdRp 研究

对 121 个虚拟核苷类似物进行 FEP 打分,鉴定出 2 个有体外活性的新分子


五、第三部分:机器学习的融合

5.1 AlphaFold 系列

AlphaFold 对药物发现的冲击是多层次的:

AlphaFold 2(2021 年发布):

  • • 蛋白质结构预测精度首次达到实验级别;
  • • 2.14 亿条 UniProt 蛋白结构预测的发布,为此前"无结构可用"的靶点开辟了 SBDD 入口;
  • • 已有研究表明,AlphaFold 2 模型对不同构象的建模具备初步能力,但与实验结构相比,在对接结果上仍存在差异(Lyu et al. 2024)。

AlphaFold 3(2024 年发布):

  • • 能够预测蛋白质、核酸、小分子、离子及修饰残基的复合物联合结构
  • • 在 PoseBusters 基准集(428 个蛋白–配体结构)上,pocket 对齐后配体 RMSD < 2 Å 的比例在高置信度组超过 90%,优于经典对接工具(AutoDock Vina)及 RoseTTAFold All-Atom;
  • • 为"靶点–已知结合物"复合结构的预测提供了新起点,优于单体 apo 结构用于 SBDD。

当前局限

  • • AlphaFold 在预测隐蔽口袋方面仍受限于训练数据;
  • • 一种可能的解决路径:用增强采样 MD 生成多样化构象作为训练数据,训练 ML 模型生成更多样的靶点结构。

5.2 机器学习打分函数

发展现状

  • • 基于 PDBbind 数据库,研究者尝试用图卷积网络(GCN)、3D 卷积神经网络(3D-CNN)及其组合训练结合亲和力预测模型;
  • • 当前主要挑战是过训练(overtraining),原因在于 PDBbind 缺乏足够的负样本(非最优结合界面的配体)。

物理模型与 ML 模型的互补策略

  • • 两类打分函数强调不同的配体–受体相互作用,联合使用可降低假阳性率;
  • • 最优实践:ML 模型初筛 → FEP 精算候选集;
  • • 3DR Grand Challenge 4 的结果证明,物理+ML 组合打分在配体 IC50 预测中排名最优。

5.3 QSAR 与 QSPR 模型

QSPR(定量结构–性质关系)

  • • 针对溶解度、亲脂性、口服生物利用度、脑渗透性等 ADMET 性质建立预测模型;
  • • 已有大型公开数据集支撑,可对全新化合物进行广谱预测。

QSAR(定量结构–活性关系)

  • • 针对特定靶点预测活性,数据依赖性强;
  • • 激酶超家族(>500 个结构)与氨基能 GPCR 是数据最丰富的领域,IDG-DREAM 挑战赛中最优模型预测 pKd 的 RMSE 约为 0.95
  • • 对数据稀疏的靶标家族,QSAR 模型的泛化能力仍不明朗。

六、未来展望:迈向"计算机驱动"的药物发现

文章以 Fig. 4 的范式图为核心,展示了下一代药物发现管线的整体逻辑:

代码语言:javascript
复制
靶点结构来源:
  ├── AI 结构预测(AlphaFold 等)
  └── MD + 增强采样(构象集合)
          │
          ▼
初始筛选阶段:
  ├── 物理/AI 混合对接(超大规模虚拟筛选)
  └── AI QSAR 预筛
          │
          ▼
命中到先导阶段:
  ├── 自由能微扰计算(FEP)
  └── AI QSAR 精排
          │
          ▼
先导优化阶段:
  └── AI QSPR(多参数优化:溶解度/渗透性/PK)
          │
          ▼
候选药物

趋势总结

维度

现状(CADD)

未来(计算机驱动)

靶点结构

实验结构为主,覆盖有限

AI 预测+实验互补,近全覆盖

初始筛选

百万级化合物,依赖人工判断

数十亿化合物,AI 全自动排序

亲和力预测

对接打分,精度有限

FEP 计算,达到实验级精度

ADMET 预测

少数性质,事后评估

多参数同步优化,贯穿全程

隐蔽靶点

几乎无能为力

增强采样+ML 联合发现

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景与意义:为什么这篇综述值得精读
  • 二、核心框架:CADD 的两大技术路线
  • 三、第一部分:基于结构的药物发现(SBDD)
    • 3.1 可用结构的爆炸式增长
    • 3.2 分子对接与虚拟筛选
    • 3.3 化学空间的可及性扩展
  • 四、第二部分:基于动力学的药物发现
    • 4.1 分子动力学(MD)模拟的引入:松弛复合物方法
    • 4.2 增强采样方法
    • 4.3 自由能计算
  • 五、第三部分:机器学习的融合
    • 5.1 AlphaFold 系列
    • 5.2 机器学习打分函数
    • 5.3 QSAR 与 QSPR 模型
  • 六、未来展望:迈向"计算机驱动"的药物发现
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档