AlphaFold3 类方法，离真正的新药设计还有多远？

DrugIntel

发布于 2026-05-14 18:02:07

1310

文献精读 | Nature Structural & Molecular Biology（2026年5月）原文：Škrinjar P, Eberhardt J, Studer G, Tauriello G, Schwede T & Durairaj J. "Evaluating generalization in protein–ligand cofolding methods." Nat Struct Mol Biol (2026). https://doi.org/10.1038/s41594-026-01797-5 机构：瑞士巴塞尔大学 Biozentrum / SIB 瑞士生物信息学研究所 代码链接：github.com/plinder-org/runs-n-poses

导读摘要

AlphaFold3、Boltz-1、Chai-1……近年一批基于深度学习的"全原子共折叠"模型横空出世，从蛋白质序列直接预测蛋白–小分子复合物结构，令药物发现领域为之振奋。然而，这些模型真的能用于新型药物分子吗？本文作者构建了迄今最严格的评测基准 Runs N' Poses（2,600个高质量蛋白质–配体系统），揭示了一个核心缺陷：当前主流共折叠模型的预测准确率与训练集相似度高度正相关，对未见过的新型配体泛化能力严重不足。这一发现对AI辅助药物发现的实际应用具有重要警示意义。

一、研究背景与动机

1.1 蛋白质–配体相互作用预测的核心地位

准确预测蛋白质–配体相互作用（Protein–Ligand Interaction, PLI）是现代药物发现的基石。在基于结构的药物设计（Structure-Based Drug Design, SBDD）中，研究者依赖靶蛋白的三维结构和蛋白–配体界面信息来指导先导化合物的发现与优化，这直接决定了早期药物研发的效率与成本。

传统计算方法（如分子对接）虽已在工业界和学术界广泛应用，但其固有局限——需要已知的受体构象、对诱导契合效应建模不足、打分函数精度有限——始终制约着其实用性。

1.2 深度学习共折叠方法的兴起

AlphaFold2的成功极大推动了蛋白质结构预测领域的发展，并催生了一批旨在联合预测蛋白质结构与配体结合构象的"全原子共折叠"方法：

模型	机构/团队	训练截止日期	架构特点
AlphaFold3	Google DeepMind	2021年9月	扩散模型 + 全原子表示
Chai-1	Chai Discovery	2021年9月	类AF3架构，开源
Protenix	ByteDance AML	2021年9月	AF3复现与改进
Boltz-1	MIT 等	2021年9月	开源，民主化生物分子建模
Boltz-2	MIT 等	2023年6月	新增结合亲和力预测
RoseTTAFold All-Atom	UW Baker Lab	—	不同架构，单模型输出

这些模型从序列出发，直接输出蛋白质–配体复合物的三维坐标，理论上无需预先知道受体结构，极大拓展了应用潜力。然而，评估这类模型的真实性能面临严峻挑战。

1.3 现有评测的根本缺陷

此前评测工作（包括CASP15/16的相关实验、PoseBusters基准等）均面临同一核心问题：测试集与训练集之间存在大量隐性相似性，导致性能评估严重虚高。

具体而言：

• 时间截断（time split）方法不够：仅按发布时间划分不足以保证测试集的新颖性，因为PDB中大多数新发布结构仍与已有结构高度相似
• 序列同源性阈值不充分：常用的40%序列一致性阈值无法过滤同蛋白家族、共享相同折叠和结合口袋的案例
• 配体相似性度量缺失：大多数评测忽略了配体三维构象层面的相似性，而这恰恰是模型记忆的主要载体

二、Runs N' Poses 基准数据集

2.1 数据集构建流程

研究团队基于PLINDER流水线，对2021年9月30日至2025年1月9日间PDB新发布的所有条目进行系统筛选，最终构建包含2,600个蛋白质–配体系统（3,047个proper配体）的高质量基准集。

质量过滤标准（X射线晶体学）：

• 分辨率 ≤ 3.5 Å
• R因子 ≤ 0.40，Rfree ≤ 0.45，且 R − Rfree ≤ 0.05
• 配体及结合口袋所有重原子坐标完整，无替代构象
• 无配体–晶体接触，无原子碰撞

生物学相关性标准：

• 检测到3–50个PLIP相互作用
• 配体6 Å范围内存在5–100个蛋白质残基
• 最大配体分子量200–800 Da
• 排除共价配体、纯辅因子/寡肽/核苷酸/多糖系统

冗余控制： 按80%序列一致性聚类，结合配体CCD代码定义冗余簇，每簇仅保留PLIP互作最多的代表性结构。

2.2 训练集相似度的量化方法

这是本研究最核心的方法学创新。研究团队定义了综合指标 SuCOS–口袋相似度（SuCOS–pocket similarity）：

配体位姿重叠结合口袋覆盖度

• SuCOS（Shape and Color Overlay Score）：综合评估两个配体在三维空间的形状体积重叠和药效团特征（氢键供体/受体、疏水基团、芳香环等）的重叠程度，被证明优于RMSD用于评估片段扩展和对接构象相似性
• pocket_qcov：目标系统中位于配体6 Å范围内的残基中，能与训练系统中对应残基比对上的比例

只有当训练系统同时满足"类似的配体构象"且"类似的结合口袋"时，才被认定为相似，从而有效防止误判。

利用Foldseek对PDB全库进行蛋白结构比对，为每个测试系统找到训练集中SuCOS–口袋相似度最高的对应系统，并据此将测试集划分为8个相似度区间（0–20, 20–30, ..., 80–100）。

2.3 准确性评价指标体系

成功率（Success Rate）定义为同时满足：

• 配体 RMSD < 2 Å（结合位点叠合后的对称校正RMSD）
• LDDT-PLI > 0.8（局部差异距离测试–蛋白–配体相互作用评分，同时考量蛋白和配体精度）

为何双指标并用？ LDDT-PLI > 0.8但RMSD > 2 Å（占1.6% 图4a）的情形通常反映蛋白质多域构象的局部正确但整体错位；RMSD < 2 Å但LDDT-PLI < 0.8（占8.3% 图4a）则表示配体构象正确但蛋白质–配体接触界面错误——两类情形对下游应用均无意义。

此外还计算：LDDT-LP（结合口袋局部精度）、口袋残基回收F1值、PoseBusters物理合理性检验。

三、核心结果与分析

3.1 记忆化：预测准确率与训练集相似度的强相关性

这是全文最核心的结论。 在共同测试子集（2,077个系统，2,311个proper配体）上，四个模型均呈现出极为一致的规律：

AlphaFold3 各相似度区间成功率（LDDT-PLI ≥ 0.8 且 RMSD ≤ 2 Å）：

相似度区间	n（系统数）	AF3成功率	Protenix	Chai-1	Boltz-1
0–20	64	9%	6%	9%	3%
20–30	91	13%	8%	9%	3%
30–40	149	21%	14%	11%	13%
40–50	258	30%	19%	22%	21%
50–60	312	40%	30%	34%	31%
60–70	376	48%	41%	45%	31%
70–80	368	54%	50%	55%	42%
80–100	673	70%	67%	68%	50%

这一梯度规律在以下变量的不同条件下均保持稳健：

• 不同的成功率定义（仅RMSD或仅LDDT-PLI）
• 不同的配体子集（含/不含prevalent配体）
• 不同的蛋白家族（按SuCOS–口袋相似度>50进行图社区聚类后的代表性系统）
• 不同的结合口袋大小、配体数量、蛋白链数量

3.2 蛋白质结构预测不是瓶颈

一个重要的辨析：结合口袋定位并非问题所在。

• 口袋残基回收F1值：大多数预测的结合口袋位置准确，甚至在低相似度区间（0–20）的平均F1值也在0.6以上
• LDDT-LP：90%以上的预测模型LDDT-LP > 0.8，四个模型在各相似度区间均表现出较好的蛋白质局部结构精度（AF3: 92%, Protenix: 91%, Chai-1: 90%, Boltz-1: 91%）
• 从第三个相似度区间（30–40）开始，平均蛋白质序列一致性已超60%、口袋覆盖度超80%

因此，观察到的泛化失败不是"遇到了陌生蛋白质"，而是模型无法在熟悉的口袋中预测未见过的配体结合构象。 这指向模型对配体表示的根本性局限，而非蛋白质建模能力。

3.3 常见配体与稀少配体的分化

研究引入了"prevalent配体"的概念：对测试集中每个配体，统计训练集中与之Tanimoto拓扑指纹相似度 > 0.9的类似物出现次数。将出现超过100次的配体定义为prevalent。

Prevalent配体（辅因子、氨基酸类似物、核苷酸类似物等）在低相似度区间的成功率显著高于distinct配体。 去除这些配体后，成功率与相似度之间呈现更接近线性的关系，低相似度区间的"意外成功"几乎消失。

这一结果揭示：数据稀缺是记忆化的主要驱动因素。 对于药物发现中真正感兴趣的新型类药分子，由于其结构在PDB中极少出现，模型无法积累足够的训练信号来学习其结合规律。

3.4 现有相似度评价指标的系统性缺陷

研究通过与传统相似度指标的对比，清晰展示了SuCOS–口袋相似度的必要性：

案例一（图4c）： 一个测试系统（PDB: 7MGJ）与其最相似训练系统（PDB: 3WZE）的蛋白质序列一致性仅26%（远低于40%阈值），但SuCOS–口袋相似度高达83.5——两者配体在几乎相同的口袋中以几乎相同的构象结合。

案例二（图4d）： 另一对系统（测试: 8CDZ，训练: 6I0J）的Morgan指纹相似度仅29%（远低于85%阈值），但SuCOS–口袋相似度为82.3，配体依然以高度相似的方式结合于相似口袋。

结论：

• 40%序列一致性阈值遗漏大量同家族蛋白共享结合模式的案例
• 85% Morgan指纹相似度阈值（AlphaFold3验证集所用）遗漏大量以相似构象结合的配体
• 只有同时考量配体三维构象和蛋白质口袋的综合相似度，才能真实评估数据泄露风险

更值得警惕的是：PoseBusters基准集中87%的复合物与训练集的SuCOS–口袋相似度 > 50，这解释了各模型在此基准上取得高分的根本原因。

3.5 采样与排名双重瓶颈

研究通过分析每个系统25个预测模型（5个种子×5次扩散采样），将构象采样能力与排名能力解耦：

关键观察：

1. 最优模型（best-scored）vs 最高排名模型（top-ranked）：存在显著差距，说明模型确实能采样到更好的构象，但无法有效识别它
2. 最高排名 vs 随机选择：差距极小，置信度评分的排名能力几乎等同于随机
3. 多种子的边际收益：使用5个种子（vs 1个种子）确实能采样到更好的构象，但排名策略无法利用这一优势——选出的模型质量几乎不变

iPTM置信度评分分析： 各方法最优阈值差异显著（Protenix: 0.99，Chai-1: 0.75，AF3: 0.92，Boltz-1: 0.95），不可跨模型通用。Boltz-1在iPTM分类准确率上明显优于其他方法（70–90% vs 其余低于75%），得益于其对置信度模型的专门优化。

采样仍是主瓶颈： 即使选取最优模型，低相似度区间的成功率提升也十分有限——对于训练集中未见过的配体构象，模型根本无法生成正确的采样候选。

3.6 Boltz-2：更多数据≠更好泛化

Boltz-2训练截止日期为2023年6月，比其他模型多使用了约两年的PDB数据（额外超过25,000条PDB条目）。

结果令人警醒： 在以2023年6月为截止日期筛选的测试子集上，Boltz-2与Boltz-1在各相似度区间的成功率几乎没有区别。更多数据仅仅增加了高相似度区间的案例数量，并未带来在低相似度区间的泛化改进。

这与蛋白质结构预测形成鲜明对比——AlphaFold2能从数十亿蛋白质序列的共进化信号中学到近似的能量景观，从而实现对孤儿蛋白的泛化。当前共折叠方法没有利用任何类似的非结构性外部数据来编码配体相互作用。

四、物理方法基线的启示

4.1 五种基线设计

研究针对单蛋白-单配体-distinct配体子集（727个系统），设计了五种基线以多角度解析性能构成：

基线	受体来源	口袋来源	对接方法	理想化假设	目的
Redocking	晶体结构（GT）	GT配体	GLIDE-SP	已有同蛋白-配体共晶结构	物理评分函数基准
AF3-dock	AF3共折叠受体	AF3预测配体	GLIDE-SP	无	评估AF3口袋预测能力
AF3-dock-ideal	AF3共折叠受体	GT配体位置	GLIDE-SP	知道口袋位置和大小	评估AF3口袋构象精度
HM-dock-ideal	同源建模受体	GT配体位置	GLIDE-SP	好的模板选择，知道口袋	检验训练数据中是否存在好的口袋构象
HM-transplant	同源建模受体	模板配体MCS约束	AutoDock Vina局部优化	好的模板选择	简单模板迁移的极限

4.2 关键发现

Redocking结果表明：数据集中低相似度区间的复合物从物理角度并无特殊困难——当提供正确受体构象和口袋时，经典评分函数表现与高相似度区间相当。

AF3-dock vs AF3-dock-ideal：后者（使用GT口袋位置）在低相似度区间的表现提升，说明口袋位置预测确实是一个误差来源；但即便给定正确口袋位置，在高相似度区间AF3-dock-ideal仍不及直接使用AF3共折叠结果，主要原因是刚性对接无法处理AF3预测口袋中的构象不准确性。

HM-transplant的惊人表现：这个极度简单的策略（同源建模+模板配体MCS约束对齐）在高相似度区间的RMSD成功率接近AlphaFold3。这强有力地表明：当前共折叠模型在高相似度区间的成功，很大程度上等价于一种精细化的训练数据迁移，而非基于物理规律的从头预测。

五、讨论：问题的根源与出路

5.1 为什么现有架构会产生记忆化？

研究团队提出，记忆化来自多重因素的叠加：

1. 化学空间的数据稀缺：化学空间极其庞大，而PDB中的类药分子实验结构极为有限。不同于蛋白质领域有数十亿序列可供学习共进化规律，配体领域缺乏等价的大规模数据来源
2. PDB结构的固有偏差：已解析的结构主要来自高度可结晶、研究热度高的蛋白质家族（激酶、蛋白酶等），化学多样性先天不足
3. 缺乏物理约束：当前模型不依赖物理/化学先验（如分子力场、量子化学描述符），主要依赖统计模式学习，在分布外（OOD）情形下缺乏外推能力
4. 传统相似度指标的纵容：不充分的数据泄露检测掩盖了问题，使模型开发者误以为已经实现了足够的泛化

5.2 可能的改进路径

数据层面：

• 交叉对接数据增强（Cross-docking）：将已知配体与其他同源蛋白口袋配对，人工扩充蛋白–配体组合
• 利用电子密度原始数据：直接从衍射数据中学习，绕过坐标提炼的潜在误差
• 小分子单独数据：引入CSD（剑桥结构数据库）中海量的单纯小分子晶体结构
• 工业私有数据：制药公司持有大量未公开的PLI数据、结合亲和力数据和阴性数据；联邦学习框架（如MELLODDY项目）或大规模靶向实验结构解析计划（如OpenBind联盟）是重要的潜在解决路径

模型层面：

• 引入物理先验：将分子力学势函数、量子化学特征或物理约束项融入模型训练或推理（Boltz-1x的推理时扩散引导是初步尝试，但未改善泛化性）
• 构象采样改进：提升对新型配体构象的采样多样性，而非依赖统计偏好
• 置信度模型改进：开发能真正区分准确/不准确预测的置信度估计，iPTM评分的排名能力不足是亟待解决的实际问题

评测层面：

• 推广SuCOS–口袋相似度作为数据泄露检测标准
• 针对不同应用场景（铅化合物优化、骨架跃迁、全新靶点）设计专属基准
• 建立动态持续更新的评测平台（类似CAMEO）

5.3 对实际应用的建议

基于本研究的结果，给出以下实用建议：

场景	训练集相似度	可信度	建议
已知系列的类似物优化	> 70	较高	可作为参考，但需注意手性、取代基变化
同靶点不同骨架	50–70	中等	结合物理对接验证
全新靶点或全新骨架	< 50	较低	谨慎使用，建议以实验结构为准