

文献精读 | Nature Structural & Molecular Biology(2026年5月) 原文:Škrinjar P, Eberhardt J, Studer G, Tauriello G, Schwede T & Durairaj J. "Evaluating generalization in protein–ligand cofolding methods." Nat Struct Mol Biol (2026). https://doi.org/10.1038/s41594-026-01797-5 机构:瑞士巴塞尔大学 Biozentrum / SIB 瑞士生物信息学研究所 代码链接:github.com/plinder-org/runs-n-poses
AlphaFold3、Boltz-1、Chai-1……近年一批基于深度学习的"全原子共折叠"模型横空出世,从蛋白质序列直接预测蛋白–小分子复合物结构,令药物发现领域为之振奋。然而,这些模型真的能用于新型药物分子吗?本文作者构建了迄今最严格的评测基准 Runs N' Poses(2,600个高质量蛋白质–配体系统),揭示了一个核心缺陷:当前主流共折叠模型的预测准确率与训练集相似度高度正相关,对未见过的新型配体泛化能力严重不足。这一发现对AI辅助药物发现的实际应用具有重要警示意义。
准确预测蛋白质–配体相互作用(Protein–Ligand Interaction, PLI)是现代药物发现的基石。在基于结构的药物设计(Structure-Based Drug Design, SBDD)中,研究者依赖靶蛋白的三维结构和蛋白–配体界面信息来指导先导化合物的发现与优化,这直接决定了早期药物研发的效率与成本。
传统计算方法(如分子对接)虽已在工业界和学术界广泛应用,但其固有局限——需要已知的受体构象、对诱导契合效应建模不足、打分函数精度有限——始终制约着其实用性。
AlphaFold2的成功极大推动了蛋白质结构预测领域的发展,并催生了一批旨在联合预测蛋白质结构与配体结合构象的"全原子共折叠"方法:
模型 | 机构/团队 | 训练截止日期 | 架构特点 |
|---|---|---|---|
AlphaFold3 | Google DeepMind | 2021年9月 | 扩散模型 + 全原子表示 |
Chai-1 | Chai Discovery | 2021年9月 | 类AF3架构,开源 |
Protenix | ByteDance AML | 2021年9月 | AF3复现与改进 |
Boltz-1 | MIT 等 | 2021年9月 | 开源,民主化生物分子建模 |
Boltz-2 | MIT 等 | 2023年6月 | 新增结合亲和力预测 |
RoseTTAFold All-Atom | UW Baker Lab | — | 不同架构,单模型输出 |
这些模型从序列出发,直接输出蛋白质–配体复合物的三维坐标,理论上无需预先知道受体结构,极大拓展了应用潜力。然而,评估这类模型的真实性能面临严峻挑战。
此前评测工作(包括CASP15/16的相关实验、PoseBusters基准等)均面临同一核心问题:测试集与训练集之间存在大量隐性相似性,导致性能评估严重虚高。
具体而言:
研究团队基于PLINDER流水线,对2021年9月30日至2025年1月9日间PDB新发布的所有条目进行系统筛选,最终构建包含2,600个蛋白质–配体系统(3,047个proper配体)的高质量基准集。
质量过滤标准(X射线晶体学):
生物学相关性标准:
冗余控制: 按80%序列一致性聚类,结合配体CCD代码定义冗余簇,每簇仅保留PLIP互作最多的代表性结构。
这是本研究最核心的方法学创新。研究团队定义了综合指标 SuCOS–口袋相似度(SuCOS–pocket similarity):
配体位姿重叠结合口袋覆盖度
只有当训练系统同时满足"类似的配体构象"且"类似的结合口袋"时,才被认定为相似,从而有效防止误判。
利用Foldseek对PDB全库进行蛋白结构比对,为每个测试系统找到训练集中SuCOS–口袋相似度最高的对应系统,并据此将测试集划分为8个相似度区间(0–20, 20–30, ..., 80–100)。
成功率(Success Rate)定义为同时满足:
为何双指标并用? LDDT-PLI > 0.8但RMSD > 2 Å(占1.6% 图4a)的情形通常反映蛋白质多域构象的局部正确但整体错位;RMSD < 2 Å但LDDT-PLI < 0.8(占8.3% 图4a)则表示配体构象正确但蛋白质–配体接触界面错误——两类情形对下游应用均无意义。
此外还计算:LDDT-LP(结合口袋局部精度)、口袋残基回收F1值、PoseBusters物理合理性检验。

这是全文最核心的结论。 在共同测试子集(2,077个系统,2,311个proper配体)上,四个模型均呈现出极为一致的规律:
AlphaFold3 各相似度区间成功率(LDDT-PLI ≥ 0.8 且 RMSD ≤ 2 Å):
相似度区间 | n(系统数) | AF3成功率 | Protenix | Chai-1 | Boltz-1 |
|---|---|---|---|---|---|
0–20 | 64 | 9% | 6% | 9% | 3% |
20–30 | 91 | 13% | 8% | 9% | 3% |
30–40 | 149 | 21% | 14% | 11% | 13% |
40–50 | 258 | 30% | 19% | 22% | 21% |
50–60 | 312 | 40% | 30% | 34% | 31% |
60–70 | 376 | 48% | 41% | 45% | 31% |
70–80 | 368 | 54% | 50% | 55% | 42% |
80–100 | 673 | 70% | 67% | 68% | 50% |

这一梯度规律在以下变量的不同条件下均保持稳健:
一个重要的辨析:结合口袋定位并非问题所在。
因此,观察到的泛化失败不是"遇到了陌生蛋白质",而是模型无法在熟悉的口袋中预测未见过的配体结合构象。 这指向模型对配体表示的根本性局限,而非蛋白质建模能力。
研究引入了"prevalent配体"的概念:对测试集中每个配体,统计训练集中与之Tanimoto拓扑指纹相似度 > 0.9的类似物出现次数。将出现超过100次的配体定义为prevalent。
Prevalent配体(辅因子、氨基酸类似物、核苷酸类似物等)在低相似度区间的成功率显著高于distinct配体。 去除这些配体后,成功率与相似度之间呈现更接近线性的关系,低相似度区间的"意外成功"几乎消失。

这一结果揭示:数据稀缺是记忆化的主要驱动因素。 对于药物发现中真正感兴趣的新型类药分子,由于其结构在PDB中极少出现,模型无法积累足够的训练信号来学习其结合规律。
研究通过与传统相似度指标的对比,清晰展示了SuCOS–口袋相似度的必要性:

案例一(图4c): 一个测试系统(PDB: 7MGJ)与其最相似训练系统(PDB: 3WZE)的蛋白质序列一致性仅26%(远低于40%阈值),但SuCOS–口袋相似度高达83.5——两者配体在几乎相同的口袋中以几乎相同的构象结合。
案例二(图4d): 另一对系统(测试: 8CDZ,训练: 6I0J)的Morgan指纹相似度仅29%(远低于85%阈值),但SuCOS–口袋相似度为82.3,配体依然以高度相似的方式结合于相似口袋。
结论:
更值得警惕的是:PoseBusters基准集中87%的复合物与训练集的SuCOS–口袋相似度 > 50,这解释了各模型在此基准上取得高分的根本原因。

研究通过分析每个系统25个预测模型(5个种子×5次扩散采样),将构象采样能力与排名能力解耦:
关键观察:

iPTM置信度评分分析: 各方法最优阈值差异显著(Protenix: 0.99,Chai-1: 0.75,AF3: 0.92,Boltz-1: 0.95),不可跨模型通用。Boltz-1在iPTM分类准确率上明显优于其他方法(70–90% vs 其余低于75%),得益于其对置信度模型的专门优化。
采样仍是主瓶颈: 即使选取最优模型,低相似度区间的成功率提升也十分有限——对于训练集中未见过的配体构象,模型根本无法生成正确的采样候选。
Boltz-2训练截止日期为2023年6月,比其他模型多使用了约两年的PDB数据(额外超过25,000条PDB条目)。
结果令人警醒: 在以2023年6月为截止日期筛选的测试子集上,Boltz-2与Boltz-1在各相似度区间的成功率几乎没有区别。更多数据仅仅增加了高相似度区间的案例数量,并未带来在低相似度区间的泛化改进。

这与蛋白质结构预测形成鲜明对比——AlphaFold2能从数十亿蛋白质序列的共进化信号中学到近似的能量景观,从而实现对孤儿蛋白的泛化。当前共折叠方法没有利用任何类似的非结构性外部数据来编码配体相互作用。
研究针对单蛋白-单配体-distinct配体子集(727个系统),设计了五种基线以多角度解析性能构成:
基线 | 受体来源 | 口袋来源 | 对接方法 | 理想化假设 | 目的 |
|---|---|---|---|---|---|
Redocking | 晶体结构(GT) | GT配体 | GLIDE-SP | 已有同蛋白-配体共晶结构 | 物理评分函数基准 |
AF3-dock | AF3共折叠受体 | AF3预测配体 | GLIDE-SP | 无 | 评估AF3口袋预测能力 |
AF3-dock-ideal | AF3共折叠受体 | GT配体位置 | GLIDE-SP | 知道口袋位置和大小 | 评估AF3口袋构象精度 |
HM-dock-ideal | 同源建模受体 | GT配体位置 | GLIDE-SP | 好的模板选择,知道口袋 | 检验训练数据中是否存在好的口袋构象 |
HM-transplant | 同源建模受体 | 模板配体MCS约束 | AutoDock Vina局部优化 | 好的模板选择 | 简单模板迁移的极限 |

Redocking结果表明:数据集中低相似度区间的复合物从物理角度并无特殊困难——当提供正确受体构象和口袋时,经典评分函数表现与高相似度区间相当。

AF3-dock vs AF3-dock-ideal:后者(使用GT口袋位置)在低相似度区间的表现提升,说明口袋位置预测确实是一个误差来源;但即便给定正确口袋位置,在高相似度区间AF3-dock-ideal仍不及直接使用AF3共折叠结果,主要原因是刚性对接无法处理AF3预测口袋中的构象不准确性。

HM-transplant的惊人表现:这个极度简单的策略(同源建模+模板配体MCS约束对齐)在高相似度区间的RMSD成功率接近AlphaFold3。这强有力地表明:当前共折叠模型在高相似度区间的成功,很大程度上等价于一种精细化的训练数据迁移,而非基于物理规律的从头预测。
研究团队提出,记忆化来自多重因素的叠加:
数据层面:
模型层面:
评测层面:
基于本研究的结果,给出以下实用建议:
场景 | 训练集相似度 | 可信度 | 建议 |
|---|---|---|---|
已知系列的类似物优化 | > 70 | 较高 | 可作为参考,但需注意手性、取代基变化 |
同靶点不同骨架 | 50–70 | 中等 | 结合物理对接验证 |
全新靶点或全新骨架 | < 50 | 较低 | 谨慎使用,建议以实验结构为准 |
特别值得注意的是:即使在高相似度区间,小的配体化学变化(如单个手性中心、关键取代基)也可能导致模型给出错误但高置信度的预测——CASP16中并发的研究也发现,结合口袋的突变(理论上应破坏结合)被模型忽略。
本研究的核心贡献在于以无可辩驳的系统性证据,揭示了当前深度学习共折叠方法的根本局限:这些模型在很大程度上是在记忆训练数据中的配体构象,而非真正学会了支配蛋白质–配体相互作用的物理与化学规律。这一缺陷独立于所用评价指标、配体子集和蛋白质家族,具有普遍性。
这并非对AI辅助药物发现的全面否定,而是一次清醒的重新校准。正如AlphaFold2曾被认为不可能完成的任务最终实现了突破,共折叠领域同样孕育着巨大的进步空间——但前提是,研究社区需要:
对于当下的实践者而言,最务实的建议或许是:在相似系统已有PDB记录的场景下,共折叠工具是有价值的参考;在全新分子或全新靶点的场景下,它们目前尚不足以替代实验验证。