

原文:Dunbrack RL Jr. Rēs ipSAE loquuntur: What's wrong with AlphaFold's ipTM score and how to fix it. bioRxiv 2025.02.10.637595; Version 2, December 15, 2025. DOI:https://doi.org/10.1101/2025.02.10.637595 代码:https://github.com/dunbracklab/IPSAE
AlphaFold-Multimer(AF2.3,2022 年 12 月发布)是当前蛋白质-蛋白质相互作用(PPI)结构预测的主流工具,被广泛用于判断两条蛋白链是否真实存在相互作用,以及其互作界面的结构精度。AlphaFold3(AF3)于 2024 年发布,将预测范围扩展至蛋白质-核酸及含修饰残基的复合物体系。
模型输出的关键置信度指标包括:
指标 | 含义 | 适用范围 |
|---|---|---|
pLDDT | 残基级局部结构置信度(0–100) | 单链折叠质量 |
PAE | 残基对之间的预测对齐误差(Å) | 结构域间相对位置 |
pTM | 基于 PAE 的预测模板建模得分 | 整体结构相似性 |
ipTM | 跨链界面预测模板建模得分(0–1) | 蛋白质相互作用置信度 |
其中 ipTM 是判断两条链是否相互作用最常用的单一数值,AF2 官方推荐的综合排名函数为 0.8 × ipTM + 0.2 × pTM。
多个研究团队独立报告了 ipTM 在实际应用中的一个系统性问题:对相同的互作界面,输入不同长度的序列构建体(construct),ipTM 得分会发生显著变化,有时差异高达 0.3 以上,即使界面的原子坐标和接触残基完全相同。
具体表现为两种对立的偏差方向:
现象一:ipTM 虚高(假阳性风险)
当仅有一条链被添加了大量无序区域或辅助结构域时,ipTM 可能虚假升高。这给基于 ipTM 筛选相互作用的高通量流程带来假阳性风险。
现象二:ipTM 虚低(假阴性风险)
当两条链均含有大量不参与互作的无序区域或辅助结构域时,ipTM 可能被严重压低,导致真实互作被漏判。这是使用全长 UniProt 序列进行预测时最常见的问题。
典型报道包括:
TM 评分由 Zhang 和 Skolnick(2004)开发,用于评估预测结构与实验结构的相似性:
其中 是残基 的预测坐标与实验坐标之间的距离, 是随序列长度变化的归一化参数:
的作用是消除 TM 评分对序列长度的依赖性——对于长蛋白,允许更大的平均偏差仍能得到合理的 TM 分值。当 时, Å;当 时, Å。

AlphaFold 用"预测对齐误差"(PAE)代替实验距离,将 TM 评分框架应用于置信度预测。PAE 代表:在将残基 的局部坐标系对齐后,残基 的预测位置与真实位置之间的期望误差(Å)。

AF 内部实际使用的是基于 64 个误差区间的概率分布期望值:
其中 为各区间中心值(0.25 Å, 0.75 Å, …, 31.75 Å)。
对于两条链 A 和 B 的相互作用,非对称 ipTM 定义为:
AlphaFold 输出的 对称 ipTM 取两个方向的最大值:
的计算使用两条链的总长度之和。
偏差类型一:单侧添加无序区域,ipTM 虚高
设链 A 固定,链 B 从有序结构域( 残基)扩展为加入 个无序残基后的全长序列。
偏差类型二:双侧均有无序区域,ipTM 虚低
当两条链都含有不参与互作的区域时:
对于链 A 中处于界面的任意残基 ,其 的均值覆盖链 B 的全部残基 ,包括:
若链 B 中有 41% 的残基是无序的,则即使界面残基 的有序部分贡献很高:
而 AF2 实测值为 0.56(与上述理论估算一致,差异来自 的放大效应相互抵消)。
核心矛盾:这两种效应在实际情况中同时存在,相互竞争,导致 ipTM 的行为无法预测,研究者不得不通过反复截短序列来"试出"合理值。
ipSAE 的核心思路是:让 AlphaFold 自己用 PAE 矩阵来决定哪些残基对参与评分。PAE 值本身就是对跨链位置关系预测可信度的直接度量——低 PAE 意味着 AF 对这两个残基的相对位置有信心,高 PAE 意味着没有。
通过 PAE 阈值筛选参与评分的残基对,可以:
作者首先建立了 pTM 的近似计算方式。直接用 PAE 值替代概率期望:
精度验证:作者在 RAF1-KSR1 复合物上对比了 与 AF2 内部计算的 (通过修改 ColabFold 代码提取),两者高度相关(散点图显示极小偏差,整体低于 对角线,表明用 PAE 均值代替概率期望会轻微低估)。这一近似使得 ipSAE 可以完全基于标准 json 输出计算,无需修改 AF 源码。
非对称 ipSAE(链 A 对齐,链 B 评分):
动态 计算(关键改进):
其中 是链 B 中满足 的唯一残基数量(随对齐残基 的选择而变化,因此是残基特异性的)。
对称 ipSAE(取两个方向最大值):
为什么必须动态调整 ?
设想一个极端情形:在两条长链(各 500 残基)的预测中,仅有 10 个跨链残基对偶然通过了 PAE 阈值,但这 10 对的 值较高。如果仍用基于全长 1000 残基计算的 ,则每个 的分母相对宽松,导致即使这 10 对是噪声,整体 ipSAE 也可能虚假偏高。
而用 10 个残基计算 (此时 ),分母变得严格,只有极低的 PAE 才能贡献高 ,从而大幅抑制假阳性。
作者通过 RAF1-RIPK1 非互作体系直观验证了这一点:
作者测试了 5、10、15、20、25、32(无截止)Å 六个阈值,综合基准结果表明:
RAF1 的 RAS-结合结构域(RBD:残基 56–131)与 KRAS 的相互作用是信号转导研究中的经典体系,有高质量实验结构。
作者设计了四组对照实验,向 RAF1 和/或 KRAS 人工添加 GGGS 重复序列作为无序区域:
实验组 | 无序区域 | ipTM(AF2) | ipSAE(15 Å) |
|---|---|---|---|
例1:仅有序结构域 | 无 | 0.85 | ~0.85 |
例2:RAF1 单侧加 120 残基 | RAF1 两端各 60 残基 | 0.90(虚高↑) | ~0.85 |
例3:双链各加 60 残基 | 两链均添加 | 0.70(虚低↓) | ~0.80 |
例4:双链各加 120 残基 | 两链均添加 | 0.56(虚低↓↓) | 0.80 |
ipSAE 在所有四种情形下保持在 ~0.80,准确反映了界面的真实预测质量,而 ipTM 的波动幅度高达 0.34。

RAF1(648 残基)和 KSR1(833 残基)均为含有多个结构域和大量内在无序区域(IDR)的蛋白质:
RAF1 结构域组成:
KSR1 结构域组成:
AF2-Multimer 对全长序列(1571 个总残基)的预测显示:

差异来源明确:ipTM 被两条链中共计约 400 个不参与激酶二聚化的无序残基大量拉低。ipSAE 通过 PAE 筛选,只关注两个激酶域的 ~280 个参与互作的残基,得分从 0.41 提升至 0.73。
残基级别的分析(Figure 5)进一步揭示:

RIPK1(671 残基)已知不与 RAF1 结合。AF2 的预测:
这一案例清楚地展示了动态 调整的必要性:仅用 PAE 筛选而不调整 ,仍可能因少量"侥幸通过阈值"的残基对产生虚假高分;动态 通过将 压缩至由 75 个低 PAE 残基计算得到的 3.05,使每个 的计算变得严格,最终给出接近 0 的正确结论。

作者构建了一个严格的基准集,要求:
最终获得 40个真实异二聚体 PDB 结构,序列来源分两组:
阴性对照:从 40 个入组蛋白中随机配对生成 70 个假异二聚体,均使用全长 UniProt 序列(品红色曲线)。
在不同 PAE 阈值下,三组数据的核密度图呈现以下规律:
ipTM(AF2 原版,无截止):
ipSAE(PAE = 15 Å):
规律总结:
PAE 阈值 | 真/假重叠区域面积 | 相对评估 |
|---|---|---|
无截止(ipTM 等效) | 最大 | 最差 |
25 Å | 较大 | 改善有限 |
20 Å | 中等 | 有改善 |
15 Å | 较小 | 推荐 |
10 Å | 最小 | 推荐 |
5 Å | 小(但真实互作也有损失) | 过于严格 |
Varga 等(2024)独立识别了同样的问题,提出 actifpTM:利用 AF2 的距离直方图(distogram)预测来筛选参与 ipTM 计算的残基对,仅保留 AF2 有信心预测为接触状态的跨链残基对。该方法已整合入 ColabFold 框架。
与 ipSAE 的主要区别:
特性 | actifpTM | ipSAE |
|---|---|---|
筛选依据 | 预测距离图谱(distogram) | PAE 矩阵 |
d₀ 调整 | 否 | 是(核心改进) |
所需输出文件 | 需要 distogram(ColabFold 特有) | 标准 json(AF2/AF3/Boltz 均可) |
AF3 服务器兼容性 | 否 | 是 |
修饰氨基酸支持 | 部分 | 是 |
作者使用 Varga 等论文中的四个案例,但改用全长 UniProt 序列重新运行(而非 Varga 等使用的 PDB 截短序列):

PDB 1YCR(MDM2 + p53 肽)
PDB 2A25(SIAH1 + CacyBP 肽)
PDB 3ZGC(KEAP1 + NF2L2 肽)
以上三个体系中,actifpTM 给出接近 1.0 的高分,ipSAE 的绝对值较低(0.55–0.73),但两者都正确识别了真实互作。
PDB 4H3B(MAPK10 + SH3BP5 肽)——关键分歧案例
非互作对照(RAF1kd + 溶菌酶 C)
非互作对照(全长 RAF1 + RIPK1)
actifpTM 对正确预测的蛋白-肽复合物灵敏度更高(得分接近 1.0),但对预测错误的体系(4H3B)和非互作体系的特异性较低(不能有效排除假阳性)。
ipSAE 在绝对值上偏低,但在特异性方面表现更优,尤其是动态 调整对抑制假阳性起到了关键作用。
两种方法的直接系统比较仍需更大规模的数据集,但各自的设计原理决定了这一灵敏度-特异性权衡。
Genz 等(Protein Sci., 2025)发布了一个 223 个异二聚体复合物的独立基准数据集,所有入组结构均不在 AF2 和 AF3 的训练集中,评估指标为 DockQ(综合反映界面接触与结构对齐质量的标准分数,范围 0–1)。
应作者邀请,Luca Genz 将 ipSAE 加入了其基准评估(使用 PDB 截短序列,因此 ipSAE vs ipTM 的差异主要来自公式本身而非无序区域处理):
评分指标 | CF-T(有模板) | CF-F(无模板) | AF3 | 备注 |
|---|---|---|---|---|
pLDDT | 0.47 | 0.49 | 0.43 | 最弱 |
PAE | 0.56 | 0.57 | 0.55 | |
ipLDDT | 0.75 | 0.65 | 0.60 | |
iPAE | 0.81 | 0.82 | 0.76 | |
pTM | 0.68 | 0.69 | 0.64 | |
ipTM | 0.82 | 0.85 | 0.77 | |
mc | 0.82 | 0.84 | 0.78 | |
pDockQ2 | 0.68 | 0.71 | 0.60 | |
VoroIF | 0.74 | 0.74 | 0.63 | |
ipSAE | 0.85 | 0.86 | 0.77 | 最优/同等 |
ipSAE 在 ColabFold 模型上略优于次优指标,在 AF3 模型上与 ipTM 持平。这表明即使在无序区域问题不显著的情形下(PDB 截短序列),ipSAE 的公式改进本身也对结构精度预测有细微增益。
git clone https://github.com/dunbracklab/IPSAE
cd IPSAE
python ipsae.py <json_file> <pdb_or_cif_file> <pae_cutoff> <dist_cutoff>AF2 示例:
python ipsae.py \
RAF1_KSR1_scores_rank_001_alphafold2_multimer_v3_model_4_seed_003.json \
RAF1_KSR1_unrelaxed_rank_001_alphafold2_multimer_v3_model_4_seed_003.pdb \
15 15AF3 示例:
python ipsae.py fold_raf1_ksr1_mek1_full_data_0.json \
fold_raf1_ksr1_mek1_model_0.cif \
15 15输入要求:
*_scores_*.json(含 PAE 矩阵)+ 对应 .pdb 文件*_full_data_*.json(含 PAE 矩阵)+ 对应 .cif 文件;程序会自动读取同名 *_summary_confidences_*.json(含 AF3 的链对 ipTM).npz 格式的 PAE 输出程序为每对链输出以下关键字段:
字段 | 含义 |
|---|---|
ipTM_af | 直接从 AF 输出读取的 ipTM(AF2 所有链对相同;AF3 为链对特异值) |
ipTM_d0chn | 用 PAE 值重计算的 ipTM, 基于全链长度 |
ipSAE_d0chn | PAE 阈值筛选,但 仍基于全链长度(中间对照) |
ipSAE_d0dom | PAE 阈值筛选, 基于任一链通过阈值的残基数 |
ipSAE | 最终推荐指标:PAE 筛选 + 残基特异性动态 |
nres1/nres2 | 两条链中 PAE < 阈值的残基数 |
dist1/dist2 | PAE < 阈值且 Cα-Cα 距离 < dist_cutoff 的残基数 |
n0res/d0res | 用于计算 的残基数及对应 值 |
程序同时输出 PyMOL 着色脚本,可在三维结构上直接高亮显示通过 PAE 阈值的界面残基(alias color_A_B、color_B_C 等)。
程序生成 *_byres.txt 文件,包含每个残基作为对齐残基时的逐行结果,字段包括:
i, AlignChn, ScoredChain, AlignResNum, AlignResType, AlignRespLDDT,
n0chn, n0dom, n0res, d0chn, d0dom, d0res,
ipTM_pae, ipSAE_d0chn, ipSAE_d0dom, ipSAE此文件可用于绘制类似 Figure 5/6 的残基级评分图,帮助定位具体的互作界面位置。
修饰氨基酸:AF3 对含修饰残基(如磷酸化丝氨酸 SEP)的体系,PAE 矩阵以原子为 token。程序自动提取 Cα 原子对应的 token,构建标准残基级 PAE 矩阵。
多链复合物:ipSAE 为复合物中所有链对计算独立的非对称和对称 ipSAE 值,可区分如三体复合物 RAF1-KSR1-MEK1 中各对链的互作质量(例如 RAF1-MEK1 的 ipSAE = 0.261,表明在该模型中两者未直接接触,而 KSR1-MEK1 的 ipSAE = 0.636,互作良好)。
TM 评分框架最初针对 >40 残基的蛋白质设计。当蛋白长度小于 19 残基时,原始公式计算出的 为负数( 时 ),导致 的分母极小,任何 PAE 值都无法得到合理的评分。
ipSAE 将 的最小值设为 1.0(对应约 27 残基),这是一个有一定任意性的工程选择,可能对极短肽段(<10 残基)的预测评估不够准确,需要进一步研究。
ipTM 和 ipSAE 均基于取最大值的策略——即找到分数最高的那个对齐残基。对于两条蛋白链通过多个独立结构域发生相互作用的情形,当前的 ipSAE 只能捕捉得分最高的那个界面,其他界面的互作质量不进入最终评分。
作者建议:
*_byres.txt 文件检查各残基位置的 ipSAE 分布本文仅与 actifpTM 进行了初步比较,以下方法尚未系统评估:
ipSAE 的主要优势体现在全长 UniProt 序列预测场景。对于:
Overath 等(2025,https://doi.org/10.1101/2025.08.14.670059)收集了来自 15 个靶蛋白、共 3,766 个经实验验证的设计 binder(436 个真实结合者,3,324 个非结合者),系统评估了多种 AF3 评分指标的预测性能:
Chow 等(2025,https://doi.org/10.64898/2025.12.12.694033)使用 BindCraft 和 RFDiffusion 设计了靶向 BCMA、CD19、CD22 的 1,589 个 CAR-T 疗法候选结合子,发现:
Moriwaki 等(2025,https://doi.org/10.1101/2025.10.26.684697)利用 AF2 预测 BGC 相关蛋白复合物,发现 ipSAE 在区分同一 BGC 内的真实蛋白对与随机错配蛋白对方面,判别力优于 ipTM,为酶功能注释和天然产物生物合成途径解析提供了更可靠的计算依据。
本文的核心贡献可概括为三点:
ipSAE 的设计体现了一个重要的方法论原则:用模型自身输出的置信度信息来限制评分范围,而非依赖外部先验(如已知界面或截短序列)。这使得该方法在"界面未知"的真实应用场景中具有直接的适用性。
对于使用 AlphaFold 预测蛋白质相互作用的研究者:
应用场景 | 建议 |
|---|---|
使用全长 UniProt 序列预测 | 优先使用 ipSAE(15 Å),ipTM 仅作参考 |
使用 PDB 截短序列预测 | ipSAE 与 ipTM 差异较小,两者均可 |
设计新型蛋白 binder | 使用 min(ipSAE_A→B, ipSAE_B→A) 以提高特异性 |
多链复合物评估 | 利用链对特异性 ipSAE 分析各界面质量 |
短肽(<27 残基)预测 | 当前 ipSAE 的 处理有局限,需谨慎解释 |
ipTM 与 ipSAE 分歧较大时 | 结合 PAE 热图和 byres 文件做人工检查 |