首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AlphaFold类方法 ipTM 打分的系统性缺陷与 ipSAE 修正方案

AlphaFold类方法 ipTM 打分的系统性缺陷与 ipSAE 修正方案

作者头像
DrugIntel
发布2026-04-13 18:00:05
发布2026-04-13 18:00:05
530
举报

原文:Dunbrack RL Jr. Rēs ipSAE loquuntur: What's wrong with AlphaFold's ipTM score and how to fix it. bioRxiv 2025.02.10.637595; Version 2, December 15, 2025. DOI:https://doi.org/10.1101/2025.02.10.637595 代码:https://github.com/dunbracklab/IPSAE


目录

  1. 1. 研究背景与问题动机
  2. 2. ipTM 的数学根源与缺陷分析
  3. 3. ipSAE 的设计原理与公式推导
  4. 4. 案例分析:RAF1 蛋白复合物体系
  5. 5. 基准测试结果
  6. 6. 与 actifpTM 的系统比较
  7. 7. 独立基准:Genz 等的结构精度评估
  8. 8. 工具使用与输出格式
  9. 9. 讨论与局限性
  10. 10. 下游应用与领域影响
  11. 11. 综合评述

一、研究背景与问题动机

1.1 AlphaFold 在蛋白质相互作用预测中的地位

AlphaFold-Multimer(AF2.3,2022 年 12 月发布)是当前蛋白质-蛋白质相互作用(PPI)结构预测的主流工具,被广泛用于判断两条蛋白链是否真实存在相互作用,以及其互作界面的结构精度。AlphaFold3(AF3)于 2024 年发布,将预测范围扩展至蛋白质-核酸及含修饰残基的复合物体系。

模型输出的关键置信度指标包括:

指标

含义

适用范围

pLDDT

残基级局部结构置信度(0–100)

单链折叠质量

PAE

残基对之间的预测对齐误差(Å)

结构域间相对位置

pTM

基于 PAE 的预测模板建模得分

整体结构相似性

ipTM

跨链界面预测模板建模得分(0–1)

蛋白质相互作用置信度

其中 ipTM 是判断两条链是否相互作用最常用的单一数值,AF2 官方推荐的综合排名函数为 0.8 × ipTM + 0.2 × pTM

1.2 已知的实际问题

多个研究团队独立报告了 ipTM 在实际应用中的一个系统性问题:对相同的互作界面,输入不同长度的序列构建体(construct),ipTM 得分会发生显著变化,有时差异高达 0.3 以上,即使界面的原子坐标和接触残基完全相同。

具体表现为两种对立的偏差方向:

现象一:ipTM 虚高(假阳性风险)

当仅有一条链被添加了大量无序区域或辅助结构域时,ipTM 可能虚假升高。这给基于 ipTM 筛选相互作用的高通量流程带来假阳性风险。

现象二:ipTM 虚低(假阴性风险)

当两条链均含有大量不参与互作的无序区域或辅助结构域时,ipTM 可能被严重压低,导致真实互作被漏判。这是使用全长 UniProt 序列进行预测时最常见的问题。

典型报道包括:

  • • Danneskiold-Samsøe 等(2024):单次跨膜受体与全长配体的全长序列预测 ipTM 显著低于截短至互作结构域后的得分
  • • Lee 等(2024):肽段与结构域互作中,全长序列的 ipTM 系统性低于短片段
  • • Bret 等(2024):必须对无序序列逐段扫描才能发现互作,因为全长序列的 ipTM 不可靠

二、ipTM 的数学根源与缺陷分析

2.1 TM 评分的起源

TM 评分由 Zhang 和 Skolnick(2004)开发,用于评估预测结构与实验结构的相似性:

其中 是残基 的预测坐标与实验坐标之间的距离, 是随序列长度变化的归一化参数:

的作用是消除 TM 评分对序列长度的依赖性——对于长蛋白,允许更大的平均偏差仍能得到合理的 TM 分值。当 时, Å;当 时, Å。

2.2 从 TM 到 pTM 和 ipTM

AlphaFold 用"预测对齐误差"(PAE)代替实验距离,将 TM 评分框架应用于置信度预测。PAE 代表:在将残基 的局部坐标系对齐后,残基 的预测位置与真实位置之间的期望误差(Å)。

AF 内部实际使用的是基于 64 个误差区间的概率分布期望值:

其中 为各区间中心值(0.25 Å, 0.75 Å, …, 31.75 Å)。

对于两条链 A 和 B 的相互作用,非对称 ipTM 定义为:

AlphaFold 输出的 对称 ipTM 取两个方向的最大值:

的计算使用两条链的总长度之和

2.3 两类偏差的数学机制

偏差类型一:单侧添加无序区域,ipTM 虚高

设链 A 固定,链 B 从有序结构域( 残基)扩展为加入 个无序残基后的全长序列。

  • • 从 增大至
  • • 更大的 意味着公式对误差的惩罚更宽松,相当于对所有 施加了一个放大因子
  • • 链 B 中新增的无序残基与链 A 残基之间 PAE 值很高(>30 Å),,拉低均值
  • • 当链 B 仅单侧有无序区时, 增大的提升效应超过无序区拉低均值的效应,净效果是 ipTM 升高

偏差类型二:双侧均有无序区域,ipTM 虚低

当两条链都含有不参与互作的区域时:

对于链 A 中处于界面的任意残基 ,其 的均值覆盖链 B 的全部残基 ,包括:

  • • 参与互作的有序残基(PAE 低, 高,约 0.8–0.9)
  • • 不参与互作的无序残基(PAE 高 >30 Å, 低,约 0.1–0.2)

若链 B 中有 41% 的残基是无序的,则即使界面残基 的有序部分贡献很高:

而 AF2 实测值为 0.56(与上述理论估算一致,差异来自 的放大效应相互抵消)。

核心矛盾:这两种效应在实际情况中同时存在,相互竞争,导致 ipTM 的行为无法预测,研究者不得不通过反复截短序列来"试出"合理值。


三、ipSAE 的设计原理与公式推导

3.1 设计哲学

ipSAE 的核心思路是:让 AlphaFold 自己用 PAE 矩阵来决定哪些残基对参与评分。PAE 值本身就是对跨链位置关系预测可信度的直接度量——低 PAE 意味着 AF 对这两个残基的相对位置有信心,高 PAE 意味着没有。

通过 PAE 阈值筛选参与评分的残基对,可以:

  1. 1. 自动排除无序区域(PAE 值极高)
  2. 2. 自动排除不参与互作的有序辅助结构域(跨链 PAE 同样很高)
  3. 3. 将评分集中在真实预测的互作界面上

3.2 pSAE 近似

作者首先建立了 pTM 的近似计算方式。直接用 PAE 值替代概率期望:

精度验证:作者在 RAF1-KSR1 复合物上对比了 与 AF2 内部计算的 (通过修改 ColabFold 代码提取),两者高度相关(散点图显示极小偏差,整体低于 对角线,表明用 PAE 均值代替概率期望会轻微低估)。这一近似使得 ipSAE 可以完全基于标准 json 输出计算,无需修改 AF 源码。

3.3 ipSAE 核心公式

非对称 ipSAE(链 A 对齐,链 B 评分):

动态 计算(关键改进):

其中 是链 B 中满足 的唯一残基数量(随对齐残基 的选择而变化,因此是残基特异性的)。

对称 ipSAE(取两个方向最大值):

3.4 动态 的关键性

为什么必须动态调整 ?

设想一个极端情形:在两条长链(各 500 残基)的预测中,仅有 10 个跨链残基对偶然通过了 PAE 阈值,但这 10 对的 值较高。如果仍用基于全长 1000 残基计算的 ,则每个 的分母相对宽松,导致即使这 10 对是噪声,整体 ipSAE 也可能虚假偏高。

而用 10 个残基计算 (此时 ),分母变得严格,只有极低的 PAE 才能贡献高 ,从而大幅抑制假阳性。

作者通过 RAF1-RIPK1 非互作体系直观验证了这一点:

  • • 仅用 PAE 筛选(保留原 )→ ipSAE = 0.459(假阳性)
  • • 同时动态调整 → ipSAE = 0.044(正确识别为非互作)

3.5 PAE 阈值的选择

作者测试了 5、10、15、20、25、32(无截止)Å 六个阈值,综合基准结果表明:

  • 10–15 Å 在区分真/假互作方面效果最优
  • • 阈值过低(5 Å):对真实互作体系过于严格,可能漏掉部分残基对
  • • 阈值过高(>20 Å):无序区域开始渗入,区分度下降
  • • 推荐默认值:15 Å

四、案例分析:RAF1 蛋白复合物体系

4.1 RAF1-KRAS:人工无序区域的控制实验

RAF1 的 RAS-结合结构域(RBD:残基 56–131)与 KRAS 的相互作用是信号转导研究中的经典体系,有高质量实验结构。

作者设计了四组对照实验,向 RAF1 和/或 KRAS 人工添加 GGGS 重复序列作为无序区域:

实验组

无序区域

ipTM(AF2)

ipSAE(15 Å)

例1:仅有序结构域

0.85

~0.85

例2:RAF1 单侧加 120 残基

RAF1 两端各 60 残基

0.90(虚高↑)

~0.85

例3:双链各加 60 残基

两链均添加

0.70(虚低↓)

~0.80

例4:双链各加 120 残基

两链均添加

0.56(虚低↓↓)

0.80

ipSAE 在所有四种情形下保持在 ~0.80,准确反映了界面的真实预测质量,而 ipTM 的波动幅度高达 0.34。

4.2 RAF1-KSR1:具有生物学意义的多结构域复合物

RAF1(648 残基)和 KSR1(833 残基)均为含有多个结构域和大量内在无序区域(IDR)的蛋白质:

RAF1 结构域组成:

  • • RBD(56–131)
  • • CRD(138–184)
  • • 蛋白激酶域 PK(340–614)
  • • IDR:残基 1–55, 185–339, 615–648(共 ~276 残基,占 43%)

KSR1 结构域组成:

  • • CC-SAM(30–172)
  • • CRD(347–391)
  • • 伪激酶域 pPK(599–833)
  • • IDR:大量无序连接区域

AF2-Multimer 对全长序列(1571 个总残基)的预测显示:

  • • 激酶/伪激酶异二聚体模式与已知 BRAF 同二聚体高度相似
  • • 但 ipTM 仅为 0.38–0.41(25个模型中)
  • ipSAE(15 Å阈值)= 0.73

差异来源明确:ipTM 被两条链中共计约 400 个不参与激酶二聚化的无序残基大量拉低。ipSAE 通过 PAE 筛选,只关注两个激酶域的 ~280 个参与互作的残基,得分从 0.41 提升至 0.73。

残基级别的分析(Figure 5)进一步揭示:

  • • ipTM 按残基绘图时,激酶域区域有高值区域,但被整体压低
  • • ipSAE 将辅助结构域区域的得分降至 0,激酶域的最高值(W632 of KSR1)达 0.726

4.3 RAF1-RIPK1:非互作蛋白的阴性对照

RIPK1(671 残基)已知不与 RAF1 结合。AF2 的预测:

  • ipTM = 0.277(非零,可能引起误判)
  • • PAE 筛选后,无 调整:ipSAE = 0.459(仍然偏高)
  • • PAE 筛选 + 动态 :ipSAE = 0.044(正确识别为非互作)

这一案例清楚地展示了动态 调整的必要性:仅用 PAE 筛选而不调整 ,仍可能因少量"侥幸通过阈值"的残基对产生虚假高分;动态 通过将 压缩至由 75 个低 PAE 残基计算得到的 3.05,使每个 的计算变得严格,最终给出接近 0 的正确结论。

五、基准测试结果

5.1 数据集构建

作者构建了一个严格的基准集,要求:

  1. 1. PDB 入库时间晚于 AF2 训练截止日期(2021年9月30日)
  2. 2. 与训练集中任意链序列相似度 ≤40%
  3. 3. 精确双链复合物(排除大型多聚体、多对多互作等复杂情形)
  4. 4. 每条链至少含 12 个有坐标的残基

最终获得 40个真实异二聚体 PDB 结构,序列来源分两组:

  • PDB 序列:来自晶体构建体,通常接近纯有序区域(绿色曲线)
  • UniProt 全长序列:通过 SIFTS 数据库映射(蓝色曲线)

阴性对照:从 40 个入组蛋白中随机配对生成 70 个假异二聚体,均使用全长 UniProt 序列(品红色曲线)。

5.2 核密度估计结果分析

在不同 PAE 阈值下,三组数据的核密度图呈现以下规律:

ipTM(AF2 原版,无截止):

  • • 真实二聚体(全长 UniProt)分布宽泛,0.3–0.8 范围内均有分布
  • • 假二聚体峰值在 ~0.2,但尾部延伸至 0.5 以上
  • • 真/假之间存在显著重叠区域(0.3–0.6),区分度有限

ipSAE(PAE = 15 Å):

  • • 真实二聚体(全长 UniProt)向高值方向显著移动,峰值 >0.7
  • • PDB 序列结果变化不大(本就无序区域少)
  • • 假二聚体几乎全部集中在 <0.3
  • 真/假分离度显著提升

规律总结:

PAE 阈值

真/假重叠区域面积

相对评估

无截止(ipTM 等效)

最大

最差

25 Å

较大

改善有限

20 Å

中等

有改善

15 Å

较小

推荐

10 Å

最小

推荐

5 Å

小(但真实互作也有损失)

过于严格


六、与 actifpTM 的系统比较

6.1 actifpTM 方案简介

Varga 等(2024)独立识别了同样的问题,提出 actifpTM:利用 AF2 的距离直方图(distogram)预测来筛选参与 ipTM 计算的残基对,仅保留 AF2 有信心预测为接触状态的跨链残基对。该方法已整合入 ColabFold 框架。

与 ipSAE 的主要区别:

特性

actifpTM

ipSAE

筛选依据

预测距离图谱(distogram)

PAE 矩阵

d₀ 调整

是(核心改进)

所需输出文件

需要 distogram(ColabFold 特有)

标准 json(AF2/AF3/Boltz 均可)

AF3 服务器兼容性

修饰氨基酸支持

部分

6.2 四个蛋白-肽标准体系的比较

作者使用 Varga 等论文中的四个案例,但改用全长 UniProt 序列重新运行(而非 Varga 等使用的 PDB 截短序列):

PDB 1YCR(MDM2 + p53 肽)

  • • 界面 RMSD = 1.32 Å(预测正确)
  • • ipTM = 0.298(严重低估)
  • • actifpTM = 0.943
  • • ipSAE(10 Å)= 0.684

PDB 2A25(SIAH1 + CacyBP 肽)

  • • 界面 RMSD = 0.72 Å(预测正确)
  • • ipTM = 0.669
  • • actifpTM = 0.928
  • • ipSAE(10 Å)= 0.551

PDB 3ZGC(KEAP1 + NF2L2 肽)

  • • 界面 RMSD = 1.19 Å(预测正确)
  • • ipTM = 0.719
  • • actifpTM = 0.972
  • • ipSAE(10 Å)= 0.733

以上三个体系中,actifpTM 给出接近 1.0 的高分,ipSAE 的绝对值较低(0.55–0.73),但两者都正确识别了真实互作。

PDB 4H3B(MAPK10 + SH3BP5 肽)——关键分歧案例

  • • 预测的肽结合肽段(残基 425–439)与正确肽段(341–350)相差 100 Å(预测错误)
  • • ipTM = 0.443
  • • actifpTM = 0.690(虚假高分,未能识别预测错误
  • • ipSAE(5 Å)= 0.000;ipSAE(10 Å)= 0.019(正确给出低分

非互作对照(RAF1kd + 溶菌酶 C)

  • • ipTM = 0.388
  • • actifpTM = 0.467(依然不低)
  • • ipSAE(10 Å)= 0.012(正确识别为非互作

非互作对照(全长 RAF1 + RIPK1)

  • • ipTM = 0.277
  • • actifpTM = 0.462(接近 0.5,可能引起误判)
  • • ipSAE(≤15 Å)= 0.000–0.006(明确识别为非互作

6.3 综合比较结论

actifpTM 对正确预测的蛋白-肽复合物灵敏度更高(得分接近 1.0),但对预测错误的体系(4H3B)和非互作体系的特异性较低(不能有效排除假阳性)。

ipSAE 在绝对值上偏低,但在特异性方面表现更优,尤其是动态 调整对抑制假阳性起到了关键作用。

两种方法的直接系统比较仍需更大规模的数据集,但各自的设计原理决定了这一灵敏度-特异性权衡。


七、独立基准:Genz 等的结构精度评估

Genz 等(Protein Sci., 2025)发布了一个 223 个异二聚体复合物的独立基准数据集,所有入组结构均不在 AF2 和 AF3 的训练集中,评估指标为 DockQ(综合反映界面接触与结构对齐质量的标准分数,范围 0–1)。

应作者邀请,Luca Genz 将 ipSAE 加入了其基准评估(使用 PDB 截短序列,因此 ipSAE vs ipTM 的差异主要来自公式本身而非无序区域处理):

评分指标

CF-T(有模板)

CF-F(无模板)

AF3

备注

pLDDT

0.47

0.49

0.43

最弱

PAE

0.56

0.57

0.55

ipLDDT

0.75

0.65

0.60

iPAE

0.81

0.82

0.76

pTM

0.68

0.69

0.64

ipTM

0.82

0.85

0.77

mc

0.82

0.84

0.78

pDockQ2

0.68

0.71

0.60

VoroIF

0.74

0.74

0.63

ipSAE

0.85

0.86

0.77

最优/同等

ipSAE 在 ColabFold 模型上略优于次优指标,在 AF3 模型上与 ipTM 持平。这表明即使在无序区域问题不显著的情形下(PDB 截短序列),ipSAE 的公式改进本身也对结构精度预测有细微增益。


八、工具使用与输出格式

8.1 安装与调用

代码语言:javascript
复制
git clone https://github.com/dunbracklab/IPSAE
cd IPSAE
python ipsae.py <json_file> <pdb_or_cif_file> <pae_cutoff> <dist_cutoff>

AF2 示例:

代码语言:javascript
复制
python ipsae.py \
  RAF1_KSR1_scores_rank_001_alphafold2_multimer_v3_model_4_seed_003.json \
  RAF1_KSR1_unrelaxed_rank_001_alphafold2_multimer_v3_model_4_seed_003.pdb \
  15 15

AF3 示例:

代码语言:javascript
复制
python ipsae.py fold_raf1_ksr1_mek1_full_data_0.json \
  fold_raf1_ksr1_mek1_model_0.cif \
  15 15

输入要求:

  • AF2:来自 ColabFold 或本地运行的 *_scores_*.json(含 PAE 矩阵)+ 对应 .pdb 文件
  • AF3*_full_data_*.json(含 PAE 矩阵)+ 对应 .cif 文件;程序会自动读取同名 *_summary_confidences_*.json(含 AF3 的链对 ipTM)
  • Boltz:支持 .npz 格式的 PAE 输出

8.2 输出字段解释

程序为每对链输出以下关键字段:

字段

含义

ipTM_af

直接从 AF 输出读取的 ipTM(AF2 所有链对相同;AF3 为链对特异值)

ipTM_d0chn

用 PAE 值重计算的 ipTM, 基于全链长度

ipSAE_d0chn

PAE 阈值筛选,但 仍基于全链长度(中间对照)

ipSAE_d0dom

PAE 阈值筛选, 基于任一链通过阈值的残基数

ipSAE

最终推荐指标:PAE 筛选 + 残基特异性动态

nres1/nres2

两条链中 PAE < 阈值的残基数

dist1/dist2

PAE < 阈值且 Cα-Cα 距离 < dist_cutoff 的残基数

n0res/d0res

用于计算 的残基数及对应 值

程序同时输出 PyMOL 着色脚本,可在三维结构上直接高亮显示通过 PAE 阈值的界面残基(alias color_A_Bcolor_B_C 等)。

8.3 残基级输出文件

程序生成 *_byres.txt 文件,包含每个残基作为对齐残基时的逐行结果,字段包括:

代码语言:javascript
复制
i, AlignChn, ScoredChain, AlignResNum, AlignResType, AlignRespLDDT,
n0chn, n0dom, n0res, d0chn, d0dom, d0res,
ipTM_pae, ipSAE_d0chn, ipSAE_d0dom, ipSAE

此文件可用于绘制类似 Figure 5/6 的残基级评分图,帮助定位具体的互作界面位置。

8.4 修饰氨基酸与多链复合物的处理

修饰氨基酸:AF3 对含修饰残基(如磷酸化丝氨酸 SEP)的体系,PAE 矩阵以原子为 token。程序自动提取 Cα 原子对应的 token,构建标准残基级 PAE 矩阵。

多链复合物:ipSAE 为复合物中所有链对计算独立的非对称和对称 ipSAE 值,可区分如三体复合物 RAF1-KSR1-MEK1 中各对链的互作质量(例如 RAF1-MEK1 的 ipSAE = 0.261,表明在该模型中两者未直接接触,而 KSR1-MEK1 的 ipSAE = 0.636,互作良好)。


九、讨论与局限性

9.1 短肽体系的 挑战

TM 评分框架最初针对 >40 残基的蛋白质设计。当蛋白长度小于 19 残基时,原始公式计算出的 为负数( 时 ),导致 的分母极小,任何 PAE 值都无法得到合理的评分。

ipSAE 将 的最小值设为 1.0(对应约 27 残基),这是一个有一定任意性的工程选择,可能对极短肽段(<10 残基)的预测评估不够准确,需要进一步研究。

9.2 多界面复合物的评分局限

ipTM 和 ipSAE 均基于取最大值的策略——即找到分数最高的那个对齐残基。对于两条蛋白链通过多个独立结构域发生相互作用的情形,当前的 ipSAE 只能捕捉得分最高的那个界面,其他界面的互作质量不进入最终评分。

作者建议:

  1. 1. 结合 PAE 热图人工识别多界面区域
  2. 2. 用截短序列分别运行 AF 预测各界面
  3. 3. 利用 *_byres.txt 文件检查各残基位置的 ipSAE 分布

9.3 与其他评分方法的比较空间

本文仅与 actifpTM 进行了初步比较,以下方法尚未系统评估:

  • pDockQ / pDockQ2:基于界面 pLDDT 和 PAE,与结构精度相关性约 0.68–0.71
  • iPAE:直接对界面跨链残基对的 PAE 均值,相关性约 0.81–0.82
  • Local Interaction Score(Kim 等):PAE ≤ 12 Å 的跨链残基对 PAE 均值转换为 0–1 分值
  • PPIscreenML:结合 AF 评分与能量函数

9.4 方法适用范围的边界

ipSAE 的主要优势体现在全长 UniProt 序列预测场景。对于:

  • • 已知互作界面、使用精确截短序列的预测:ipSAE 与 ipTM 差异不大
  • • 高度动态或存在多构象的界面:PAE 阈值筛选可能过于严格
  • • 同源寡聚体体系:ipSAE 对链对的处理需检查对称性假设

十、下游应用与领域影响

10.1 蛋白质 binder 设计

Overath 等(2025,https://doi.org/10.1101/2025.08.14.670059)收集了来自 15 个靶蛋白、共 3,766 个经实验验证的设计 binder(436 个真实结合者,3,324 个非结合者),系统评估了多种 AF3 评分指标的预测性能:

  • • ipSAE(取两个非对称值中的最小值)的精准度是 iPAE(RFDiffusion 当前使用指标)的 1.4 倍
  • • ipSAE 优于 ipTM、iPAE、actifpTM、pDockQ 的原因:能更有效地识别界面预测错误或无序区域干扰导致的假阳性

10.2 嵌合抗原受体(CAR)工程

Chow 等(2025,https://doi.org/10.64898/2025.12.12.694033)使用 BindCraft 和 RFDiffusion 设计了靶向 BCMA、CD19、CD22 的 1,589 个 CAR-T 疗法候选结合子,发现:

  • • ipSAE 与实验测定的解离常数(Kd)相关性优于 ipTM 和 iPAE
  • • 作为筛选过滤器,ipSAE 可降低后续湿实验的成本

10.3 生物合成基因簇(BGC)蛋白组学

Moriwaki 等(2025,https://doi.org/10.1101/2025.10.26.684697)利用 AF2 预测 BGC 相关蛋白复合物,发现 ipSAE 在区分同一 BGC 内的真实蛋白对与随机错配蛋白对方面,判别力优于 ipTM,为酶功能注释和天然产物生物合成途径解析提供了更可靠的计算依据。


十一、综合评述

11.1 贡献总结

本文的核心贡献可概括为三点:

  1. 1. 机制阐明:首次从数学层面系统分析了 ipTM 对无序区域敏感的根本原因,明确区分了"单侧无序→虚高"和"双侧无序→虚低"两种不同机制
  2. 2. 算法创新:通过 PAE 阈值筛选和动态 调整的组合,提出了在不修改 AF 源码情况下计算更鲁棒界面评分的方法
  3. 3. 工程落地:开源工具兼容 AF2/AF3(含服务器输出)、ColabFold、Boltz,支持修饰氨基酸和多链复合物,已在多个独立研究中被验证和应用

11.2 方法论启示

ipSAE 的设计体现了一个重要的方法论原则:用模型自身输出的置信度信息来限制评分范围,而非依赖外部先验(如已知界面或截短序列)。这使得该方法在"界面未知"的真实应用场景中具有直接的适用性。

11.3 实践建议

对于使用 AlphaFold 预测蛋白质相互作用的研究者:

应用场景

建议

使用全长 UniProt 序列预测

优先使用 ipSAE(15 Å),ipTM 仅作参考

使用 PDB 截短序列预测

ipSAE 与 ipTM 差异较小,两者均可

设计新型蛋白 binder

使用 min(ipSAE_A→B, ipSAE_B→A) 以提高特异性

多链复合物评估

利用链对特异性 ipSAE 分析各界面质量

短肽(<27 残基)预测

当前 ipSAE 的 处理有局限,需谨慎解释

ipTM 与 ipSAE 分歧较大时

结合 PAE 热图和 byres 文件做人工检查

11.4 未来方向

  • • 扩大基准规模,建立更全面的真/假互作区分评估
  • • 探索聚合多界面信息的评分方式(非单纯取最大值)
  • • 优化短肽体系的 处理
  • • 与 AlphaFold 官方指标体系的整合或官方采纳

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 一、研究背景与问题动机
    • 1.1 AlphaFold 在蛋白质相互作用预测中的地位
    • 1.2 已知的实际问题
  • 二、ipTM 的数学根源与缺陷分析
    • 2.1 TM 评分的起源
    • 2.2 从 TM 到 pTM 和 ipTM
    • 2.3 两类偏差的数学机制
  • 三、ipSAE 的设计原理与公式推导
    • 3.1 设计哲学
    • 3.2 pSAE 近似
    • 3.3 ipSAE 核心公式
    • 3.4 动态 的关键性
    • 3.5 PAE 阈值的选择
  • 四、案例分析:RAF1 蛋白复合物体系
    • 4.1 RAF1-KRAS:人工无序区域的控制实验
    • 4.2 RAF1-KSR1:具有生物学意义的多结构域复合物
    • 4.3 RAF1-RIPK1:非互作蛋白的阴性对照
  • 五、基准测试结果
    • 5.1 数据集构建
    • 5.2 核密度估计结果分析
  • 六、与 actifpTM 的系统比较
    • 6.1 actifpTM 方案简介
    • 6.2 四个蛋白-肽标准体系的比较
    • 6.3 综合比较结论
  • 七、独立基准:Genz 等的结构精度评估
  • 八、工具使用与输出格式
    • 8.1 安装与调用
    • 8.2 输出字段解释
    • 8.3 残基级输出文件
    • 8.4 修饰氨基酸与多链复合物的处理
  • 九、讨论与局限性
    • 9.1 短肽体系的 挑战
    • 9.2 多界面复合物的评分局限
    • 9.3 与其他评分方法的比较空间
    • 9.4 方法适用范围的边界
  • 十、下游应用与领域影响
    • 10.1 蛋白质 binder 设计
    • 10.2 嵌合抗原受体(CAR)工程
    • 10.3 生物合成基因簇(BGC)蛋白组学
  • 十一、综合评述
    • 11.1 贡献总结
    • 11.2 方法论启示
    • 11.3 实践建议
    • 11.4 未来方向
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档