首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat Biotechnol | Folddisco:在 5300 万个蛋白结构里秒搜功能基序,比现有方法快约 20 倍

Nat Biotechnol | Folddisco:在 5300 万个蛋白结构里秒搜功能基序,比现有方法快约 20 倍

作者头像
MindDance
发布2026-06-08 13:47:43
发布2026-06-08 13:47:43
170
举报

论文来源:Kim H., Kim R. S., Mirdita M., Yoon J., Steinegger M. Structural motif search across the protein universe with Folddisco. Nature Biotechnology(2026) 首尔国立大学 Martin Steinegger 课题组——也就是 Foldseek、MMseqs2、Foldcomp、FoldMason 背后的同一个团队。

蛋白质到底要做什么,答案常常不写在它的整体折叠形状里,而是藏在几个关键残基摆出的特定几何造型里——一个锌指、一个催化三联体、一个 GPCR 的激活开关。这种短小而分散、却高度保守的几何造型,就是结构基序(structural motif)。它们往往是判断一个蛋白功能的决定性线索,哪怕这个蛋白此前完全没有注释。

问题在于:当 AlphaFold2 等深度学习方法把可用的蛋白结构数量一口气推到数亿级别之后,怎样在这片浩瀚的结构宇宙里,又快又准地找到某个特定基序,就成了一道棘手的计算难题。Folddisco 正是为这件事而生的工具:它在 25 小时内为 5300 万个结构建好索引(占用不到 1.5 TB),单次查询只要几秒,比现有方法查询快约 20 倍、索引体积小约 4 倍,同时检索精度更高。

核心亮点

  • 更快:在 20,000 与 500,000 规模的索引上,全流程查询比 pyScoMotif 快约 20 倍与 18 倍;若只做预筛选,更是快达约 130 倍与 86 倍。
  • 更省:索引体积约为 pyScoMotif 的四分之一,建索引速度快约 11 倍,而且数据库越大、优势越明显。
  • 更准:在锌指、SCOPe40 家族泛化、M-CSA 催化位点等多项基准上,全面优于 RCSB、pyScoMotif 与 MASTER。
  • 更通用:目前唯一既能搜离散基序、又能搜不连续片段的方法,还能处理部分匹配、二硫键、双功能位点以及短线性基序。

一、为什么结构基序又重要、又难搜

要理解 Folddisco 的价值,先要看清它面对的两难。

第一难:功能信息更多藏在结构里,但主流注释却靠序列。 进化对功能基序的约束往往极为苛刻,会把它们保守到亚埃级的精度。也正因如此,识别这些基序能直接给出功能线索,对未知功能的蛋白尤其有用。可是长期以来,绝大多数功能注释方法都以序列信息为主——尽管序列与功能只是间接关系。原因很现实:测序与序列比对的通量极高,而结构数据相对稀缺,结构比对方法也长期能力有限。

第二难:结构爆发了,但搜索工具没跟上。 AlphaFold2 与同类方法如今提供了上亿条蛋白结构,催生了 Foldseek 这样快速、可扩展的结构比对器,让基于结构的功能注释成为可能。但 Foldseek 不是为基序检测设计的:它默认残基按线性顺序一一对应,适合整体折叠的比对;而结构基序恰恰是若干相距很远的片段在空间上凑成的非线性造型。打个比方,Foldseek 像在按从左到右的句子顺序找相似段落,而基序更像在夜空里找一个由散落各处的星星组成的星座——位置可以乱,关键是几何关系要对。

那么已有的专用基序搜索工具呢?论文梳理了三类,各有硬伤:

  • RCSB 倒排索引法:把每个结构拆成邻近残基对,为每对记录两个残基的氨基酸种类,以及三个几何特征(两残基 Cα 之间的距离、Cβ 之间的距离、两条 Cα–Cβ 向量的夹角),共五个特征,存进倒排索引,并记下它出现在哪个 PDB 条目的哪些位置。问题是邻近残基对的数量大约是残基数的 75 倍,要为每一对都做特征提取与存储(还含位置),开销巨大——为 16 万多个结构建索引耗时 3.5 天、占用 55 GB,而且只支持最多 10 个残基的查询。
  • pyScoMotif:用同样的残基对表示(把 Cβ 换成侧链质心),把建索引时间压到 20.5 小时(约 19.5 万结构),但仍要 73 GB 存储,速度与体积依旧是瓶颈。
  • MASTER:基于比对的片段搜索,能处理较长、不连续的查询,却对锌指、催化三联体这类很短的基序力不从心。

一句话总结这道两难:现有方法要么贵、要么不够灵活,没有一个能在数千万结构的规模上,既快又准地同时搞定短基序和长片段。


二、Folddisco 的四个关键设计

Folddisco 的整体思路,可以拆成四个相互配合的设计。

1. 去掉位置的索引:把体积压下来

传统倒排索引最大的负担,是为每个几何特征不仅记录它出现在哪些结构里,还要记录它在每个结构里的精确残基位置——正是有了位置,才能复原匹配。但在数千万结构上为每一对邻近残基都存位置,就是体积与耗时的根源。

Folddisco 的赌注是:索引里干脆不存位置,只记录每个特征集出现在哪些结构里。由于特征空间非常稀疏(绝大多数可能的编码组合从未真正出现),它把实际观察到的编码排成有序数组,配上指向取值文件的偏移,再对结构标识符做差分压缩存储。这样得到的索引,比那些要存位置的方法紧凑得多,既小又快。

2. 两个新特征:让侧链朝向也被记住

RCSB 的五个特征能描述两个残基的骨架/Cβ 在哪儿、夹角多大,却没法表达侧链朝哪个方向。Folddisco 在此基础上,借鉴了用于结构预测的 trRosetta,新增了两个扭转角特征(N–Cα–Cβ–Cβ 这一类二面角),把侧链朝向也钉死下来。这两个角是有方向性的(不对称),所以每一对残基会产生两套特征集(i→j 与 j→i 各一)。多出来的这点朝向信息,正是检索精度提升的来源之一。于是 Folddisco 每对残基一共七个特征,恰好用 30 个比特编码,塞进一个 32 位无符号整数。

3. 稀有度打分:像搜索引擎一样区分信息量

光找到共享特征的候选还不够,得把最像的排在前面。Folddisco 借用了信息检索里经典的逆文档频率(IDF)思想:在搜索引擎里,像 的 这种到处都有的词几乎没有区分度,而罕见词才是强信号;这里同理——一个几乎每个蛋白都有的特征集(比如普通 α 螺旋的几何)对锁定基序毫无帮助,而一个罕见的特征集才是有力的指纹。

具体做法是为每个编码计算 IDF 权重(等于以 2 为底,总结构数除以含该编码的结构数的对数),候选结构的覆盖分数就是它与查询共享的所有特征的 IDF 之和,再除以结构长度的 α 次方(默认 0.5)作为长度惩罚,避免大蛋白靠纯随机命中刷分。这套打分让排序在预筛选阶段就已经很准——这也是为什么 Folddisco 仅靠预筛选就能既快又准。

4. 图重建:在候选里现场拼出基序

既然索引不存位置,怎么找出究竟是哪几个残基构成了基序?Folddisco 的答案是按需、惰性地做,而且只对通过预筛选的少数候选做:把候选结构从硬盘读进来,把它的每个残基当成图里的一个节点;如果某两个残基的特征集(氨基酸种类加几何)匹配上查询里的某一对,就在它们之间连一条有向边。由于基序里的残基在查询中彼此都满足正确的几何关系,它们在这张图里自然会落进同一个连通分量。Folddisco 用 Tarjan 算法找强连通分量、用深度优先搜索找弱连通分量,每个连通分量就是一个候选匹配,再用 Kabsch 算法叠合并算出 RMSD(还会附带计算 TM-score、GDT、Chamfer、Hausdorff 等多种几何指标)。

这正是 Folddisco 的精妙权衡:建索引时不为位置付一分钱(索引小、构建快、预筛选快),只在少数幸存候选上花一点点代价现场复原位置。因为预筛选已经淘汰了绝大多数结构,整体开销自然很低。

Folddisco 的工作流程与基准测试。a–c 展示算法流程:从查询基序的邻近残基对中提取几何特征集(b),编码为整数后,在预先构建的数据库索引中快速检索(c)——先用预筛选锁定共享特征的候选结构,再做残基匹配得到完整或部分命中。b 显示 Folddisco 在 RCSB 的 5 个特征(黑)基础上,新增 2 个刻画侧链朝向的扭转角特征(粉)。d、e 为人类蛋白组中锌指基序的检索精度对比:无论用短基序查询(d,适配 pyScoMotif 与 RCSB),还是用含基序的片段查询(e,适配 MASTER),Folddisco 都最准。f 为基于 SCOPe40 构建的家族泛化基准;g 为 M-CSA 人工注释的催化位点基准。h 为不同规模数据库上的可扩展性对比:左为建索引速度(Folddisco 比 pyScoMotif 快 11 倍),中为索引体积(小 4 倍),右为查询速度。
Folddisco 的工作流程与基准测试。a–c 展示算法流程:从查询基序的邻近残基对中提取几何特征集(b),编码为整数后,在预先构建的数据库索引中快速检索(c)——先用预筛选锁定共享特征的候选结构,再做残基匹配得到完整或部分命中。b 显示 Folddisco 在 RCSB 的 5 个特征(黑)基础上,新增 2 个刻画侧链朝向的扭转角特征(粉)。d、e 为人类蛋白组中锌指基序的检索精度对比:无论用短基序查询(d,适配 pyScoMotif 与 RCSB),还是用含基序的片段查询(e,适配 MASTER),Folddisco 都最准。f 为基于 SCOPe40 构建的家族泛化基准;g 为 M-CSA 人工注释的催化位点基准。h 为不同规模数据库上的可扩展性对比:左为建索引速度(Folddisco 比 pyScoMotif 快 11 倍),中为索引体积(小 4 倍),右为查询速度。

Folddisco 的工作流程与基准测试。a–c 展示算法流程:从查询基序的邻近残基对中提取几何特征集(b),编码为整数后,在预先构建的数据库索引中快速检索(c)——先用预筛选锁定共享特征的候选结构,再做残基匹配得到完整或部分命中。b 显示 Folddisco 在 RCSB 的 5 个特征(黑)基础上,新增 2 个刻画侧链朝向的扭转角特征(粉)。d、e 为人类蛋白组中锌指基序的检索精度对比:无论用短基序查询(d,适配 pyScoMotif 与 RCSB),还是用含基序的片段查询(e,适配 MASTER),Folddisco 都最准。f 为基于 SCOPe40 构建的家族泛化基准;g 为 M-CSA 人工注释的催化位点基准。h 为不同规模数据库上的可扩展性对比:左为建索引速度(Folddisco 比 pyScoMotif 快 11 倍),中为索引体积(小 4 倍),右为查询速度。


三、性能实测:又快、又省、又准

速度与存储

在约 54 万个结构、64 核的条件下,Folddisco 建索引只用 18 分钟,而 pyScoMotif 要 3.46 小时;同一数据库的索引体积为 23.2 GB,不到 pyScoMotif 79 GB 的三分之一。更关键的是这种优势随规模放大:对包含 5300 万结构的 AFDB50,Folddisco 索引占 1.45 TB,而 pyScoMotif 按外推需要约 5.7 TB(四倍之多)。

查询同样碾压:在 20,000 与 500,000 规模的索引上,全流程查询比 pyScoMotif 快约 20 倍与 18 倍;只做预筛选时快达约 130 倍与 86 倍。预筛选对小库几乎是瞬时的,即便在 AFDB50 这种 5300 万规模上也只要约 12 秒。

检索精度

锌指与催化三联体。 在 23,391 个人类蛋白结构上,对于三残基的部分锌指和丝氨酸蛋白酶催化三联体,三个工具表现接近;但一旦换成完整的四残基锌指,RCSB 与 pyScoMotif 的召回率明显下滑,Folddisco 胜出。在用含基序片段作查询、与 MASTER 对比时,Folddisco 不仅更准,全流程还快 7 倍、仅预筛选快达 1730 倍,索引还小 10 倍;而 pyScoMotif 在这种片段输入上直接返回不了结果。换句话说,Folddisco 是这场比较里唯一能同时搞定离散基序和不连续片段的方法。

家族级泛化(SCOPe40)。 作者用 FoldMason 的多结构比对,从家族里挑出保守且分散的残基模拟基序,构建了三档难度(全部保守列、随机 60%、随机 20%)共 5753 条查询,目标是在命中第一个不同折叠之前,尽可能多地命中同家族成员。Folddisco 的曲线下面积(AUC)分别为 0.837、0.732、0.504,而 pyScoMotif 仅 0.285、0.290、0.300。耐人寻味的是:pyScoMotif 在信息最少的 20% 档反而表现最好,给更多信息也涨不动;Folddisco 则随着信息增加而稳步变强。

催化位点(M-CSA)。 在人工策展的催化位点数据集上,Folddisco 默认设置 AUC 为 0.432,敏感设置可达 0.463,均显著高于 pyScoMotif 的 0.344(默认即提升约 25.6%)。

在 SCOPe 构建的基准上,Folddisco 两种打分模式与 pyScoMotif 的灵敏度对比
在 SCOPe 构建的基准上,Folddisco 两种打分模式与 pyScoMotif 的灵敏度对比

在 SCOPe 构建的基准上,Folddisco 两种打分模式与 pyScoMotif 的灵敏度对比


四、五个真实应用场景

跑分之外,论文用一系列案例展示了 Folddisco 能解决什么实际问题。

1. 给序列高度发散、甚至毫无注释的蛋白找功能。 Folddisco 在一个来自污水的宏基因组蛋白、以及一个未表征的牡蛎蛋白里都找到了完整锌指基序——这两个蛋白都缺乏 InterPro 这类序列层面的注释;它还在大肠杆菌肽脱甲酰酶里命中了已知金属配位位点对应的部分基序。相比之下 Foldseek 在这些例子上几乎无能为力:它给那两个未表征蛋白打出的 E 值大于 20(通常已超过丢弃阈值),对大肠杆菌那个蛋白甚至完全无法比对。原因正是前面说的——Foldseek 找的是整体折叠的线性相似,而 Folddisco 找的是局部那一小撮残基的几何星座。

2. 区分蛋白的功能构象状态。 用 GPCR 的激活相关基序(来自 CXCR2 的 CWxP、NPxxY、DRY)作查询,Folddisco 能有效区分 PDB 中处于激活态与失活态的 β 肾上腺素受体结构。作者进一步比较实验库与预测库:在 PDB 里 54% 的命中处于激活态,在 AFDB50 里这一比例为 53% 几乎一致——提示 AlphaFold2 采样到的构象分布,相当接近 PDB 中真实功能状态的比例。

3. 检测蛋白互作界面。 用一个来自免疫球蛋白 γ 样与 κ 可变结构域的跨链界面基序作查询,Folddisco 在 AFDB50 里捞出了一个具有相同结合几何的单链可变片段(scFv)。

4. 同时检测多个功能位点(双基序)。 在 5893 对评测样本上,Folddisco 在 82.9% 的样本里同时找到了两个位点(活性 + 变构),另有 16.5% 为部分匹配。此外它还能识别二硫键、knottin 结构,乃至 GGRGG 这类已知短线性基序,甚至作者随手编出来的 APPLE 基序。

Folddisco 的应用示例。a 锌指基序检索:用 C2H2 锌指作查询(左上),在此前缺乏序列注释的蛋白中找到完整命中(左下、中),并在大肠杆菌肽脱甲酰酶中命中已知金属配位位点的部分基序(右)。b 构象状态识别:分别以激活态(左,品红)与失活态(右,紫)GPCR 的基序作查询,可检索到对应功能状态的结构。c 蛋白互作界面搜索:用免疫球蛋白结构域界面(左)作查询,检索到具有相似结合几何的单链可变片段(右)。
Folddisco 的应用示例。a 锌指基序检索:用 C2H2 锌指作查询(左上),在此前缺乏序列注释的蛋白中找到完整命中(左下、中),并在大肠杆菌肽脱甲酰酶中命中已知金属配位位点的部分基序(右)。b 构象状态识别:分别以激活态(左,品红)与失活态(右,紫)GPCR 的基序作查询,可检索到对应功能状态的结构。c 蛋白互作界面搜索:用免疫球蛋白结构域界面(左)作查询,检索到具有相似结合几何的单链可变片段(右)。

Folddisco 的应用示例。a 锌指基序检索:用 C2H2 锌指作查询(左上),在此前缺乏序列注释的蛋白中找到完整命中(左下、中),并在大肠杆菌肽脱甲酰酶中命中已知金属配位位点的部分基序(右)。b 构象状态识别:分别以激活态(左,品红)与失活态(右,紫)GPCR 的基序作查询,可检索到对应功能状态的结构。c 蛋白互作界面搜索:用免疫球蛋白结构域界面(左)作查询,检索到具有相似结合几何的单链可变片段(右)。

一个特别能说明问题的发现,是在泛素特异性肽酶里找到的部分锌指:

在泛素特异性肽酶中发现的部分锌指基序。在人类蛋白组中,Folddisco 检索到泛素特异性肽酶 USP42 与 USP17L20 中锌指基序的部分匹配(中图)。值得注意的是,这些匹配里残基的顺序是反的;AlphaFold3 的预测进一步证实了这些基序中确实存在锌离子配位(下图)。残基顺序被打乱仍能命中,正是线性比对方法做不到、而基于几何星座的 Folddisco 才具备的能力。
在泛素特异性肽酶中发现的部分锌指基序。在人类蛋白组中,Folddisco 检索到泛素特异性肽酶 USP42 与 USP17L20 中锌指基序的部分匹配(中图)。值得注意的是,这些匹配里残基的顺序是反的;AlphaFold3 的预测进一步证实了这些基序中确实存在锌离子配位(下图)。残基顺序被打乱仍能命中,正是线性比对方法做不到、而基于几何星座的 Folddisco 才具备的能力。

在泛素特异性肽酶中发现的部分锌指基序。在人类蛋白组中,Folddisco 检索到泛素特异性肽酶 USP42 与 USP17L20 中锌指基序的部分匹配(中图)。值得注意的是,这些匹配里残基的顺序是反的;AlphaFold3 的预测进一步证实了这些基序中确实存在锌离子配位(下图)。残基顺序被打乱仍能命中,正是线性比对方法做不到、而基于几何星座的 Folddisco 才具备的能力。


五、局限与展望

作者也诚实地交代了方法的边界,这部分对要不要把它用进自己课题同样重要。

  • 20 Å 的连接半径是一把双刃剑。 基于连通分量的残基匹配,决定了它无法检测跨度超过 20 Å 的基序,可能漏掉远端变构口袋这类相距很远的功能位点。
  • 固定的分箱宽度 可能让一些处在边界的真阳性被错过。
  • 很长的查询 中,连通分量匹配可能产生一些虚假的残基指派。
  • 对很短的基序,默认的 IDF 覆盖分数并非最优排序方式(此时按 RMSD 排序更灵敏)。

未来计划包括:引入针对基序的 E 值统计、探索可变分箱方案,并最终把支持扩展到核酸与蛋白配体基序,以覆盖现代结构预测方法能给出的全部生物大分子。

双基序搜索能力评估。许多蛋白受多个不同基序共同调控,需要同时检测多个功能位点。以血红蛋白的 14 个残基(10 个变构位点 + 4 个活性位点)作查询(上图),Folddisco 成功找到共享同一变构数据库 ID 的匹配(活性、变构残基分别标为紫色、粉色)。而在一个 ATP 结合盒转运蛋白上(下图),由于远端变构位点与已检出区域的空间间隔超过了 20 Å 的连接阈值,算法未能检出这些远端位点——直观地暴露了方法在检测广泛分布基序时的局限。
双基序搜索能力评估。许多蛋白受多个不同基序共同调控,需要同时检测多个功能位点。以血红蛋白的 14 个残基(10 个变构位点 + 4 个活性位点)作查询(上图),Folddisco 成功找到共享同一变构数据库 ID 的匹配(活性、变构残基分别标为紫色、粉色)。而在一个 ATP 结合盒转运蛋白上(下图),由于远端变构位点与已检出区域的空间间隔超过了 20 Å 的连接阈值,算法未能检出这些远端位点——直观地暴露了方法在检测广泛分布基序时的局限。

双基序搜索能力评估。许多蛋白受多个不同基序共同调控,需要同时检测多个功能位点。以血红蛋白的 14 个残基(10 个变构位点 + 4 个活性位点)作查询(上图),Folddisco 成功找到共享同一变构数据库 ID 的匹配(活性、变构残基分别标为紫色、粉色)。而在一个 ATP 结合盒转运蛋白上(下图),由于远端变构位点与已检出区域的空间间隔超过了 20 Å 的连接阈值,算法未能检出这些远端位点——直观地暴露了方法在检测广泛分布基序时的局限。


六、怎么上手

  • 命令行工具与数据库

源码、开箱即用的二进制、以及预建数据库都可在 https://folddisco.foldseek.com 获取;软件以 GPLv3 开源。

  • 在线网页版

https://search.foldseek.com/folddisco,已集成进 MMseqs2 网页平台,提供 AFDB50、PDB、AFDB-proteome、ESM30、BFVD 等主要数据库的预建索引。用户上传一个 PDB 或 mmCIF 文件(可以是含基序的片段,也可以是完整结构),再指定感兴趣的残基即可——界面还提供交互式基序选择控件和按配体半径筛残基的工具。每个数据库最多返回 1000 条命中,配有 NGL 结构可视化、TaxoView 物种分布、可选的 DBSCAN 聚类,以及 TSV 结果下载。在单核上一次性跨全部数据库搜索完整锌指,约 100 秒即可完成。

  • 复现资源

基准分析与绘图脚本见 https://github.com/steineggerlab/folddisco-analysis ,基准数据托管于 Zenodo。


结语

Folddisco 把一件原本昂贵的事变得轻巧:它用一个不存位置、却足够紧凑的稀疏索引压低了存储与建索引成本,让 AFDB50、ESM30 这样的超大库也能被秒级查询;又用刻画侧链朝向的特征和基于稀有度的打分,保证了对短、长、部分基序的准确检测。当结构数据从稀缺走向过剩,真正稀缺的将是从这片宇宙里高效定位功能线索的能力——Folddisco 把这种能力,交到了每一个研究者手里。

参考文献

Kim, H., Kim, R.S., Mirdita, M. et al. Structural motif search across the protein universe with Folddisco. Nat Biotechnol (2026). https://doi.org/10.1038/s41587-026-03162-9

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心亮点
  • 一、为什么结构基序又重要、又难搜
  • 二、Folddisco 的四个关键设计
    • 1. 去掉位置的索引:把体积压下来
    • 2. 两个新特征:让侧链朝向也被记住
    • 3. 稀有度打分:像搜索引擎一样区分信息量
    • 4. 图重建:在候选里现场拼出基序
  • 三、性能实测:又快、又省、又准
    • 速度与存储
    • 检索精度
  • 四、五个真实应用场景
  • 五、局限与展望
  • 六、怎么上手
  • 结语
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档