首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Biotechnol. | 利用Folddisco实现蛋白质宇宙中的结构基序搜索

Nat. Biotechnol. | 利用Folddisco实现蛋白质宇宙中的结构基序搜索

作者头像
DrugAI
发布2026-06-08 14:09:13
发布2026-06-08 14:09:13
210
举报

蛋白质结构基序是由少量空间上特定排列的残基组成的保守三维结构单元,往往与蛋白稳定性、配体结合以及催化活性密切相关。随着AlphaFold2及相关深度学习模型的发展,研究人员已经获得数亿个预测蛋白结构,但如何在如此庞大的结构数据库中快速发现相似结构基序仍然面临巨大挑战。

研究人员开发了结构基序搜索工具Folddisco。该方法基于位置无关的几何特征索引,结合侧链方向信息和基于稀有度的评分机制,实现了对超大规模蛋白结构数据库的高效检索。与现有方法相比,Folddisco查询速度提升约20倍,存储需求降低约4倍,同时获得更高的检索准确率。研究结果表明,Folddisco能够在5300万个蛋白结构中实现秒级搜索,既支持短结构基序,也支持长距离、不连续结构片段的搜索,为蛋白功能注释、催化位点发现、蛋白相互作用研究以及构象状态识别提供了新的技术平台。

蛋白质结构基序是蛋白质三级结构中反复出现的局部空间构型,通常由少数关键残基组成。这些基序往往承担重要生物学功能,例如金属离子结合、酶催化以及受体激活等。因此,即使蛋白序列高度发散,只要保留关键结构基序,仍然可能维持相似功能。

长期以来,蛋白功能注释主要依赖序列比对方法。然而,序列与功能之间往往并非直接对应关系,尤其对于远缘同源蛋白,序列相似性可能已经消失,而功能相关的结构基序依然保持高度保守。

近年来,AlphaFold2以及蛋白语言模型推动了蛋白结构预测革命,研究人员已经获得数亿个高质量蛋白结构模型。这使得结构搜索成为功能预测的重要方向。Foldseek等工具虽然实现了大规模结构比对,但主要针对整体结构相似性搜索,难以处理结构基序中常见的非连续残基匹配问题。

已有的RCSB Motif Search和pyScoMotif等方法能够搜索局部结构基序,但索引构建耗时、存储开销巨大,并且对长距离或复杂结构基序支持有限。因此,开发一种兼具高精度、高效率和高扩展性的结构基序搜索工具成为迫切需求。

方法

Folddisco首先对蛋白结构中彼此接近的残基对进行分析,从每个残基对提取七类几何特征,包括氨基酸类型、Cα原子距离、Cβ原子距离、侧链夹角以及两种反映侧链朝向的二面角信息。随后,这些特征被编码为32位整数,并建立倒排索引数据库。

查询时,系统首先根据输入基序提取对应特征,通过索引快速筛选候选结构。随后利用基于逆文档频率(IDF)的覆盖度评分评估匹配质量,对稀有特征给予更高权重。对于通过预筛选的候选蛋白,Folddisco进一步构建残基匹配图,识别能够形成完整结构基序的残基集合,并通过三维叠合计算结构偏差,最终确定匹配结果。

此外,研究人员引入了允许氨基酸替换、距离容差和角度容差的扩展搜索策略,从而提高对结构变异和远缘同源蛋白的检索能力。

结果

Folddisco实现蛋白质宇宙尺度的结构基序搜索

研究人员首先构建了Folddisco整体框架,并在5300万个蛋白结构组成的AFDB50数据库上进行测试。

与RCSB Motif Search和pyScoMotif相比,Folddisco采用无位置索引设计,仅记录结构编号而非残基位置,大幅降低了存储需求。同时新增的两个二面角特征能够有效描述侧链方向信息,提高结构识别能力。

最终,Folddisco仅用不到25小时即可完成5300万个蛋白结构的索引构建,数据库大小约1.45 TB,而现有方法需要约4倍以上存储空间,并耗费更长时间。

图1: Folddisco工作流程与性能评估示。

结构基序识别准确率显著优于现有方法

研究人员首先利用人类蛋白组中的锌指结构和丝氨酸蛋白酶催化三联体作为测试案例。

对于较简单的三残基锌指基序,Folddisco、RCSB和pyScoMotif表现相近。然而,当搜索完整四残基C2H2锌指结构时,Folddisco明显优于其他方法,获得更高召回率和F1分数。

进一步与MASTER进行比较时,Folddisco不仅能够识别短结构基序,也能够处理较长且不连续的结构片段。对于包含锌指区域的结构片段搜索,Folddisco准确率更高,同时运行速度提升7倍;如果仅使用预筛选模块,则速度提升超过1700倍。研究人员指出,Folddisco是目前唯一能够同时支持离散结构基序和长距离不连续结构片段搜索的方法。

在SCOPe和M-CSA基准测试中展现更强泛化能力

为了验证方法的普适性,研究人员构建了基于SCOPe数据库的结构家族基准测试。他们从多个结构家族中提取保守残基构成模拟基序,并要求模型在整个SCOPe数据库中检索属于同一家族的蛋白。

结果显示,无论使用完整保守位点还是仅保留部分位点,Folddisco均明显优于pyScoMotif。对于完整保守位点查询,其AUC达到0.837,而pyScoMotif仅为0.285。

随后,研究人员利用M-CSA数据库中的人工整理催化位点进行测试。Folddisco获得0.432的AUC,相较pyScoMotif提高25.6%。在高灵敏度模式下,AUC进一步提升至0.463。这些结果表明,Folddisco不仅能够识别简单结构基序,也能够发现复杂催化位点和远缘同源功能位点。

速度提升20倍,存储开销降低4倍

研究人员系统评估了Folddisco的扩展能力。在54万个蛋白结构数据库上,Folddisco仅需18分钟即可完成索引构建,而pyScoMotif需要3.46小时。

索引存储方面,Folddisco仅占用23.2 GB,而pyScoMotif需要79 GB。进一步外推到5300万个结构的AFDB50数据库,Folddisco仅需约1.45 TB存储空间,而pyScoMotif预计需要5.7 TB。

在查询速度方面,Folddisco完整搜索流程比pyScoMotif快18–20倍;仅使用预筛选阶段时,速度提升达到86–130倍。即使面对AFDB50规模数据库,单次查询仅需约12秒即可完成。

这些结果证明Folddisco首次实现了真正意义上的“蛋白质宇宙级”结构基序搜索。

成功发现远缘蛋白中的保守功能基序

研究人员进一步展示了Folddisco在真实生物学问题中的应用。以经典C2H2锌指结构为查询对象,Folddisco成功在太平洋牡蛎未注释蛋白以及环境宏基因组蛋白中发现完整锌指结构,而这些蛋白此前均缺乏InterPro等数据库注释。

更有趣的是,在大肠杆菌肽脱甲酰酶中,Folddisco还识别出部分锌指结构对应的金属结合位点,与实验已知功能位点高度一致。相比之下,Foldseek无法有效识别这些局部结构基序,其匹配显著性较低甚至完全无法比对成功。

这一结果说明,即使蛋白序列高度发散,Folddisco仍然能够通过结构基序发现潜在功能关联。

识别蛋白构象状态与蛋白互作界面

研究人员进一步测试Folddisco对蛋白功能状态的识别能力。以GPCR受体激活相关的CWxP、NPxxY和DRY三个经典基序为查询对象,Folddisco能够准确区分活化态和非活化态受体结构。

在PDB数据库中,54%的匹配结果属于活化态;而在AlphaFold数据库中,这一比例为53%。这一结果说明AlphaFold预测结构中保留了真实生物体系中的构象分布特征。

此外,研究人员还利用免疫球蛋白结构域界面作为查询对象,在AFDB50数据库中成功检索到具有相同结合几何特征的单链抗体片段。

进一步测试显示,对于同时包含活性位点和变构位点的蛋白,Folddisco能够在82.9%的情况下同时识别两类位点,显示出处理复杂功能基序的能力。

图2: Folddisco在功能位点、构象状态及蛋白互作界面中的应用示例。

讨论

研究人员开发了结构基序搜索工具Folddisco,实现了蛋白质宇宙尺度的高效结构检索。通过引入侧链方向几何特征、无位置索引结构以及基于稀有度的覆盖评分机制,Folddisco在准确率、查询速度和存储效率方面均显著优于现有方法。

与传统结构比对工具不同,Folddisco不仅能够识别短催化基序和金属结合位点,还能够处理长距离、不连续结构片段以及蛋白互作界面。这使其成为连接蛋白结构与功能的重要桥梁。

研究人员同时指出,目前方法仍存在一定局限。例如,固定距离分箱可能遗漏边界匹配,连接图约束使得超过20 Å的远距离功能位点难以识别,而短结构基序的排序策略仍有进一步优化空间。

未来,研究人员计划引入专门的E-value统计模型和动态分箱机制,并进一步扩展至核酸结构、蛋白-配体相互作用以及AlphaFold 3预测的生物大分子复合体,从而实现覆盖整个生物分子宇宙的结构基序搜索平台。

整理 | DrugOne团队

参考资料

Kim, H., Kim, R.S., Mirdita, M. et al. Structural motif search across the protein universe with Folddisco. Nat Biotechnol (2026).

https://doi.org/10.1038/s41587-026-03162-9

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档