首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | 通过稀疏自编码器揭示蛋白质语言模型的可解释特征

Nat. Methods | 通过稀疏自编码器揭示蛋白质语言模型的可解释特征

作者头像
DrugOne
发布2025-10-14 16:40:52
发布2025-10-14 16:40:52
1650
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

蛋白质语言模型(PLM)在结构与功能预测方面表现卓越,但内部机制仍不透明。研究人员提出 InterPLM:在 ESM-2 表示上训练稀疏自编码器(SAE),从而提取成千上万个人类可解释的特征,覆盖结合位点、结构基序与功能结构域等概念;单个“神经元”对概念的对齐度较低,提示 PLM 以“叠加”(superposition)方式存储概念,而 SAE 特征可将其解叠并解释。该现象跨模型尺度稳定存在,大模型捕获的可解释概念更多。研究人员进一步开发自动化解释流程(LLM 辅助)用于特征描述与验证;这些特征可用于发现数据库缺失注释与可解释地引导序列生成。结果表明,PLM 表示可分解为可解释成分,为机制级解释与应用提供可行路径。

近年来,蛋白质语言模型迅速发展,基于无监督大规模训练的模型在结构预测、功能注释和分子设计等任务上取得显著进展。然而,这些模型的内部表示往往难以理解,研究人员无法明确模型是如何捕捉到特定功能信号的。缺乏可解释性不仅阻碍了科学发现的透明性,也限制了模型在实际生物学应用中的信任度。稀疏自编码器作为一种学习稀疏且分离表示的工具,已在自然语言处理与视觉模型中展现出增强可解释性的潜力。研究人员基于这一思路设计了InterPLM,用于解析蛋白质语言模型中的隐空间结构。

方法

InterPLM 的核心是一个稀疏自编码器,它接收PLM的中间表示,并在重构目标约束下学习稀疏激活的特征表示。通过这种方式,模型能够将高维隐空间分解为一组与生物学相关的低维特征,每个特征对应特定的结构或功能模式。研究人员在训练时引入稀疏性正则化,以确保单个特征激活仅与有限数量的序列片段相关,从而提升可解释性。随后,研究人员利用这些特征进行下游任务评估,包括基序检测、结构域识别以及功能预测,并检验它们在迁移学习中的表现。

结果

SAE 在 PLM 中找到可解释概念

在 ESM-2-8M 的各层训练 SAE 后,可视化显示大量生物概念在特征层面得到清晰对齐;深层(尤其后 3 层)富集更多结构与功能相关特征。与原始神经元相比,SAE 特征在“概念对齐”指标上显著更高,揭示“叠加”概念被稀疏字典解出并可解释。

交互式探索显示

InterPLM 能够自动发现氨基酸基序和蛋白质结构域。与已知数据库比对显示,许多特征与公认的功能基序和保守结构域高度一致。部分特征甚至揭示了新的潜在基序,提示其在发现未知功能模式中的价值。

SAE 特征比神经元更好覆盖生物学注释

与 Swiss-Prot 概念对齐时,SAE 特征 F1 分布整体高于神经元;在 ESM-2-8M 上,单层可达 2,309 个强匹配特征(F1>0.5),而神经元每层最多仅 46 个清晰匹配;随机权重对照几乎不产生任何真实生物概念匹配(但会对氨基酸类型形成表面匹配)。在更大的 ESM-2-650M 中,SAE 仍显著优于神经元,且识别概念数量增加 ~1.7×(427 vs 143),在酶学、核酸互作、结构元素等类别提升尤为突出。

特征按功能与结构形成簇,呈现“专—泛”层级

通过对齐三维结构,研究人员发现InterPLM提取的特征往往对应于二级结构元件(如α螺旋、β折叠)或其组合。这表明PLM内部确实蕴含了丰富的空间信息,而InterPLM能够以稀疏形式揭示这些规律。

图3 | 稀疏自编码器特征揭示了多样的激活模式和不同特异性水平下的功能聚类

大语言模型可生成有用的自动特征描述

为拓展 Swiss-Prot 标签覆盖,研究人员用 LLM 为 1,240 个特征生成文字描述并在独立蛋白上做外推预测,取得中位 Pearson r≈0.72 的相关度。示例包括:

  • f/10091:N-乙酰转移酶结构域内的疏水位点(V/I/L);
  • f/7404:HTH 调控因子的DNA 识别 α-螺旋;
  • f/8386:六肽重复 β-螺旋样结构(数据库无直接注释、但跨多功能蛋白稳定出现)。

LLM 描述与 Swiss-Prot 概念 F1 的相关性很弱(r≈0.11),说明即便缺少现有注释,LLM 也能形成有效文字解释。

特征激活可识别缺失与新注释

  • f/939(Nudix box 金属离子结合位点):在一组高度保守位置上强激活。多数高激活蛋白都标注了 Nudix 模体,但B2GFH1 在 Swiss-Prot 中缺失该注释;结构邻域与已注释 Nudix 高度相似,且 InterPro 独立确认该蛋白存在 Nudix 模体,提示数据库漏注。
  • f/436(丝氨酸蛋白酶近二硫键的疏水残基段):对多条S1 胰蛋白酶家族蛋白的80 aa区段强激活;部分蛋白在 Swiss-Prot 中缺失 S1 结构域标签,但 InterPro 给出相应证据。
  • f/9047(细菌糖基转移酶的核苷酸糖 + Mg²⁺ 结合位点邻域):跨多个家族检出保守结合位点结构,序列同一性仅 11–22%,但结构 TM-score≈0.74–0.78;许多高激活蛋白在 UniProtKB 中没有相应结合位点标签,提示可用于发现新/漏注功能位点

可解释特征可定向引导序列生成

为验证特征的因果效应,研究人员在 ESM-2 的中层表示处对选定特征进行“夹持(clamp)”干预,观察掩码预测的变化:

  • 周期性甘氨酸特征组(f/4616、f/4970、f/10003):这些特征在胶原样 GXXGXX…重复上强激活。仅在序列中一个已知 G 位点提升特征激活,即可提升该位点及下游第 3 位(掩码位)的甘氨酸概率,且周期性效应衰减传播至后续重复,体现对高阶周期模式的因果操控。
  • 非周期性甘氨酸高特异特征(f/6581、f/781、f/5381):只改变局部位点概率,不会在下游掩码位置产生周期传播。

这说明:能捕捉可解释模式的特征,可以在局部干预下对非干预位置产生可预期的全局影响,为可控的蛋白序列设计提供了方向性证据。

讨论

InterPLM 展示了在蛋白质语言模型中挖掘可解释特征的可行性。它不仅提升了模型在任务中的表现,还为研究人员提供了一个新的视角来理解序列与功能之间的联系。相比传统的特征可视化方法,InterPLM 提供了更系统且可扩展的框架,使得研究人员能够在不同任务和数据集上发现通用规律。未来的研究可进一步探索如何结合实验验证,以确认新发现基序的功能意义,并将其应用于蛋白质工程和药物设计等领域。

整理 | DrugOne团队

参考资料

Simon, E., Zou, J. InterPLM: discovering interpretable features in protein language models via sparse autoencoders. Nat Methods (2025).

https://doi.org/10.1038/s41592-025-02836-7

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档