
DRUGONE
蛋白质语言模型(PLM)在结构与功能预测方面表现卓越,但内部机制仍不透明。研究人员提出 InterPLM:在 ESM-2 表示上训练稀疏自编码器(SAE),从而提取成千上万个人类可解释的特征,覆盖结合位点、结构基序与功能结构域等概念;单个“神经元”对概念的对齐度较低,提示 PLM 以“叠加”(superposition)方式存储概念,而 SAE 特征可将其解叠并解释。该现象跨模型尺度稳定存在,大模型捕获的可解释概念更多。研究人员进一步开发自动化解释流程(LLM 辅助)用于特征描述与验证;这些特征可用于发现数据库缺失注释与可解释地引导序列生成。结果表明,PLM 表示可分解为可解释成分,为机制级解释与应用提供可行路径。

近年来,蛋白质语言模型迅速发展,基于无监督大规模训练的模型在结构预测、功能注释和分子设计等任务上取得显著进展。然而,这些模型的内部表示往往难以理解,研究人员无法明确模型是如何捕捉到特定功能信号的。缺乏可解释性不仅阻碍了科学发现的透明性,也限制了模型在实际生物学应用中的信任度。稀疏自编码器作为一种学习稀疏且分离表示的工具,已在自然语言处理与视觉模型中展现出增强可解释性的潜力。研究人员基于这一思路设计了InterPLM,用于解析蛋白质语言模型中的隐空间结构。
方法
InterPLM 的核心是一个稀疏自编码器,它接收PLM的中间表示,并在重构目标约束下学习稀疏激活的特征表示。通过这种方式,模型能够将高维隐空间分解为一组与生物学相关的低维特征,每个特征对应特定的结构或功能模式。研究人员在训练时引入稀疏性正则化,以确保单个特征激活仅与有限数量的序列片段相关,从而提升可解释性。随后,研究人员利用这些特征进行下游任务评估,包括基序检测、结构域识别以及功能预测,并检验它们在迁移学习中的表现。
结果
SAE 在 PLM 中找到可解释概念
在 ESM-2-8M 的各层训练 SAE 后,可视化显示大量生物概念在特征层面得到清晰对齐;深层(尤其后 3 层)富集更多结构与功能相关特征。与原始神经元相比,SAE 特征在“概念对齐”指标上显著更高,揭示“叠加”概念被稀疏字典解出并可解释。

交互式探索显示
InterPLM 能够自动发现氨基酸基序和蛋白质结构域。与已知数据库比对显示,许多特征与公认的功能基序和保守结构域高度一致。部分特征甚至揭示了新的潜在基序,提示其在发现未知功能模式中的价值。
SAE 特征比神经元更好覆盖生物学注释
与 Swiss-Prot 概念对齐时,SAE 特征 F1 分布整体高于神经元;在 ESM-2-8M 上,单层可达 2,309 个强匹配特征(F1>0.5),而神经元每层最多仅 46 个清晰匹配;随机权重对照几乎不产生任何真实生物概念匹配(但会对氨基酸类型形成表面匹配)。在更大的 ESM-2-650M 中,SAE 仍显著优于神经元,且识别概念数量增加 ~1.7×(427 vs 143),在酶学、核酸互作、结构元素等类别提升尤为突出。

特征按功能与结构形成簇,呈现“专—泛”层级
通过对齐三维结构,研究人员发现InterPLM提取的特征往往对应于二级结构元件(如α螺旋、β折叠)或其组合。这表明PLM内部确实蕴含了丰富的空间信息,而InterPLM能够以稀疏形式揭示这些规律。

图3 | 稀疏自编码器特征揭示了多样的激活模式和不同特异性水平下的功能聚类
大语言模型可生成有用的自动特征描述
为拓展 Swiss-Prot 标签覆盖,研究人员用 LLM 为 1,240 个特征生成文字描述并在独立蛋白上做外推预测,取得中位 Pearson r≈0.72 的相关度。示例包括:
LLM 描述与 Swiss-Prot 概念 F1 的相关性很弱(r≈0.11),说明即便缺少现有注释,LLM 也能形成有效文字解释。

特征激活可识别缺失与新注释

可解释特征可定向引导序列生成
为验证特征的因果效应,研究人员在 ESM-2 的中层表示处对选定特征进行“夹持(clamp)”干预,观察掩码预测的变化:
这说明:能捕捉可解释模式的特征,可以在局部干预下对非干预位置产生可预期的全局影响,为可控的蛋白序列设计提供了方向性证据。

讨论
InterPLM 展示了在蛋白质语言模型中挖掘可解释特征的可行性。它不仅提升了模型在任务中的表现,还为研究人员提供了一个新的视角来理解序列与功能之间的联系。相比传统的特征可视化方法,InterPLM 提供了更系统且可扩展的框架,使得研究人员能够在不同任务和数据集上发现通用规律。未来的研究可进一步探索如何结合实验验证,以确认新发现基序的功能意义,并将其应用于蛋白质工程和药物设计等领域。
整理 | DrugOne团队
参考资料
Simon, E., Zou, J. InterPLM: discovering interpretable features in protein language models via sparse autoencoders. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02836-7
内容为【DrugOne】公众号原创|转载请注明来源