准确预测蛋白质突变的功能效应是一项关键且具有挑战性的任务。突变的功能效应不仅涉及其是否具有致病性(如“良性”或“有害”),更需量化其对蛋白质功能的具体影响,例如酶活性或稳定性的增减。这类信息在癌症靶向治疗和蛋白质工程中尤为重要,例如某些药物的疗效依赖于突变是否导致酶活性增强。
大多方法如AlphaMissense能够有效区分突变的致病性,但无法提供功能变化的细节;而现有的多模态方法(如PreMode)虽整合了结构和进化数据,却因计算成本高、泛化能力不足而受到限制。
为应对这些挑战,Moritz Glaser 和 Johannes Brägelmann 在ICLR 2025上发表的研究《ESM-Effect: An Effective and Efficient Fine-Tuning Framework towards Accurate Prediction of Mutation’s Functional Effect》提出了ESM-Effect框架。该框架通过优化蛋白质语言模型ESM2的微调策略,仅基于序列信息即可实现高效、精准的突变功能效应预测。
突变功能效应预测的难点在于,既要超越简单的致病性分类,又要克服现有方法的复杂性和效率瓶颈。传统方法多依赖静态嵌入或多模态特征(如蛋白质结构和进化信息),但这些方法在量化功能变化时往往表现不足,且数据处理和预训练过程繁琐。此外,缺乏标准化的基准数据集和评估指标进一步限制了模型的开发与比较。ESM-Effect通过高效微调和创新设计,不仅提升了预测性能,还显著降低了计算成本,为精准医疗和蛋白质工程提供了实用工具。
ESM-Effect以ESM2蛋白质语言模型为基础,通过广泛的消融研究优化其性能。
以下是其核心技术特点:
ESM-Effect在多个深突变扫描(DMS)数据集上表现出色,其预测准确性全面超越现有方法。以Spearman相关系数(ρ)为例,ESM-Effect在不同任务中均优于多模态方法PreMode。例如,在PTEN酶活性预测中,ESM-Effect的ρ值为0.602,高于PreMode的0.597;在ASPA稳定性预测中,ESM-Effect的ρ值为0.819,略高于PreMode的0.818。值得注意的是,PreMode依赖的结构和进化特征被证明具有冗余性,仅基于序列的ESM-Effect即可达到同等甚至更高的精度。
此外,研究引入了新的评估指标——相对分箱均值误差(rBME),定义为:
基线
相较于传统Spearman ρ易受中性突变干扰的局限,rBME更关注罕见但关键的功能变化(如增益突变),能够更直观地反映模型在生物学意义上的预测能力。实验结果显示,ESM-Effect在rBME指标下同样表现优异,尤其在挑战性区域展现了更高的鲁棒性。
尽管取得了显著进展,ESM-Effect仍面临一些局限。首先,其泛化能力具有区域依赖性。在有序蛋白区域(如SNCA,ρ=0.65)表现优异,但在无序区域(无稳定结构,ρ=-0.02)预测效果较差。其次,跨蛋白质的泛化能力有限,例如从GCK到SRC激酶的预测未能成功。这些问题表明,模型对蛋白质结构和序列特异性的依赖性仍有待突破。
研究者提出了若干改进方向以克服上述局限。首先,可通过革新预训练范式,整合生化反应等深层知识,进一步增强模型对功能效应的理解。其次,探索跨蛋白迁移学习,利用家族蛋白的共享特征提升模型的普适性。此外,研究提供的标准化基准数据集和评估指标(如rBME)为后续研究奠定了基础,有望推动该领域的进一步发展。
本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。