
DRUGONE
蛋白质组学中的串联质谱(MS/MS)数据解析长期依赖数据库搜索和 de novo 测序方法,但现有模型大多仅作为特征提取器,缺乏统一的深度学习评分框架。研究人员提出了 pUniFind——一个基于多模态数据训练的大规模蛋白质组学基础模型,实现了开放式端到端肽段-谱图评分以及开放式零样本 de novo 测序的统一建模。该模型基于超过1亿条开放搜索标注谱图进行训练,通过跨模态预测任务对谱图与肽段模态进行深度对齐。
研究结果显示,得益于开放式评分能力,pUniFind 在多个数据集上均优于传统搜索引擎,尤其在免疫肽组学中,肽段鉴定数量提升了42.6%。研究人员进一步设计了两种 de novo 测序流程,以适配不同应用场景。在富含修饰的 de novo 测序任务中,即使搜索空间扩大300倍,pUniFind 仍比现有方法多识别60%的肽段-谱图匹配。在常规 de novo 测序中,模型额外恢复了38.5%的肽段,其中包括1891条能够映射到基因组但不存在于参考蛋白组数据库中的肽段。此外,研究人员还开发了基于深度学习特征的质量控制模块,使结果与 RNA-Seq 证据的一致性从65.4%提高至85.0%。整体来看,pUniFind 构建了一个统一、可扩展的蛋白质组学深度学习框架,在灵敏度、修饰覆盖范围和结果可解释性方面均实现了显著提升。

串联质谱技术已经成为现代蛋白质组学研究的核心工具。传统数据库搜索引擎,例如 SEQUEST、MaxQuant、pFind 和 AlphaPept,主要依赖人工设计特征与简单机器学习模型对肽段-谱图匹配(PSM)进行评分。然而,这类方法通常假设酶切规则固定,仅支持有限的常见翻译后修饰,因此在面对非特异性酶切或未知修饰时性能明显下降。
为提升 MS/MS 数据解析能力,研究人员发展了开放搜索(Open Search)方法,例如 Open-pFind 和 MSFragger,用于识别意外修饰和异常酶切肽段。同时,de novo 测序技术则尝试完全摆脱参考数据库,直接从谱图中推断肽段序列,在抗体测序、新抗原发现等领域具有重要价值。尽管近年来出现了 DeepNovo、PointNovo、Casanovo 和 GraphNovo 等深度学习模型,但整体准确率和鲁棒性仍受到限制。
近年来,深度学习逐渐被用于谱图预测、保留时间预测以及端到端 PSM 评分。研究人员意识到,数据库搜索与 de novo 测序本质上具有统一性,两者都依赖于对谱图与肽段关系的理解。然而,目前鲜有工作构建统一框架来同时处理数据库搜索、de novo 测序以及质量控制等任务。与此同时,多任务学习和多模态学习在计算机视觉、蛋白质设计和小分子预训练等领域已经展现出强大的泛化能力。
因此,研究人员提出构建统一的多模态深度学习模型,以同时提升数据库搜索与 de novo 测序能力,并进一步推动蛋白质组学解析从传统特征工程迈向真正的端到端学习。
方法
研究人员提出了 pUniFind,一个统一的多模态预训练框架。模型分别对肽段序列和 MS/MS 谱图进行编码,并通过多个跨模态预训练任务实现深度对齐,包括 de novo 测序任务、谱图预测任务以及候选肽段排序任务。研究人员首先利用 Open-pFind 对大规模公开数据进行重新注释,共收集超过1亿条 PSM,用于模型训练。
模型结构中,谱图编码器不仅学习谱图整体特征,还学习每个峰对应的氨基酸数量、离子类型以及肽段长度;肽段编码器则用于生成理论谱图表示。随后,联合模态评分器(joint-modality scorer)进一步融合谱图与肽段嵌入,实现端到端 PSM 评分。同时,研究人员还引入 listwise ranking 策略,以增强模型对候选肽段之间关系的建模能力。

图1:pUniFind 模型整体架构与多任务训练流程。
结果
pUniFind 构建统一的大规模蛋白质组学基础模型
研究人员首先展示了 pUniFind 的整体架构。模型通过独立编码谱图与肽段,再利用多种跨模态任务强化两种模态之间的关联学习。与传统仅依赖人工特征的评分方式不同,pUniFind 直接学习谱图与肽段之间的端到端关系。研究人员认为,这种统一建模方式能够显著提升复杂谱图的解析能力。
在多物种数据集上实现更高肽段鉴定率
研究人员在九个不同物种的数据集上评估了 pUniFind 的数据库搜索性能。结果显示,在开放搜索模式下,pUniFind 在所有数据集上均获得最高的肽段鉴定数量,相比 Open-pFind 进一步提升2–18%。尤其在 Vigna mungo 和 Bacillus subtilis 数据中提升尤为明显。
进一步的消融实验表明,引入 de novo 测序和谱图预测两个关键跨模态训练任务后,模型在枯草芽孢杆菌数据集上的肽段鉴定能力提高了60%。这说明跨模态学习显著增强了模型对谱图与肽段关系的理解。
研究人员还通过 entrapment strategy 评估模型可靠性。在混入蜜蜂蛋白数据库作为“陷阱数据库”的实验中,pUniFind 即使获得更高鉴定数量,也保持了正常甚至更低的错误匹配比例,证明模型具有较强鲁棒性。

图2:pUniFind 在九个物种数据集中的数据库搜索表现与修饰肽段分析。
深度学习跨模态训练显著提升修饰肽段识别能力
研究人员发现,pUniFind 在富含翻译后修饰的数据集中表现尤其突出。例如在酵母数据集中,修饰肽段占比达到58.4%,对应模型性能提升也更加明显。与 Open-pFind 基于 SVM 的评分方式不同,pUniFind 能够利用谱图预测任务避免对低频修饰产生惩罚,因此能够更稳定地识别稀有修饰。
在21种 PTM 数据集测试中,即使不使用在线 refinement,pUniFind 仍在61.9%的修饰类别中获得更高肽段识别数量,展现出对多种修饰类型的广泛适应性。
在 Astral与timsTOF数据上维持高精度与低错误率
研究人员进一步在 Astral 与 timsTOF 数据上测试模型。经过微调后,pUniFind 在 Astral 数据中的性能相比 Open-pFind 和 MSFragger+MSBooster 提高约9%。
在代谢标记的大肠杆菌数据集中,pUniFind 获得比 pFind 高10%、比 MSFragger+MSBooster 高43.9%的 PSM 数量,同时缺失定量比例(MQR)仅为0.26%,表明模型不仅提高了识别率,也维持了较高准确性。
此外,研究人员通过混合物种 entrapment 测试进一步证明,pUniFind 不会因训练数据而产生明显标签记忆现象,其评分策略更加保守且可靠。

图3:pUniFind 在 Astral、TIMS 与代谢标记数据中的性能评估。
构建开放式 de novo 测序统一工作流
研究人员提出了两种 de novo 测序模式:常规 de novo 测序以及富含修饰的 de novo 测序。前者适用于一般数据集,后者则针对磷酸化等修饰富集数据进行优化。
为了提升结果可靠性,研究人员还开发了基于深度学习特征的过滤策略,结合端到端评分、谱图预测和保留时间等信息,对低可信结果进行系统过滤。

图4:pUniFind 开放式 de novo 测序工作流。
在富修饰PTM数据集上显著优于传统de novo方法
在包含21种 PTM 的 benchmark 数据集中,pUniFind+pFind 的平均 peptide recall 达到63.8%。即使搜索空间扩大300倍,其性能仍与传统 de novo 方法相当,并比 pNovo 提高60%。
值得注意的是,pUniFind 可以在没有先验知识的情况下同时考虑超过1300种 PTM,而 pNovo 即使提前指定正确 PTM,recall 也仅为47.6%。在 modification-level、sequence-level 与 site-level 三种评估标准下,pUniFind 均明显优于 pNovo。
研究人员还发现,即使是训练集中样本极少的稀有修饰,pUniFind 依然能够获得超过60%的 peptide recall,说明模型对低频修饰具有良好泛化能力。

图5:pUniFind 在21种 PTM 数据集上的开放式 de novo 测序性能。
在免疫肽组学与宏蛋白组学等复杂场景中取得突破
研究人员进一步将 pUniFind 应用于超大搜索空间场景,包括宏蛋白组学与免疫肽组学。结果显示,在宏蛋白组学数据中,pUniFind 比 Open-pFind 和 MSFragger+MSBooster 分别多识别6.3%和29.0%的肽段。
在更具挑战性的免疫肽组学数据中,pUniFind 的识别数量相比 MSFragger+MSBooster 提高17.4%,相比 Open-pFind 提高42.6%。同时,其新识别谱图的余弦相似度中位数仍达到0.95,证明新增结果具有较高可靠性。
在 de novo 测序任务中,pUniFind 的 peptide recall 达到86.3%,明显高于 Casanovo v2 的69.1%。研究人员进一步发现,模型能够识别大量不存在于参考蛋白数据库、但能够映射到人类基因组中的 HLA 肽段,其中1891条肽段满足高可信标准。
此外,基于 RNA-Seq 支持数据集的评估表明,过滤模块可将 RNA-Seq 一致性从65.4%提高至85%,显著增强 de novo 结果可信度。

图6:pUniFind 在免疫肽组学与宏蛋白组学中的应用表现。
讨论
研究人员提出的 pUniFind 首次将开放数据库搜索、开放 de novo 测序以及深度学习质量控制统一到一个多模态预训练框架中。通过跨模态预训练策略,模型能够同时理解谱图和肽段信息,实现真正意义上的端到端 PSM 评分。研究结果表明,这种统一深度学习框架不仅优于传统特征工程方法,还有潜力替代当前主流评分体系。
特别是在免疫肽组学和宏蛋白组学等复杂场景中,pUniFind 展现出显著优势。此外,模型实现了开放式 de novo 测序,使修饰肽段的测序性能首次达到甚至超过未修饰肽段水平。
研究人员也指出,目前模型尚未在数据库搜索任务中充分整合保留时间信息,也尚未完全适配 DIA 数据分析。未来工作将扩展到大规模 DIA 数据集,并进一步完善统一谱图解析框架。
整理 | DrugOne团队
参考资料
Zhao, J., Mao, P., Wang, K. et al. A large-scale unified deep learning model for peptide mass spectrum interpretation trained on multimodal data. Nat Mach Intell (2026).
https://doi.org/10.1038/s42256-026-01234-8