
DRUGONE
宏蛋白质组学为理解微生物群落的功能活动提供了强大手段,但由于蛋白数据库的庞大与不完整,肽段的准确识别仍具挑战性。研究人员提出了 WinnowNet,一种基于深度学习的 肽谱匹配(PSM)过滤方法,包含 Transformer 与卷积神经网络(CNN)两个版本。WinnowNet 能处理 PSM 数据的无序特性,并采用 课程学习(Curriculum Learning) 策略,从简单到复杂样本逐步训练模型。
在多个基准宏蛋白质组数据集中,WinnowNet 在相同的假发现率(FDR)下识别出更多真实肽段,相比 Percolator、MS2Rescore 和 DeepFilter 等主流方法表现更优。WinnowNet 还能揭示与饮食和健康相关的人体肠道微生物组生物标志物,展示了其在个性化医学中的潜力。

宏蛋白质组学通过分析来自土壤、海洋或肠道等复杂环境的蛋白质,揭示微生物群落的结构与功能。典型的流程包括:蛋白质水解生成肽段,经 LC-MS/MS 分析获得质谱信号,然后将实验谱图与蛋白数据库中理论谱图匹配。匹配评分(PSM 分数)用于评估相似度,并通过设定阈值控制假发现率(FDR),以筛除错误匹配。
然而,随着质谱技术和宏基因组测序的发展,谱图数量和数据库规模急剧增加,导致随机匹配得高分的概率升高,从而增加了错误识别风险。传统的统计或机器学习过滤算法(如 Percolator、PeptideProphet)主要依赖人工设计特征,难以充分利用谱图中蕴含的复杂模式。
为此,研究人员开发了 WinnowNet,一种能自动学习实验谱与理论谱之间特征关系的深度学习架构,并引入课程学习提升模型的泛化性与收敛速度。
方法
WinnowNet 框架
WinnowNet 旨在对数据库搜索产生的肽谱匹配结果进行重排序,以提高识别准确率。
研究人员使用 ProteomeTools 数据集及多个宏蛋白质组数据库构建大规模训练集,结合 Transformer 与 CNN 两种结构以适应不同任务。
模型输入包括实验谱图与理论谱图,经归一化后分别送入谱图编码器(Spectrum Encoder),由自注意力机制捕获谱峰间的相互关系。两者输出连接后通过全连接层输出匹配概率,反映 PSM 的置信度。
课程学习(Curriculum Learning) 用于从简单到复杂样本逐步训练模型:
模型在训练中采用早停机制防止过拟合,并通过交叉验证评估性能。
结果
基准数据集与评估指标
研究人员在十二个宏蛋白质组数据集上测试 WinnowNet,包括人工混合物(P1–P3)、海洋样本(Marine1–3)、土壤样本(Soil1–3)和人类肠道样本(Human Gut、Human Gut timsTOF)。
所有结果均基于 1% FDR 计算,采用 “Entrapment” 方法评估识别准确性,通过随机打乱目标蛋白或引入外源蛋白生成假目标,以估计假发现率(FDR)与假匹配率(FMR)。
性能比较
与主流过滤算法比较
WinnowNet 与 Percolator、Q-ranker、PeptideProphet、iProphet、MS2Rescore 和 DeepFilter 六种算法进行比较。结果显示,WinnowNet 在所有数据集上均获得最高的 PSM、肽段和蛋白识别数。
相较 DeepFilter,WinnowNet 在海洋数据中提升 10% 左右,在复杂肠道数据中仍保持 3–4% 的提升。
这些结果表明 WinnowNet 更好地捕获了实验谱与理论谱之间的匹配规律,从而显著增强识别准确性。



集成到主流分析流程中的表现
研究人员将 WinnowNet 集成至四种常用宏蛋白质组分析平台:Sipros-Ensemble、FragPipe、Peaks Studio 和 AlphaPept。
在 Marine3、Soil3、P3 和 Human Gut 数据集上,所有平台在引入 WinnowNet 后均显著提升:
这些一致的改进证明了 WinnowNet 的稳健性与可扩展性。


肠道宏蛋白质组的生物学洞察
研究人员对仅被 WinnowNet 识别的人体肠道蛋白进行注释分析,发现共计 1015 个独特蛋白,来自 50 种微生物。
其中包括多种低丰度但重要的肠道菌群,如:
此外,这些特异性蛋白关联到三条 KEGG 通路,如 二甲苯降解 与 膦酸盐代谢,与膳食代谢及益生菌功能密切相关。

计算效率
CNN 版 WinnowNet 仅含 82 万参数,为 DeepFilter 的 22%,训练与推理速度更快。
在 GPU 加速下,CNN 版 WinnowNet 多数数据集推理时间不足 10 分钟,而 Transformer 版约 30 分钟。
该架构在计算效率与识别精度间实现灵活平衡,适用于不同资源条件的实验室。
讨论
现有 PSM 重排序算法多依赖人工特征或基于支持向量机的回归模型,无法充分利用谱图间的复杂模式。
WinnowNet 的优势在于:
研究人员指出,虽然 WinnowNet 当前作为数据库搜索后的重评分工具,但其潜力可进一步扩展为完整的数据库搜索引擎。未来计划包括:
进一步分析显示,WinnowNet 学习到的注意力权重能聚焦关键碎片离子,从而区分真伪 PSM,这为解释模型内部机制提供了新视角。
总体而言,WinnowNet 显著提升了宏蛋白质组数据的肽段与蛋白识别率,为复杂微生物群落功能解析及个性化医学研究提供了新工具。
整理 | DrugOne团队
参考资料
Feng, S., Zhang, B., Wang, H. et al. Enhancing peptide identification in metaproteomics through curriculum learning in deep learning. Nat Commun 16, 8934 (2025).
https://doi.org/10.1038/s41467-025-63977-z
内容为【DrugOne】公众号原创|转载请注明来源