首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | DECODE: 统一多组学去卷积的深度学习框架,打破转录组、蛋白组与代谢组壁垒

Nat. Methods | DECODE: 统一多组学去卷积的深度学习框架,打破转录组、蛋白组与代谢组壁垒

作者头像
DrugAI
发布2026-03-03 17:51:27
发布2026-03-03 17:51:27
1120
举报

DRUGONE

细胞比例的精确估计是理解组织功能、疾病进展及群体差异的关键环节。尽管现有去卷积方法已广泛应用于转录组数据,但多数算法高度依赖特定组学类型,难以扩展至蛋白组和代谢组数据,也难以在跨队列和跨平台场景中保持稳定性能。为解决这一问题,研究人员提出了DECODE,一种基于深度学习的通用去卷积框架,可同时适用于转录组、蛋白组与代谢组数据,并能够在细胞类型和细胞状态层面实现精确分解。该方法不仅弥补了代谢组去卷积领域的空白,还在不同供体、疾病状态、健康状态、数据集来源及测量平台之间展现出显著优于现有方法的表现。更重要的是,DECODE在单细胞参考数据不完整的现实条件下依然能够稳定估计已知细胞类型比例,表现出极高的鲁棒性。该框架为将大规模多组学队列数据扩展至细胞层级分析提供了有力工具。

组织中的细胞比例反映了不同细胞类型在微环境中的构成情况,其动态变化在器官发育、基因调控及疾病进展中发挥关键作用。虽然单细胞多组学技术为解析细胞异质性提供了直接手段,但高昂成本及样本处理限制使其难以广泛应用于大规模队列研究。此外,大量历史组织样本无法进行单细胞分离处理,使得如何将组织水平多组学数据推广至细胞层级成为重要挑战。

目前,多组学领域的去卷积算法呈现出“组学特异性发展”的格局。转录组领域已有多种成熟工具,空间转录组亦有专门方法,蛋白组去卷积也开始出现专用模型。然而,这些方法往往建立在特定分布假设之上,难以泛化至其他组学类型。更为关键的是,代谢组去卷积方法几乎处于空白状态,尽管代谢物与临床表型之间往往具有高度相关性。

此外,统一框架的构建面临多重挑战。不同组学在数据尺度、分布形式、稀疏性及特征维度方面存在显著差异。单细胞参考数据往往无法覆盖组织中的全部细胞类型,导致细胞类型缺失问题。同时,单细胞与组织数据来源于不同供体和技术平台,存在严重批次效应。这些问题共同限制了多组学整合分析的可扩展性和可靠性。

在此背景下,研究人员构建了DECODE框架,旨在实现跨组学统一去卷积,并解决批次效应、不完整参考和噪声扰动等现实难题。

结果

DECODE框架概述

DECODE整合对抗训练与对比学习策略,整体分为四个阶段。首先通过随机抽样单细胞数据构建伪组织样本用于模型训练。随后利用对抗训练机制消除训练组织与目标组织之间的批次效应。第三阶段引入特征增强与去噪模块,通过对比学习分离噪声与真实组织信号,提高模型在不同组学和扰动条件下的鲁棒性。最后在推理阶段,根据是否存在未知细胞类型选择不同路径进行去卷积预测。

该结构设计使模型能够在高度异质的多组学环境中保持稳定表现。

图1:DECODE框架示意图。

在转录组与蛋白组数据中的优越性能

在多个跨供体、跨疾病状态、跨健康状态及跨数据集场景下,DECODE在一致性相关系数(CCC)指标上始终处于领先地位。即使在空间转录组及多细胞类型场景中,DECODE也保持稳定优势。虽然个别场景下部分方法在Pearson相关性上略有优势,但综合性能方面DECODE表现最为均衡。

在真实组织数据评估中,DECODE同样表现稳定。其运行时间和内存消耗处于合理范围,说明该方法不仅准确,也具备可扩展性。

图2:DECODE在转录组与蛋白组数据中的去卷积性能概览。

代谢组去卷积的突破性表现

代谢组去卷积面临特征数量少、细胞间相似度高等挑战。单细胞代谢组通常仅包含数百个特征,远低于转录组和蛋白组。此外,不同细胞类型之间的代谢物差异较小,使得区分信号更加困难。

在小鼠肝脏、骨髓以及人类结直肠癌单细胞代谢组数据测试中,DECODE显著优于其他方法。多数现有工具在代谢组数据上表现失效,而DECODE仍可保持接近真实比例的预测结果。结果表明,该框架具备捕捉微弱细胞差异信号的能力。

图3:DECODE在代谢组数据中的去卷积性能概览。

细胞状态去卷积能力

除细胞类型外,DECODE还可解析细胞状态,包括伪时间轨迹、细胞周期阶段以及药物处理时间点等。研究人员在三种不同组学数据集上测试该能力。无论是连续伪时间状态,还是离散细胞周期或药物处理状态,DECODE均获得最高CCC值。

该结果表明,DECODE不仅能恢复细胞组成,还能重建细胞动态变化过程。

图4:DECODE在不同组学数据上的细胞状态去卷积性能概览。

不完整单细胞参考与噪声扰动下的鲁棒性

现实应用中,单细胞参考往往缺失部分细胞类型。研究人员通过逐步加入未知细胞类型,并引入随机噪声、系统性偏差及特征缺失等扰动,系统评估模型鲁棒性。

在四种扰动场景下,DECODE整体优于其他方法,尤其在代谢组数据中表现出明显优势。稳定性分析显示,虽然个别方法在转录组中波动较小,但在综合准确性方面DECODE仍保持领先。

这些结果表明,该框架能够在复杂、接近真实环境的条件下稳定运行。

图5:四种扰动场景下模型鲁棒性评估。

跨组学一致性与真实多组学队列应用

在PBMC CITE-seq数据构建的转录组与蛋白组伪队列中,DECODE在两个组学层面获得几乎一致的去卷积结果。KL散度和Spearman相关性分析显示其跨组学预测高度一致。

在真实多组学乳腺癌队列分析中,研究人员发现不同临床状态之间存在显著细胞组成差异,例如非转移肿瘤中T细胞和周血管样细胞比例更高,而B细胞比例在转移过程中升高。在多队列小鼠肝脏研究中,不同饮食和疾病模型下Kupffer细胞和肝细胞比例呈现符合生物学预期的变化趋势。

这些结果证明DECODE能够在真实复杂队列中产生生物学可解释的结果。

图6:DECODE在伪多组学队列与真实多组学队列中的应用。

讨论

DECODE填补了代谢组去卷积领域的技术空白,并首次实现跨转录组、蛋白组和代谢组的统一去卷积框架。其核心优势在于通过对抗训练消除批次效应,通过对比学习和自注意力机制分离噪声与真实信号,从而在多种扰动环境下保持高精度。

该方法为多组学整合分析提供了统一工具,避免不同组学使用不同算法所带来的系统误差累积问题。未来,该框架可进一步拓展至更多组学类型,并在精准医学和大规模队列研究中发挥重要作用。

整理 | DrugOne团队

参考资料

Zhao, T., Liu, R., Sun, Y. et al. DECODE: deep learning-based common deconvolution framework for various omics data. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03007-y

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档