
DRUGONE
单细胞技术的发展使得在同一细胞中同时测量多种数据模态成为可能。然而,现有方法往往分别分析各模态数据,或通过整合表示学习获得统一嵌入,却难以区分哪些信息是模态共享的,哪些是模态特异的。研究人员提出了一种名为 APOLLO 的计算框架,通过带有部分重叠潜在空间的自编码器结构,自动学习多模态之间的“部分信息共享”机制。该方法能够同时分离共享信息与模态特异信息,并支持跨模态预测。研究人员在模拟数据以及多个真实数据集上验证了 APOLLO 的性能,包括 SHARE-seq、CITE-seq 以及多重单细胞成像数据。结果表明,APOLLO 不仅能够预测缺失模态信息(例如根据染色质图像预测未测量的蛋白染色),还可以解析不同模态对特定表型的贡献,从而提供更具可解释性与整体性的细胞状态表征。

不同实验技术能够从转录组、染色质结构、蛋白丰度及亚细胞形态等多个角度刻画细胞状态。然而,真实的细胞状态是不可直接观测的,其物理、转录与功能状态之间往往存在部分共享的信息,也存在仅在某一模态中才能捕捉到的特异信息。传统方法要么分别分析不同模态并事后比较结果,要么学习统一的整合嵌入表示,但后者通常将共享信息与特异信息混合在同一潜在空间中,导致难以解释不同模态对表型的独立贡献。
随着单细胞多组学测量与多重成像数据的快速增长,迫切需要一种能够自动区分并建模“共享信息”与“模态特异信息”的计算方法。APOLLO 正是在这一背景下提出,其核心目标是学习一个部分重叠的潜在空间,使不同模态之间的共享维度与特异维度能够被显式区分。

图1: APOLLO 在部分共享多模态嵌入学习及跨模态预测中的整体框架示意图。
方法
APOLLO 基于自编码器框架构建。与传统多模态自编码器不同,APOLLO 为每个模态构建独立的编码器与解码器,并在潜在空间中划分为三部分:共享潜在空间、模态1特异空间与模态2特异空间。模型采用两阶段训练策略:第一阶段通过“潜变量优化”训练解码器,并直接更新潜在变量,使其能够准确重建输入数据;第二阶段训练各模态编码器,使其能够将未见样本映射到已学习的潜在空间。
这种结构允许模型仅在部分潜在维度上对齐不同模态,从而实现信息的部分共享。通过额外的共享解码器结构,APOLLO 还能实现跨模态预测,例如利用染色质图像预测蛋白定位图像。

图2: APOLLO 在配对 scRNA-seq 与 scATAC-seq 数据中识别共享与模态特异信息的应用。
结果
APOLLO 能够正确分离共享与模态特异信息
在模拟数据中,研究人员构建了具有已知潜在因果结构的数据集,以系统评估模型的解耦能力。结果表明,无论潜在变量之间是否存在依赖关系,或观测特征是否由多个潜变量共同决定,APOLLO 都能正确识别共享与特异潜在特征。
在 SHARE-seq 数据中,APOLLO 成功区分了同时由 RNA 与 ATAC 捕捉到的基因活性信息,以及仅由其中一种模态捕捉的调控信息。将 RNA 特异潜在空间加入分类模型后,细胞类型预测准确率明显提升,说明特异潜在空间确实包含生物学相关信息。

图3: APOLLO 基于染色质成像预测蛋白亚细胞定位。
在 CITE-seq 数据中实现批次效应与生物信息分离
在 CITE-seq 数据分析中,APOLLO 的共享潜在空间主要反映细胞类型差异,而 RNA 特异空间则捕捉实验批次效应。相比之下,现有整合方法往往在同一潜在空间中混合细胞类型与批次效应信息。APOLLO 因此在保持整合能力的同时,提供了更清晰的生物学解释。
实现跨模态预测:从染色质预测蛋白定位
在多重单细胞成像数据中,APOLLO 能够根据染色质图像准确预测未测量蛋白的定位图像。与传统图像补全方法相比,APOLLO 在单细胞层面生成的蛋白图像更真实,预测误差更低。消融实验表明,两阶段训练策略是性能提升的关键。
进一步分析显示,由染色质预测得到的蛋白图像在疾病分类任务中的表现与真实蛋白图像相当,说明共享潜在空间确实捕捉到了与疾病相关的生物学信息。

图4: APOLLO 潜在空间中染色质组织与蛋白定位的共享与模态特异形态学特征解析。
解析染色质与蛋白之间的形态学关联
通过对潜在空间进行主成分分析,研究人员识别出共享与特异潜在空间所对应的形态特征。例如,异染色质体积这一与衰老和神经退行性疾病相关的特征,仅存在于共享潜在空间中;而 γH2AX 焦点数量则主要存在于蛋白特异潜在空间中。
特征消融实验进一步证明,蛋白特异潜在空间捕捉到了关键疾病相关信息。这种分析框架使得研究人员能够系统解析不同细胞组分对蛋白亚细胞定位变化的贡献。

图5: APOLLO 用于建模不同细胞组分与蛋白亚细胞定位之间的关系。
讨论
APOLLO 提供了一种通用的多模态整合框架,通过部分重叠的潜在空间显式建模共享与特异信息。该方法不仅提升了跨模态预测能力,还增强了生物学解释性。尽管模型基于潜变量优化策略,目前尚缺乏严格的理论可识别性保证,但在模拟与真实数据中表现稳健。
未来研究方向包括:更精确地估计共享与特异潜在空间的内在维度;引入可学习噪声以实现不确定性量化;以及扩展至未配对多模态数据场景。更广泛地看,APOLLO 不仅适用于单细胞数据,也可推广至个体层面的多模态医学数据整合。
总体而言,APOLLO 通过显式学习部分信息共享机制,为理解细胞状态提供了更加完整、可解释且具预测能力的计算框架。
整理 | DrugOne团队
参考资料
Zhang, X., Shivashankar, G.V. & Uhler, C. Partially shared multi-modal embedding learns holistic representation of cell state. Nat Comput Sci (2026).
https://doi.org/10.1038/s43588-025-00948-w

内容为【DrugOne】公众号原创|转载请注明来源