引言 单细胞多组学技术通过在单个细胞层面同时测量多种分子模态(如转录组、表观基因组、染色质可及性和蛋白质组等),为揭示细胞异质性、发育轨迹和调控机制提供了前所未有的视角。然而,该技术在实际应用中面临诸多限制,包括实验成本高昂、样本制备复杂、数据噪声显著以及多模态数据的对齐与整合困难等。传统计算方法,如变分自编码器(VAE)和流模型,在生成质量和跨模态推理能力上存在明显不足。
针对这些问题,清华大学张学工教授团队提出了scDiffusion-X 模型。该模型基于潜在扩散框架和双交叉注意力机制(Dual-Cross-Attention, DCA),在多组学数据生成、模态翻译和基因调控网络解析方面取得了显著进展。
模型架构 核心框架:编码-扩散-解码 scDiffusion-X采用了一种“编码-扩散-解码”的三阶段架构:
多模态自编码器 :将高维多组学数据(如scRNA-seq和scATAC-seq)分别压缩至低维潜在空间,便于后续处理。多模态去噪网络 :在潜在空间中通过约1000步迭代的扩散过程,逐步去除噪声,生成具有生物学意义的表示。解码器 :将潜在空间中的数据恢复为原始模态的高维表示。这一结构通过在低维空间操作,降低了计算复杂度,同时保留了数据的关键特征。
关键创新:双交叉注意力(DCA)模块 scDiffusion-X的突出创新在于引入了DCA模块,用于捕捉不同模态间的复杂关系。相比传统方法(如简单拼接或早期/晚期整合),DCA通过双向注意力机制实现动态交互:
RNA→ATAC注意力 :反映基因表达对染色质开放区域的调控作用。ATAC→RNA注意力 :捕捉表观修饰对基因表达的反馈影响。
实验表明,DCA显著提升了模型性能。例如,在生成数据质量上,局部逆辛普森指数(LISI)提升15.5%,最大均值差异(MMD)降低33.3%,显示出更强的跨模态一致性和数据保真度。条件控制生成 scDiffusion-X还支持条件标签嵌入,允许根据细胞类型、组织来源、疾病状态或实验条件生成特定场景下的多组学数据。这种灵活性增强了模型在模拟真实生物学情境时的适用性。
性能验证 高保真数据生成 在OpenProblem和PBMC10k等数据集上的测试显示,scDiffusion-X生成的单细胞数据与真实数据高度吻合:
可视化分析 :UMAP投影显示生成数据与真实数据的细胞聚类结构一致。量化指标 :随机森林分类器区分真假数据的AUC低至0.575(接近0.5表示难以区分),Spearman相关系数等统计指标也表现出色。罕见细胞增强 :通过生成数据补充罕见细胞类型样本,分类任务的F1值从0%提升至80%,显著改善了稀有细胞类型的检测能力。相较于现有方法(如MultiVI、CFGen和scDesign3),scDiffusion-X在全局分布和细胞类型特异性信号的保留上均占据优势。
跨模态翻译能力 scDiffusion-X能够从一种模态(如RNA-seq)生成另一种模态(如ATAC-seq),为仅获取单一模态数据的实验场景提供了解决方案。与BABEL模型相比:
LISI提升 :RNA到ATAC的翻译任务中,LISI从0.31升至0.67,显示出更好的细胞类型多样性保持能力。扰动预测 :基因敲除后,80%的染色质区域变化方向预测准确,验证了模型对生物学动态的模拟能力。基因调控网络解析 通过DCA模块的梯度可解释性分析,scDiffusion-X能够识别关键调控元件并构建细胞类型特异的异质网络:
调控元件定位 :83%的预测调控峰与ENCODE数据库的增强子或启动子区域重叠。具体案例 :在CD4+ T细胞中,模型成功解析了CD5基因的启动子-增强子调控环路,与HiChIP等实验数据一致,进一步证实了其生物学意义。
这些结果表明,scDiffusion-X不仅能生成数据,还能揭示模态间的潜在调控关系。应用前景:从数据增强到机制挖掘 scDiffusion-X的多功能性使其在以下场景中具有广泛应用潜力:
数据增强 :通过生成高质量数据弥补罕见细胞类型样本不足的问题。跨模态预测 :仅基于RNA数据即可重构ATAC图谱,降低实验成本。动态扰动模拟 :预测基因编辑或药物干预对表观组的影响。调控网络构建 :挖掘细胞类型特异的基因-增强子互作网络,为机制研究提供线索。此外,模型识别的高关注基因与免疫相关的基因本体(GO)术语高度相关,如负性胸腺T细胞选择和γ-δ T细胞受体复合体,凸显了其在免疫学等领域的潜力。
技术亮点与未来发展 核心优势 DCA机制 :突破传统整合方式,实现动态跨模态交互。可解释性 :首次将扩散模型与调控网络解析相结合,通过梯度分析提供生物学洞见。灵活性 :支持多条件输入,适应多样化的研究需求。未来展望 模态扩展 :将模型应用于CITE-seq等蛋白-RNA多组学数据。空间整合 :结合空间转录组数据,解析三维调控网络。大模型化 :开发多组学预训练模型,提升泛化能力和计算效率。随着单细胞技术的进步,scDiffusion-X有望在疾病机制研究、药物靶点发现和个性化医疗中发挥更大作用。
参考 文献Luo, E., Liu, Q., Hao, M., Wei, L. and Zhang, X., 2025. Multi-modal Diffusion Model with Dual-Cross-Attention for Multi-Omics Data Generation and Translation. bioRxiv, pp.2025-02. https://doi.org/10.1101/2025.02.27.640020 代码https://github.com/EperLuo/scDiffusion-X