
DRUGONE
单细胞 ATAC-seq 技术能够解析基因组范围内的染色质可及性,为理解基因调控机制提供了重要信息。然而,随着测序规模的扩大,不同条件下采集的样本会引入显著的批次效应,阻碍下游分析。现有方法多针对单细胞 RNA 测序,直接套用在 ATAC-seq 数据上容易破坏生物异质性,或仅在低维空间进行校正而失真。研究人员提出 Fountain,一种基于深度学习的整合框架,利用正则化重心映射实现批次对齐。该方法将最优传输与几何正则化结合,在保持生物异质性的同时进行精确对齐,并支持在线数据整合与增强型数据重建。大量实证结果表明,Fountain 在批次校正、过校正避免、生物学保真度和可扩展性上优于现有方法,并能生成增强型 ATAC 图谱,揭示细胞类型特异的生物学意义。

染色质可及性是基因调控的重要表征。单细胞 ATAC-seq 提供了前所未有的分辨率,但实际数据通常来自多个条件和批次,存在严重的技术差异。批次效应不仅影响细胞聚类与注释,还会误导对基因调控机制的解析。
虽然已有多种批次整合方法,如 Harmony、Signac、PeakVI、BAVARIA、SCALEX 和 scBasset 等,但它们普遍存在以下问题:
缺乏专门的机制保留生物学异质性,容易发生过校正;
多数仅在低维空间消除批次效应,无法在原始维度上生成校正后的图谱;
因此,亟需一种能够在保证生物学特征的前提下,有效去除批次效应并具备可扩展性的方法。
结果
Fountain 方法概览
Fountain 采用基于 VAE 的架构,在潜在空间中引入正则化重心映射实现批次对齐。通过引入几何信息和自适应正则化参数,模型能避免过校正并保持稳定性。同时,Fountain 支持在原始维度重建增强数据,并允许新批次的在线整合。

跨数据集整合性能
研究人员在七个真实的 scATAC-seq 数据集上进行评估,涵盖不同物种、测序技术和细胞类型。Fountain 在聚类准确度、批次混合度以及过校正避免方面均表现最佳。例如:

跨物种(猕猴与小鼠)、外周血数据集测试进一步验证了 Fountain 的通用性。整体评估显示,Fountain 在平衡聚类精度与批次校正方面表现最优。
处理不平衡数据的鲁棒性
研究人员模拟了三类不平衡场景:

可扩展性
在人类胎儿图谱(72 万细胞,105 万峰)的大规模数据中,Fountain 显示出稳定且较低的运行时间和内存占用,显著优于 BAVARIA、Signac 等方法。
在线整合能力
通过在人类肺数据集上实验,研究人员展示了 Fountain 能将未见过的新批次数据准确投射到参考空间中,而无需重新训练。这一特性远超大多数现有方法。
原始维度的批次校正与增强
Fountain 不仅在潜在空间整合,还能在原始维度生成增强 ATAC 图谱:

下游生物学应用
增强后的数据带来了更深的生物学洞察:

讨论
研究人员提出的 Fountain 在理论上通过引入几何正则化和自适应参数,有效平衡了聚类精度、批次校正和过校正避免。实验表明,几何一致性是以往方法忽视的重要方面。
Fountain 的优势包括:
局限性在于需要指定参考批次,这可能带来偏倚;同时,增强数据可能引入虚假差异,需要在下游分析中严格控制统计阈值。未来,研究人员计划进一步改进训练过程,以减少参考批次依赖,并推广至其他组学数据和更复杂的生成模型框架。
整理 | DrugOne团队
参考资料
Zhu, S., Hua, H. & Chen, S. Rigorous integration of single-cell ATAC-seq data using regularized barycentric mapping. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01099-3

内容为【DrugOne】公众号原创|转载请注明来源