首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 正则化重心映射驱动的单细胞 ATAC-seq 数据整合

Nat. Mach. Intell. | 正则化重心映射驱动的单细胞 ATAC-seq 数据整合

作者头像
DrugAI
发布2026-01-06 11:43:56
发布2026-01-06 11:43:56
870
举报

DRUGONE

单细胞 ATAC-seq 技术能够解析基因组范围内的染色质可及性,为理解基因调控机制提供了重要信息。然而,随着测序规模的扩大,不同条件下采集的样本会引入显著的批次效应,阻碍下游分析。现有方法多针对单细胞 RNA 测序,直接套用在 ATAC-seq 数据上容易破坏生物异质性,或仅在低维空间进行校正而失真。研究人员提出 Fountain,一种基于深度学习的整合框架,利用正则化重心映射实现批次对齐。该方法将最优传输与几何正则化结合,在保持生物异质性的同时进行精确对齐,并支持在线数据整合与增强型数据重建。大量实证结果表明,Fountain 在批次校正、过校正避免、生物学保真度和可扩展性上优于现有方法,并能生成增强型 ATAC 图谱,揭示细胞类型特异的生物学意义。

染色质可及性是基因调控的重要表征。单细胞 ATAC-seq 提供了前所未有的分辨率,但实际数据通常来自多个条件和批次,存在严重的技术差异。批次效应不仅影响细胞聚类与注释,还会误导对基因调控机制的解析。

虽然已有多种批次整合方法,如 Harmony、Signac、PeakVI、BAVARIA、SCALEX 和 scBasset 等,但它们普遍存在以下问题:

缺乏专门的机制保留生物学异质性,容易发生过校正;

多数仅在低维空间消除批次效应,无法在原始维度上生成校正后的图谱;

  • 新数据加入时往往需要重新训练,增加计算负担并改变已有结果。

因此,亟需一种能够在保证生物学特征的前提下,有效去除批次效应并具备可扩展性的方法。

结果

Fountain 方法概览

Fountain 采用基于 VAE 的架构,在潜在空间中引入正则化重心映射实现批次对齐。通过引入几何信息和自适应正则化参数,模型能避免过校正并保持稳定性。同时,Fountain 支持在原始维度重建增强数据,并允许新批次的在线整合。

跨数据集整合性能

研究人员在七个真实的 scATAC-seq 数据集上进行评估,涵盖不同物种、测序技术和细胞类型。Fountain 在聚类准确度、批次混合度以及过校正避免方面均表现最佳。例如:

  • 小鼠脑数据集:Fountain 能正确区分稀有细胞类型并保持最高聚类精度;
  • 人类骨髓单核细胞数据集:在 13.6 万细胞上表现最优,显著优于其他方法;
  • 人类肠道数据集:在高度不平衡条件下仍能保持稳健的聚类结果;
  • 人类肺数据集:准确识别稀有淋巴内皮细胞,而其他方法将其混淆。

跨物种(猕猴与小鼠)、外周血数据集测试进一步验证了 Fountain 的通用性。整体评估显示,Fountain 在平衡聚类精度与批次校正方面表现最优。

处理不平衡数据的鲁棒性

研究人员模拟了三类不平衡场景:

  • 批次大小不均:Fountain 在不同下采样比例下始终保持最佳聚类与校正性能;
  • 细胞类型比例差异:在不同程度的不均衡下,Fountain 一直能有效避免过校正;
  • 批次特异性细胞类型:即部分细胞类型仅存在于某些批次,Fountain 仍能保持稳健性能,而其他方法则表现不佳。

可扩展性

在人类胎儿图谱(72 万细胞,105 万峰)的大规模数据中,Fountain 显示出稳定且较低的运行时间和内存占用,显著优于 BAVARIA、Signac 等方法。

在线整合能力

通过在人类肺数据集上实验,研究人员展示了 Fountain 能将未见过的新批次数据准确投射到参考空间中,而无需重新训练。这一特性远超大多数现有方法。

原始维度的批次校正与增强

Fountain 不仅在潜在空间整合,还能在原始维度生成增强 ATAC 图谱:

  • 有效消除了测序深度差异;
  • 减少了缺失与噪声,改善了可及性模式;
  • 提升了细胞异质性刻画和注释准确率(平均提升超过 50%)。

下游生物学应用

增强后的数据带来了更深的生物学洞察:

  • 组织特异表达富集:更准确识别相关组织;
  • 表型变异与疾病遗传力:显著提升多发性硬化相关细胞类型的遗传力富集信号;
  • 生物学通路识别:揭示更多细胞类型特异的功能通路;
  • 转录因子基序富集:更清晰地展示关键转录因子的作用模式。

讨论

研究人员提出的 Fountain 在理论上通过引入几何正则化和自适应参数,有效平衡了聚类精度、批次校正和过校正避免。实验表明,几何一致性是以往方法忽视的重要方面。

Fountain 的优势包括:

  • 在不同数据集和条件下均优于现有方法;
  • 可扩展至大规模数据;
  • 支持在线整合和原始维度校正;
  • 增强数据有助于揭示细胞功能与调控机制。

局限性在于需要指定参考批次,这可能带来偏倚;同时,增强数据可能引入虚假差异,需要在下游分析中严格控制统计阈值。未来,研究人员计划进一步改进训练过程,以减少参考批次依赖,并推广至其他组学数据和更复杂的生成模型框架。

整理 | DrugOne团队

参考资料

Zhu, S., Hua, H. & Chen, S. Rigorous integration of single-cell ATAC-seq data using regularized barycentric mapping. Nat Mach Intell (2025).

https://doi.org/10.1038/s42256-025-01099-3

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档