单细胞ATAC-seq(scATAC-seq)作为一种重要的表观遗传学技术,能够揭示单个细胞中染色质的可及性,从而识别启动子、增强子和转录因子结合位点等调控元件。然而,scATAC-seq数据的高维性和稀疏性给数据分析带来了巨大挑战。
为此,一篇题为《EpiFoundation: A Foundation Model for Single-Cell ATAC-seq via Peak-to-Gene Alignment》的研究论文提出了EpiFoundation,一个专门为scATAC-seq数据设计的基础模型,旨在通过学习峰值到基因的对齐关系,提升单细胞表观遗传数据的分析能力。
单细胞ATAC-seq技术通过测量染色质的可及性,能够在单细胞水平上揭示基因调控的复杂性。然而,scATAC-seq数据通常包含数十万到数百万个峰值(即染色质可及区域),且数据极其稀疏,这使得传统的分析方法难以有效捕捉峰值之间的相关性。尽管已有一些针对单细胞RNA-seq(scRNA-seq)数据的基石模型(如Geneformer、scGPT等),但这些模型并不适用于scATAC-seq数据。
为了解决这一问题,研究人员提出了EpiFoundation,一个专门为scATAC-seq数据设计的基础模型。EpiFoundation通过创新的跨模态预训练方法,利用非零峰值集和基因表达信息来指导模型学习细胞表示,从而在多个下游任务中表现出色。
EpiFoundation的核心创新在于其独特的预训练策略,主要包括以下两点:
为了训练和验证EpiFoundation,研究人员构建了一个名为MiniAtlas的数据集,包含超过10万个单细胞的配对scRNA-seq和scATAC-seq数据,涵盖了19种组织和56种细胞类型。MiniAtlas的多样性和规模为EpiFoundation的训练和评估提供了坚实的基础。
在模型训练过程中,EpiFoundation首先将非零峰值及其对应的染色体信息转换为输入嵌入,然后通过Transformer块生成细胞表示。最后,模型通过预测基因的二元表达来完成峰值到基因的对齐任务。这一过程不仅提高了模型的效率,还确保了细胞表示能够准确反映表型信息。
EpiFoundation在多个下游任务中表现出色,包括细胞类型注释、批次校正和基因表达预测。
EpiFoundation的提出为单细胞ATAC-seq数据分析提供了一个强大的工具。未来,研究人员计划进一步扩展EpiFoundation的能力,将其应用于更多的单细胞多组学数据分析任务中,包括scRNA-seq、scATAC-seq和核苷酸序列的整合分析。
EpiFoundation通过创新的预训练策略和跨模态对齐方法去解决scATAC-seq数据的高维性和稀疏性问题。其在细胞类型注释、批次校正和基因表达预测等任务中的优异表现,展示了其在单细胞表观遗传数据分析中的巨大潜力。随着单细胞测序技术的不断发展,EpiFoundation有望成为该领域的重要基石模型,推动单细胞多组学研究的进一步深入。
文献: Wu, J., Wan, C., Ji, Z., Zhou, Y., & Hou, W. (2025). EpiFoundation: A Foundation Model for Single-Cell ATAC-seq via Peak-to-Gene Alignment. bioRxiv. https://doi.org/10.1101/2025.02.05.636688
代码与数据: https://github.com/UCSC-VLAA/EpiFoundation
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。