前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >EpiFoundation:单细胞ATAC-seq基础模型

EpiFoundation:单细胞ATAC-seq基础模型

作者头像
实验盒
发布2025-02-19 23:00:02
发布2025-02-19 23:00:02
840
举报
文章被收录于专栏:实验盒实验盒

单细胞ATAC-seq(scATAC-seq)作为一种重要的表观遗传学技术,能够揭示单个细胞中染色质的可及性,从而识别启动子、增强子和转录因子结合位点等调控元件。然而,scATAC-seq数据的高维性和稀疏性给数据分析带来了巨大挑战。

为此,一篇题为《EpiFoundation: A Foundation Model for Single-Cell ATAC-seq via Peak-to-Gene Alignment》的研究论文提出了EpiFoundation,一个专门为scATAC-seq数据设计的基础模型,旨在通过学习峰值到基因的对齐关系,提升单细胞表观遗传数据的分析能力。

背景介绍

单细胞ATAC-seq技术通过测量染色质的可及性,能够在单细胞水平上揭示基因调控的复杂性。然而,scATAC-seq数据通常包含数十万到数百万个峰值(即染色质可及区域),且数据极其稀疏,这使得传统的分析方法难以有效捕捉峰值之间的相关性。尽管已有一些针对单细胞RNA-seq(scRNA-seq)数据的基石模型(如Geneformer、scGPT等),但这些模型并不适用于scATAC-seq数据。

为了解决这一问题,研究人员提出了EpiFoundation,一个专门为scATAC-seq数据设计的基础模型。EpiFoundation通过创新的跨模态预训练方法,利用非零峰值集和基因表达信息来指导模型学习细胞表示,从而在多个下游任务中表现出色。

EpiFoundation的核心创新

EpiFoundation的核心创新在于其独特的预训练策略,主要包括以下两点:

  1. 非零峰值集的处理:EpiFoundation仅处理每个细胞中表达的非零峰值,从而提高了输入数据中细胞特异性信息的密度。这种方法不仅减少了计算成本,还增强了模型捕捉有意义调控信号的能力。
  2. 峰值到基因的对齐:EpiFoundation利用配对的基因表达信息作为预训练的监督信号,确保细胞表示能够准确反映表型信息。通过这种方式,模型能够更好地捕捉峰值与基因之间的相关性。

数据集与模型训练

为了训练和验证EpiFoundation,研究人员构建了一个名为MiniAtlas的数据集,包含超过10万个单细胞的配对scRNA-seq和scATAC-seq数据,涵盖了19种组织和56种细胞类型。MiniAtlas的多样性和规模为EpiFoundation的训练和评估提供了坚实的基础。

在模型训练过程中,EpiFoundation首先将非零峰值及其对应的染色体信息转换为输入嵌入,然后通过Transformer块生成细胞表示。最后,模型通过预测基因的二元表达来完成峰值到基因的对齐任务。这一过程不仅提高了模型的效率,还确保了细胞表示能够准确反映表型信息。

下游任务表现

EpiFoundation在多个下游任务中表现出色,包括细胞类型注释、批次校正和基因表达预测。

  • 细胞类型注释:EpiFoundation能够根据scATAC-seq数据准确预测细胞类型,其分类性能在多个数据集上均优于现有方法。
  • 批次校正:EpiFoundation通过建模细胞表示,有效去除了批次效应,同时保留了关键的生物学信息。在多个批次校正任务中,EpiFoundation的表现优于现有的批次校正方法。
  • 基因表达预测:EpiFoundation能够根据scATAC-seq数据预测基因表达水平,其预测精度显著高于现有的基因活性预测方法。

未来展望

EpiFoundation的提出为单细胞ATAC-seq数据分析提供了一个强大的工具。未来,研究人员计划进一步扩展EpiFoundation的能力,将其应用于更多的单细胞多组学数据分析任务中,包括scRNA-seq、scATAC-seq和核苷酸序列的整合分析。

总结

EpiFoundation通过创新的预训练策略和跨模态对齐方法去解决scATAC-seq数据的高维性和稀疏性问题。其在细胞类型注释、批次校正和基因表达预测等任务中的优异表现,展示了其在单细胞表观遗传数据分析中的巨大潜力。随着单细胞测序技术的不断发展,EpiFoundation有望成为该领域的重要基石模型,推动单细胞多组学研究的进一步深入。

参考

文献: Wu, J., Wan, C., Ji, Z., Zhou, Y., & Hou, W. (2025). EpiFoundation: A Foundation Model for Single-Cell ATAC-seq via Peak-to-Gene Alignment. bioRxiv. https://doi.org/10.1101/2025.02.05.636688

代码与数据: https://github.com/UCSC-VLAA/EpiFoundation

本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景介绍
  • EpiFoundation的核心创新
  • 数据集与模型训练
  • 下游任务表现
  • 未来展望
  • 总结
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档