
DRUGONE
单细胞转座酶可及染色质测序(scATAC-seq)为研究细胞层面的表观基因组景观提供了前所未有的机会,但其数据的稀疏性与高维度特征,以及广泛的下游任务需求,使得亟需一种高效而通用的计算方法。研究人员提出 EpiAgent,这是一个基于大规模 Human-scATAC-Corpus 数据集预训练的基础模型。EpiAgent将细胞的染色质开放模式编码为简洁的“细胞句子”,并通过双向注意力机制捕捉调控网络背后的细胞异质性。综合基准表明,EpiAgent在无监督特征提取、有监督细胞类型注释和数据补全等任务上表现优异,并能结合外部嵌入实现对外部刺激与基因扰动的细胞反应预测、参考数据整合和查询数据映射。此外,EpiAgent可通过模拟顺式调控元件的敲除来推演细胞状态变化,并在零样本条件下实现细胞类型注释,展示出在单细胞表观基因组学中的广泛潜力。

scATAC-seq 技术使得研究人员能够在单细胞分辨率下描绘表观基因组景观,推动了对细胞异质性、组织发育以及疾病机制的探索。然而,该技术也面临诸多挑战:
近年来,单细胞转录组学中的基础模型取得成功,启发研究人员开发面向表观组学的对应框架。EpiAgent正是在这一背景下提出,旨在为单细胞表观组学提供一个通用而强大的计算基座。
方法
研究人员手动整理了约 500万细胞、350亿个token 的大规模 Human-scATAC-Corpus,覆盖31种组织和28个公开数据集。在此基础上,EpiAgent采用transformer架构,参数量约 14亿,由三部分组成:
预训练包含两个关键任务:
该设计使EpiAgent能够在捕捉细胞异质性的同时生成高质量嵌入,为下游任务提供坚实基础。

结果
总体表现
在多个基准测试中,EpiAgent在无监督特征提取、有监督注释、数据补全以及外部扰动预测等任务上均显著优于现有方法,并展现了零样本泛化能力。
无监督特征提取
在四个不同来源的数据集中,EpiAgent在聚类指标(NMI、ARI)上均优于cisTopic、SCALE、PeakVI、scBasset等方法。在无需微调的情况下,EpiAgent在与预训练集细胞分布相似的数据集上也能生成高质量嵌入,并且在UMAP可视化中展现更清晰的细胞类型分离与亚型压缩。

有监督细胞类型注释
在细胞类型注释任务中,EpiAgent通过MLP分类器实现显著优于基线模型的性能,在准确率和宏平均F1值上均领先10%以上。无论是同数据集内的划分,还是跨数据集的挑战性场景,EpiAgent都能稳定识别主要和稀有细胞类型。
数据补全
EpiAgent利用信号解码器实现稀疏矩阵重建,在NMI和ARI等聚类指标上平均较原始数据提升超过10%。其重建信号与真实信号的相关性超过0.8,显著优于scCASE与scOpen,证明了其降噪与补全能力。
细胞扰动反应预测
通过在输入中引入扰动特定嵌入,EpiAgent可预测外部刺激(如药物处理)和基因扰动(如CRISPR敲除)下的细胞反应。在多个数据集中,EpiAgent对差异可及性区域的变化方向预测准确率超过90%,显著优于scGen、scPRAM与GEARS。

参考数据整合与查询映射
EpiAgent通过引入批次特异嵌入,有效消除批次效应,显著优于PCA、PeakVI、SCALEX等方法。在多数据集人脑图谱的构建中,EpiAgent能够准确进行标签转移,并在稀有细胞类型识别上表现出色。

细胞状态变化模拟
EpiAgent可在体外模拟关键cCRE的敲除,推演细胞状态变化。例如,在肾透明细胞癌(ccRCC)数据集中,EpiAgent模拟的cCRE敲除可使癌细胞向正常状态偏移,显示其在疾病机制研究中的潜力。

零样本注释
研究人员进一步构建了EpiAgent-B和EpiAgent-NT模型,专注于脑组织与非脑组织的零样本细胞类型注释。在测试集中,其准确率分别超过0.88和0.95,展示出在新测序数据中无需额外训练即可实现高精度注释的能力。

讨论
EpiAgent首次将基础模型理念系统引入单细胞表观基因组学,通过“细胞句子”的方式有效缓解了scATAC-seq数据的稀疏与高维问题。在多项基准任务中,EpiAgent表现全面领先,不仅能进行传统任务(特征提取、注释、补全),还可应对外部扰动预测、跨数据集整合和细胞状态模拟等前沿需求。
该研究为单细胞表观基因组学提供了强有力的计算框架,也为未来探索疾病机制与药物作用提供了新工具。其局限性在于:对训练数据依赖度高,潜在偏倚需进一步评估;在更复杂的扰动场景下仍需扩展验证。总体而言,EpiAgent标志着单细胞表观基因组学进入基础模型驱动的新阶段。
整理 | DrugOne团队
参考资料
Chen, X., Li, K., Cui, X. et al. EpiAgent: foundation model for single-cell epigenomics. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02822-z
内容为【DrugOne】公众号原创|转载请注明来源