首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI大模型工具scBERT:对scRNA-seq数据进行细胞注释(IF=18.8)

AI大模型工具scBERT:对scRNA-seq数据进行细胞注释(IF=18.8)

作者头像
生信菜鸟团
发布2025-07-27 10:47:39
发布2025-07-27 10:47:39
2050
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data 刊登日期:26 September 2022 发表杂志:Nature Machine Intelligence IF:18.8

细胞类型注释方法可以分为三类:

  • (1)使用marker基因注释:使用从文献中鉴定出的marker基因来为cluster分配细胞类型。然而,选择marker基因依赖于研究人员的先验知识,容易产生偏差和错误。marker基因也并不总是存在,新细胞类型没有marker基因集。大多数细胞类型是由一组基因而不是单一的基因决定,没有适当的方法保证细胞类型分配的统一与准确。例如,一些自动注释方法是基于marker基因在细胞中应该有高表达的假设而建立的。而marker基因在相应细胞类型的全部细胞中也不一定有高表达。marker表达的缺失或波动可能会影响方法的准确性。
  • (2)使用基于相关性的方法注释:测量样本和参考数据集之间的基因表达谱的相关性。这些方法可能受到平台和实验批次效应的影响。尽管存在批次效应校正的方法,但要区分真正的生物多样性与技术差异仍然具有挑战性,从而难以保留重要的生物学变异。同时,常用的相似性度量(如余弦相似度、斯皮尔曼相关系数和皮尔逊相关系数)在测量两组高维稀疏scRNA-seq数据之间的距离时,可能不够稳健或高效。
  • (3)通过监督分类注释:遵循机器学习中的经典范式,即识别基因表达谱中的模式,然后将标签从标记数据集转移到未标记数据集。由于模型容量有限,大多数方法需要在将数据输入分类器之前进行高度可变基因(highly variable gene,HVG)选择和降维。然而HVG在不同批次和数据集中存在差异,降维可能会丢失高维信息以及基因水平的独立可解释性。HVG选择和降维的参数设置未能达成共识,造成性能评估的人为偏差。容易忽略稀有细胞类型关键基因以及基因之间相互作用信息。

为此,本文开发了scBERT模型,用于scRNA-seq数据的细胞注释。遵循预训练和微调范式,验证了在大规模未标记scRNA-seq数据上应用自监督学习的能力,以提高模型的泛化能力和克服批次效应。广泛的基准测试表明,scBERT能够提供稳健且准确的细胞类型注释,并具有基因水平的可解释性。

scBERT模型

图1a上半部分是自监督的预训练阶段:

使用未标记的scRNA-seq数据(来自PanglaoDB),进行表达值分箱(Expression Binning,将连续的基因表达值离散化为不同的bin,类似NLP中的bag-of-words模型,减少技术噪音)和随机掩码(Random Masking,随机遮盖细胞中15%非零表达值的基因,保留上下文基因),将分箱后的离散值转换为向量,作为表达嵌入(Expression Embedding)。中间灰色部分是指通过gene2vec将基因名称转换成基因嵌入(Gene Embedding)。将两个嵌入向量逐元素相加作为Performer编码器的输入。Performer编码器学习基因间交互模式,通过重构器预测被掩码基因的表达值,计算重构损失。

图1a下半部分是监督微调阶段:

使用已标记的参考数据集,使用预训练的Performer编码器,经过一维卷积层和分类器处理后生成细胞类型预测。

图1b为scBERT的嵌入示意图:首先将基因表达谱离散化为分箱值(例如基因1的表达值落入第2个箱 → 编码为B2),然后随机掩码非零值(如分箱在第7个箱的B7被掩码 → [MASK])。随机掩码后生成表达嵌入,与基因嵌入逐元素相加后输入到Performer编码器中。Performer编码器有6层,10个注意力头。

模型评估

1、评估数据集内细胞类型注释的稳健性

在九个scRNA-seq数据集上,对scBERT与其他方法的性能进行了基准测试。对于每个数据集,采用了五倍交叉验证策略,以避免随机结果对结论的影响。在大多数数据集中,scBERT在准确性方面优于其他方法(图2a)。

2、跨队列和器官的细胞类型注释

在4个独立胰腺数据集(不同测序平台)上验证scBERT在跨数据集、跨测序平台场景下的稳健性。(图3a、b、e、f)为tSNE可视化图,分别按批次效应、原始文献的金标准、scBERT预测结果、scNym的预测结果来着色(图e、f右侧是左图圆圈的局部放大)。(图3c、d)为定量的性能对比,评估指标为准确率和F1-score,图d为图c中顶尖方法的放大。

3、新细胞类型的识别

验证scBERT在发现未知细胞类型上的能力,解决单细胞分析中参考数据集不完整的核心挑战,使用人肝脏组织数据(8,444个细胞),训练时刻意移除4种免疫细胞(αβ T细胞、γδ T细胞、成熟B细胞、浆细胞),测试时包含这些细胞。对被移除的4类细胞(Unseen)和其余10类细胞(Known)分别计算准确率和F1-score,用箱线图进行可视化(图4a)。(图4b)左侧表示不同细胞类型的置信度分布,右侧Sankey图展示了scBERT对已知和新型细胞类型的预测结果与原始细胞类型注释的对比,其中浆细胞被标记为新型细胞类型。

4、模型可解释性

为揭示scBERT的可解释性机制,证明其能自动识别生物学相关的关键基因,超越传统差异表达分析的能力,(图5a)通过提取scBERT最后一层注意力权重矩阵,计算每个基因对细胞类型决策的贡献度,输出每种细胞类型top10关键基因,并且以热图形式可视化。(图5b)对top50基因进行多维度富集,证明注意力权重捕获功能协同基因群。(图5c)展示了显示了十个最受关注的基因及其细胞类型的z-score。(图5d)为基于scBERT嵌入(左)和原始表达量(右),对Muraro数据集中α、β、δ和γ细胞进行UMAP可视化呈现,scBERT嵌入的ARI高于原始表达。

总结

本文首次将自然语言处理中的BERT架构引入scRNA-seq分析领域,采用预训练-微调范式,在超过100万个未标记的单细胞数据上学习基因间的相互作用模式,通过掩码重建任务捕捉基因表达的通用语法,然后在特定任务的标记数据上训练分类器,实现细胞类型注释。scBERT在BERT的基础上将连续基因表达值分箱(binning)为离散值,减少技术噪音,并用Performer替代标准Transformer,支持超16,000个基因的输入,避免了传统降维方法(如PCA或HVG筛选)的使用。scBERT的性能显著优于现有方法,在跨数据集、跨测序平台数据中保持稳定性,同时可解释性强。

但同时scBERT也有一些潜在的局限:

  • ①基因表达分箱虽然能够降低噪声,但会损失部分连续信息。
  • ②因为单细胞数据是稀疏矩阵,所以仅掩码非零表达值,导致预训练数据利用率低。
  • ③基因相互作用通常以网络形式存在(即基因调控网络和生物信号通路),而这种先验知识尚未被明确纳入scBERT中。

总而言之,scBERT通过预训练和微调范式,学习基因表达模式及交互关系,显著提升了跨数据集和跨器官注释的泛化能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • scBERT模型
  • 模型评估
    • 1、评估数据集内细胞类型注释的稳健性
    • 2、跨队列和器官的细胞类型注释
    • 3、新细胞类型的识别
    • 4、模型可解释性
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档