scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data 刊登日期:26 September 2022 发表杂志:Nature Machine Intelligence IF:18.8
细胞类型注释方法可以分为三类:
为此,本文开发了scBERT模型,用于scRNA-seq数据的细胞注释。遵循预训练和微调范式,验证了在大规模未标记scRNA-seq数据上应用自监督学习的能力,以提高模型的泛化能力和克服批次效应。广泛的基准测试表明,scBERT能够提供稳健且准确的细胞类型注释,并具有基因水平的可解释性。
图1a上半部分是自监督的预训练阶段:
使用未标记的scRNA-seq数据(来自PanglaoDB),进行表达值分箱(Expression Binning,将连续的基因表达值离散化为不同的bin,类似NLP中的bag-of-words模型,减少技术噪音)和随机掩码(Random Masking,随机遮盖细胞中15%非零表达值的基因,保留上下文基因),将分箱后的离散值转换为向量,作为表达嵌入(Expression Embedding)。中间灰色部分是指通过gene2vec
将基因名称转换成基因嵌入(Gene Embedding)。将两个嵌入向量逐元素相加作为Performer编码器的输入。Performer编码器学习基因间交互模式,通过重构器预测被掩码基因的表达值,计算重构损失。
图1a下半部分是监督微调阶段:
使用已标记的参考数据集,使用预训练的Performer编码器,经过一维卷积层和分类器处理后生成细胞类型预测。
图1b为scBERT的嵌入示意图:首先将基因表达谱离散化为分箱值(例如基因1的表达值落入第2个箱 → 编码为B2
),然后随机掩码非零值(如分箱在第7个箱的B7
被掩码 → [MASK]
)。随机掩码后生成表达嵌入,与基因嵌入逐元素相加后输入到Performer编码器中。Performer编码器有6层,10个注意力头。
在九个scRNA-seq数据集上,对scBERT与其他方法的性能进行了基准测试。对于每个数据集,采用了五倍交叉验证策略,以避免随机结果对结论的影响。在大多数数据集中,scBERT在准确性方面优于其他方法(图2a)。
在4个独立胰腺数据集(不同测序平台)上验证scBERT在跨数据集、跨测序平台场景下的稳健性。(图3a、b、e、f)为tSNE可视化图,分别按批次效应、原始文献的金标准、scBERT预测结果、scNym的预测结果来着色(图e、f右侧是左图圆圈的局部放大)。(图3c、d)为定量的性能对比,评估指标为准确率和F1-score,图d为图c中顶尖方法的放大。
为验证scBERT在发现未知细胞类型上的能力,解决单细胞分析中参考数据集不完整的核心挑战,使用人肝脏组织数据(8,444个细胞),训练时刻意移除4种免疫细胞(αβ T细胞、γδ T细胞、成熟B细胞、浆细胞),测试时包含这些细胞。对被移除的4类细胞(Unseen)和其余10类细胞(Known)分别计算准确率和F1-score,用箱线图进行可视化(图4a)。(图4b)左侧表示不同细胞类型的置信度分布,右侧Sankey图展示了scBERT对已知和新型细胞类型的预测结果与原始细胞类型注释的对比,其中浆细胞被标记为新型细胞类型。
为揭示scBERT的可解释性机制,证明其能自动识别生物学相关的关键基因,超越传统差异表达分析的能力,(图5a)通过提取scBERT最后一层注意力权重矩阵,计算每个基因对细胞类型决策的贡献度,输出每种细胞类型top10关键基因,并且以热图形式可视化。(图5b)对top50基因进行多维度富集,证明注意力权重捕获功能协同基因群。(图5c)展示了显示了十个最受关注的基因及其细胞类型的z-score。(图5d)为基于scBERT嵌入(左)和原始表达量(右),对Muraro数据集中α、β、δ和γ细胞进行UMAP可视化呈现,scBERT嵌入的ARI高于原始表达。
本文首次将自然语言处理中的BERT架构引入scRNA-seq分析领域,采用预训练-微调范式,在超过100万个未标记的单细胞数据上学习基因间的相互作用模式,通过掩码重建任务捕捉基因表达的通用语法,然后在特定任务的标记数据上训练分类器,实现细胞类型注释。scBERT在BERT的基础上将连续基因表达值分箱(binning)为离散值,减少技术噪音,并用Performer替代标准Transformer,支持超16,000个基因的输入,避免了传统降维方法(如PCA或HVG筛选)的使用。scBERT的性能显著优于现有方法,在跨数据集、跨测序平台数据中保持稳定性,同时可解释性强。
但同时scBERT也有一些潜在的局限:
总而言之,scBERT通过预训练和微调范式,学习基因表达模式及交互关系,显著提升了跨数据集和跨器官注释的泛化能力。