图片说明
◉ 图1 单细胞注释的原理。(A)显示了从单细胞RNA测序(scRNA-seq)中提取的mRNA。作为细胞的转录产物,mRNA反映了基因表达的异质性,并为细胞类型注释和基因功能研究提供了重要信息。◉ (B)展示了单细胞类型注释的基本工作流程。首先从组织中提取细胞,然后进行单细胞测序以获得基因表达矩阵。◉ 接着选择高方差基因进行特征选择。◉ 随后,使用注释模型预测细胞类型,最后通过T-SNE等降维算法对注释结果进行可视化展示。◉ (C)展示了单细胞类型注释在多个领域的应用,包括肿瘤免疫微环境中的靶向治疗策略、发育生物学中的细胞发育轨迹重建、免疫学中的免疫细胞激活状态追踪以及精准医学中的药物干预响应预测。
- 图片说明
◉ 表1 细胞和转录组研究的综合数据库
image
测序平台对细胞类型注释的影响
标记基因的动态更新与可持续性
标注前的数据预处理
图片说明
◉ 图2 单细胞类型注释的数据预处理流程。样本数据经过质量控制,以识别并去除表达量较低的细胞或其他需要排除的细胞。◉ 随后,对剩余的细胞数据进行对数标准化,并根据任务需求选取特定数量的高变基因,完成数据预处理的核心步骤。
批次效应校正方法
图片说明
◉ 图3 单细胞类型注释方法的流程图。该图表描述了两种主要的工作流程:一种使用特定基因数据库,另一种参考已注释的细胞类型样本。◉ 基于特定基因的方法对细胞进行聚类,并使用标记基因进行注释,而基于参考的方法通过相关性或数据驱动模型将细胞数据与参考数据库进行匹配。◉ 结果通过t-SNE等降维技术进行可视化展示。
基于特定基因表达的方法
- 图片说明
◉ 表2 基于特定基因表达的单细胞类型注释方法的技术,包括其关键算法、编程语言以及特征和输入特性。
image
图片说明
◉ 图4 基于特定基因表达的注释方法的基本工作流程。首先使用聚类算法对细胞样本进行聚类,然后通过从生物标志物数据库中查询差异表达基因来确定每个聚类中的特定细胞类型。
基于标记基因的方法
基于基因特征的方法
基于参考和相关性分析的方法
- 图片说明
◉ 表3 基于相关方法的单细胞类型注释模型的技术,包括其方法、编程语言和关键描述。
image
图片说明
◉ 图5 利用相关性进行基于参考的注释方法的基本工作流程。该过程首先在待注释的查询细胞与参考细胞样本之间建立相关性关系。◉ 随后选择最相似的参考细胞作为确定查询细胞类型的基础。◉ 该工作流程进一步扩展,以注释所有的查询细胞样本。
基于数据驱动参考的方法
- 图片说明
◉ 表4 基于数据驱动参考方法的单细胞类型注释模型的技术,包括其方法、编程语言、特征和学习类型。
image
图片说明
◉ 图6 基于数据驱动的参考方法的基本工作流程。首先,将带有良好注释标签的参考数据输入神经网络模型进行训练,使模型能够在监督学习框架下学习根据基因表达差异来识别细胞类型。◉ 接下来,将查询的细胞数据输入训练好的神经网络模型,以实现对细胞类型的精确注释。
基于大规模预训练的方法
- 图片说明
◉ 表5 基于大规模预训练方法的单细胞类型注释模型的技术,包括其方法、编程语言、参数规模、输入模态、多任务能力和可解释性。
image
图片说明
◉ 图7 大规模预训练方法的基本工作流程。该方法首先从大规模未标记的单细胞样本中提取scRNA-seq数据,作为全面的特征基础。◉ 通过使用基因嵌入(gene embeddings),在自监督学习框架中采用编码-解码策略来重建scRNA-seq数据,同时预训练一个Transformer编码器作为深度特征提取模型。◉ 然后,在数据驱动的有监督学习范式下,将预训练模型应用于细胞类型注释任务。
评估指标
绩效评估
图片说明
◉ 图8 不同单细胞注释方法在多个数据集上的注释性能比较。该图展示了九种方法在七个基准数据集上的性能评估柱状图,其中柱子越高表示方法的性能越好。
图片说明
◉ 图9 不同单细胞注释方法在多个数据集中的稳定性比较。该图使用箱线图展示了每种方法在不同基准数据集中的稳定性表现。箱线图中上下四分位数之间的位置越高且范围越小,表明该方法的稳定性越好。
通过多源数据感知增强单细胞注释
长尾分布及稀有细胞类型识别的优化策略
探索动态聚类与注释之间的协同作用
在单细胞数据激增的情况下,平衡持续学习中的知识保留与适应能力
未见细胞的异质性及其从开放世界视角的潜在解码