前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrublet:鉴定单细胞转录组中的doublets

Scrublet:鉴定单细胞转录组中的doublets

作者头像
李雨晨_Yuchen
修改2021-01-31 22:28:34
3.7K0
修改2021-01-31 22:28:34
举报
文章被收录于专栏:文献阅读笔记

文献标题:Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data

发表时间:April 03, 2019

发表杂志:Cell Systems(IF=8.673)

原文链接:https://doi.org/10.1016/j.cels.2018.11.005

摘要

单细胞转录组测序方法可能导致2个或以上的细胞共用一个barcode,形成doublets或multiplets,进而表现出“杂交”(hybrid)的转录组特征。这些doublets可能干扰下游数据分析。作者开发了Scrublet工具,用来鉴定可能的doublets。Scrublet通过在给定数据中模拟doublets,建立最近领域(nearest neighbor)分类器来识别doublets,不需要先验知识或预先聚类。目前Scrublet在github上开源:http://github.com/AllonKleinLab/scrublet

引言

在此之前,主要有两种简单的方法用来排除潜在的doublets:

  1. 去除检测到转录本数量(UMI)过高的细胞。通常效果不佳,因为它需要预先假设所有细胞含有的RNA量相似;
  2. 去除表达不同细胞类型marker基因的聚类。其缺点是需要大量生物学专业知识和对细胞类型的谨慎注释。

定义“内含的”(Embedded)和“新型的“(Neotypic)Multiplets

Multiplets对下游分析的影响,部分取决于它们是否来源于具有不同基因表达谱的细胞。作者因此定义了两种主要的multiplets相关错误:

  1. ”Embedded“:multiplets可能来源于转录特征相似的细胞,它们被聚类到一大群主导某特定细胞状态的singlets中,仅仅表现为基因表达定量和丰度的改变。如果这种误差发生率不高,对下游分析的影响应该很小;
  2. ”Neotypic“:multiplets可能源自转录特征不同的细胞,例如不同的细胞谱系、成熟度、空间定位、活化程度等。它们可能形成新的聚类分支,或不同聚类之间的”桥梁“,因此可能在数据推断时导致质变的错误。

在实际操作中,单个multiplet可能被分类为”embeded“或”neotypic“(或其他类型),但其与两类误差的相关程度取决于单细胞数据分析的方式。例如,某种降维方式可能无法区分出multiplets,进而指向”embedded“错误,而另一种降维方式可能成功区分multiplets,进而指向”Neotypic“错误。因此,针对特定的数据分析方法,有效区分neotypic multiplets应该具有可操作性。Scrublet正是为此而生。

Scrublet方法

Scrublet估计neotypic multiplets的比例,通过将随机抽样的单个细胞转录组进行线性结合,生成模拟的multiplets,用于鉴定和移除实际的multiplets。

Scrublet基于两个假设:

  1. 在给定数据所有观察到的单细胞转录组中,multiplets是相对小概率的事件;
  2. 所有造成multiplets的细胞状态同时也存在于数据的singlets中。

基于以上假设,模拟合成的doublets能够用来构建一个”诱捕“的k-nearest neighbor(KNN)分类器,用来鉴定doublets。

当预先知道doublets在全部数据中的期望比例时,分类器能输出某个给定细胞是doublet的后验似然性(posterior likelihood)。然而,doublets的比例难以预先得知。基于模拟doublets的分类器评分大部分是双峰分布,Scrublet据此使用阈值似然性来区分doublets。低分doublets可能提示其难以从singlets中区分,也即”embeded“,而高分doublets可能与singlets状态不同,即”neotypic“。

Scrublet输出以下结果:

  1. 预测的可检测到的doublet比例(A predicted "detectable doublet fraction")\phi_{D}
  2. 每个细胞的doublet评分,也可解释成在该数据中,若给定doublet比例,则某个细胞是doublet的后验似然性
  3. doublet评分的标准误
  4. 每个细胞是否neotypic doublet的二分类标签(True or false)。如果期望doublet比例是 \hat \rho ,那么整个数据中neotypic doublets的比例就是\hat\rho\cdot\phi_{D} ,而 \hat\rho\cdot(1-\phi_{D}) 则是无法检测到的embedded doublets。

在合成模拟的doublets后,Scrublet利用主成分分析(principal-component analysis,PCA)降维,再构建kNN分类器,不需要聚类数据或预先定义细胞marker基因,并且仅用几分钟就能完成上万个细胞的doublet鉴定。

结果

模拟数据

作者首先在虚拟数据测试Scrublet的效果。分别进行了以下虚拟:

  1. 针对两个聚类的分离程度进行模拟,结果发现只有当两类细胞的区分度足够明显时,Scrublet才表现出接近99%的真阳性率;
  2. 针对聚类大小的不对称程度进行模拟,结果发现随着不对称性的增加,合成doublets向size大的聚类偏倚,会导致Scrublet无法识别的embedded doublets,然而对neotypic doublets的识别真阳性率仍然有90%;
  3. 针对聚类分支程度进行模拟,如果两个细胞谱系分叉越清晰,Scrublet就更容易识别分支间doublets

真实数据

人-鼠细胞混合样本

根据ROC曲线结果,相比于单纯使用转录本数量指标来区分doublets,Scrublet的准确性明显更好。

来自不同捐献者个体的PBMC

单纯比较Total counts(TC)、Marker overlap(M)和Scurblet(S)策略,Scurblet显著优于另外两种策略。但如果将两种策略结合起来,例如S+TC,能进一步提高doublets分类的准确性。然而,这种联合方法可能有数据集依赖性,并且需要额外的参数调整两种策略的权重。

不同细胞浓度的PBMC数据

相比于4k细胞的数据,8k数据中预测到的doublets比例几乎翻了一倍,这一点基本符合预期。另外,如果使用8k数据中的doublets预测结果来映射到4k数据,仍然能够将4k数据中的doublets区分出来(聚类1和2)。

造血干祖细胞数据

Scrublet能够识别出在不同谱系间形成”桥梁“的doublets,然而需要辅以人工注释才能识别出巨噬细胞-成红细胞doublets。

讨论

Scrublet的效果就不赘述了。基于其底层的假设,Scrublet仍然存在一些不足和限制:

  1. 如果形成doublets的某种细胞类型没有包括在数据中,Scrublet就不能检测到这种特定的doublets。也就是说,数据本身需要较充分地代表样本中的细胞异质性;
  2. Scrublet只能识别出neotypic doublets,而难以识别出包含在主要细胞聚类内部的embedded doublets。然而,作者认为embeded doublets对下游分析的影响较小,检测不到也不要紧。换句话说,如果某些doublets已经可以显著影响下游的聚类分析,那么它通常是形成了不同于任何singlets的转录特征,理应能被Scrublet的算法识别出来;
  3. 根据github的教程,作者不推荐在合并数据集中使用Scrublet,而是应该在各个文库中分别使用Scrublet来去除doublets。

单细胞测序发展至今,已经有多种检测doublets的生信工具被开发出来。其中大多数工具的基础都是利用原数据合成模拟的doublets,将其作为已知参考来鉴别真实数据中的doublets,并且大多强调在单个文库内而非合并的数据集中使用doublet分类工具。然而,Scrublet这篇文章提到将8k PBMC数据的结果映射到4k PBMC数据,进而实现跨数据鉴定doublets;此外,联合诸如UMI总数、细胞类型marker等指标,比起单纯利用合成doublets作为参考进行分类,其准确性能进一步提升。这些都是doublet classifier未来可以改进的方向。事实上,在 Decoding human fetal liver haematopoiesis 这篇文章的某个早期版本中,作者就使用了scrublet先鉴定出明显的doublets,再利用这些doublets结合支持向量机(SVM)来鉴定更多潜在的doublets,详见 https://github.com/haniffalab/scRNA-seq_analysis 。可见多种方法联合确实是不错的思路。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 引言
  • 定义“内含的”(Embedded)和“新型的“(Neotypic)Multiplets
  • Scrublet方法
  • 结果
    • 模拟数据
      • 真实数据
        • 人-鼠细胞混合样本
        • 来自不同捐献者个体的PBMC
        • 不同细胞浓度的PBMC数据
        • 造血干祖细胞数据
    • 讨论
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档