文献标题:Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data
发表时间:April 03, 2019
发表杂志:Cell Systems(IF=8.673)
原文链接:https://doi.org/10.1016/j.cels.2018.11.005
单细胞转录组测序方法可能导致2个或以上的细胞共用一个barcode,形成doublets或multiplets,进而表现出“杂交”(hybrid)的转录组特征。这些doublets可能干扰下游数据分析。作者开发了Scrublet工具,用来鉴定可能的doublets。Scrublet通过在给定数据中模拟doublets,建立最近领域(nearest neighbor)分类器来识别doublets,不需要先验知识或预先聚类。目前Scrublet在github上开源:http://github.com/AllonKleinLab/scrublet。
在此之前,主要有两种简单的方法用来排除潜在的doublets:
Multiplets对下游分析的影响,部分取决于它们是否来源于具有不同基因表达谱的细胞。作者因此定义了两种主要的multiplets相关错误:
在实际操作中,单个multiplet可能被分类为”embeded“或”neotypic“(或其他类型),但其与两类误差的相关程度取决于单细胞数据分析的方式。例如,某种降维方式可能无法区分出multiplets,进而指向”embedded“错误,而另一种降维方式可能成功区分multiplets,进而指向”Neotypic“错误。因此,针对特定的数据分析方法,有效区分neotypic multiplets应该具有可操作性。Scrublet正是为此而生。
Scrublet估计neotypic multiplets的比例,通过将随机抽样的单个细胞转录组进行线性结合,生成模拟的multiplets,用于鉴定和移除实际的multiplets。
Scrublet基于两个假设:
基于以上假设,模拟合成的doublets能够用来构建一个”诱捕“的k-nearest neighbor(KNN)分类器,用来鉴定doublets。
当预先知道doublets在全部数据中的期望比例时,分类器能输出某个给定细胞是doublet的后验似然性(posterior likelihood)。然而,doublets的比例难以预先得知。基于模拟doublets的分类器评分大部分是双峰分布,Scrublet据此使用阈值似然性来区分doublets。低分doublets可能提示其难以从singlets中区分,也即”embeded“,而高分doublets可能与singlets状态不同,即”neotypic“。
Scrublet输出以下结果:
在合成模拟的doublets后,Scrublet利用主成分分析(principal-component analysis,PCA)降维,再构建kNN分类器,不需要聚类数据或预先定义细胞marker基因,并且仅用几分钟就能完成上万个细胞的doublet鉴定。
作者首先在虚拟数据测试Scrublet的效果。分别进行了以下虚拟:
根据ROC曲线结果,相比于单纯使用转录本数量指标来区分doublets,Scrublet的准确性明显更好。
单纯比较Total counts(TC)、Marker overlap(M)和Scurblet(S)策略,Scurblet显著优于另外两种策略。但如果将两种策略结合起来,例如S+TC,能进一步提高doublets分类的准确性。然而,这种联合方法可能有数据集依赖性,并且需要额外的参数调整两种策略的权重。
相比于4k细胞的数据,8k数据中预测到的doublets比例几乎翻了一倍,这一点基本符合预期。另外,如果使用8k数据中的doublets预测结果来映射到4k数据,仍然能够将4k数据中的doublets区分出来(聚类1和2)。
Scrublet能够识别出在不同谱系间形成”桥梁“的doublets,然而需要辅以人工注释才能识别出巨噬细胞-成红细胞doublets。
Scrublet的效果就不赘述了。基于其底层的假设,Scrublet仍然存在一些不足和限制:
单细胞测序发展至今,已经有多种检测doublets的生信工具被开发出来。其中大多数工具的基础都是利用原数据合成模拟的doublets,将其作为已知参考来鉴别真实数据中的doublets,并且大多强调在单个文库内而非合并的数据集中使用doublet分类工具。然而,Scrublet这篇文章提到将8k PBMC数据的结果映射到4k PBMC数据,进而实现跨数据鉴定doublets;此外,联合诸如UMI总数、细胞类型marker等指标,比起单纯利用合成doublets作为参考进行分类,其准确性能进一步提升。这些都是doublet classifier未来可以改进的方向。事实上,在 Decoding human fetal liver haematopoiesis 这篇文章的某个早期版本中,作者就使用了scrublet先鉴定出明显的doublets,再利用这些doublets结合支持向量机(SVM)来鉴定更多潜在的doublets,详见 https://github.com/haniffalab/scRNA-seq_analysis 。可见多种方法联合确实是不错的思路。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。