前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >BMC Bioinformatics | DrImpute:在单细胞RNA测序数据中插补“dropout”事件

BMC Bioinformatics | DrImpute:在单细胞RNA测序数据中插补“dropout”事件

作者头像
智能生信
发布2021-02-04 15:19:37
发布2021-02-04 15:19:37
3.8K1
举报
文章被收录于专栏:智能生信智能生信

作者 | 戴迟迟 编辑 | 戴迟迟 校对 | 李仲深

今天给大家介绍明尼苏达大学的Daniel J. Garry教授等人发表在BMC Bioinformatics上的一篇文章 “DrImpute: imputing dropout events in single cell RNA sequencing data” 。单细胞RNA测序 (scRNA-seq) 技术通过在单细胞水平上观察基因表达,从而开创了一个新的时代。然而,这项技术存在大量的技术和生物噪音。由于RNA转录组的数量较少以及基因表达的随机性,在scRNA-seq数据中有很高的概率将非零值判断为零,这被称为“dropout”事件。本文开发了一种名为DrImpute的插补方法来处理scRNA-seq数据中的“dropout”事件。实验表明,对比其他现有的插补方法,DrImpute在区分“dropout”事件与真实表达的零值方面有更好的性能。本文还证明了DrImpute可以显著提高现有的用于聚类、可视化等工具的性能。

一、研究背景

DNA测序技术和下一代高通量RNA测序方法正在经历巨大的发展变革。批量RNA测序 (bulk RNA-seq) 技术对从数以百万计的细胞中分离出来的RNA进行高通量测序,即每个基因的表达值是基于大量的输入的平均表达值来计算的。然而,当样本由异质性细胞群组成时,bulk RNA-seq方法不能定量有限数量细胞的RNA含量,也不能得到好的结果。最近,scRNA-seq被开发用于在单细胞水平上进行多种转录组分析。scRNA-seq研究的主要领域包括描述稀有细胞类型的整体表达谱、发现新的细胞群和重建细胞发育轨迹等。然而,这项技术存在大量的技术和生物噪音。由于RNA转录组的数量较少以及基因表达的随机性,在scRNA-seq数据中有很高的概率将非零值判断为零,这被称为“dropout”事件。

本研究提出了一种名为DrImpute的插补方法,用于估计scRNA-seq数据中的“dropout”事件。DrImpute首先基于聚类识别相似细胞,然后通过平均相似细胞的表达值来进行插补。为了实现更加准确的估计,本文使用不同的细胞聚类结果进行多次计算,然后对多次估计进行平均,以确定最终插补值。实验使用9个已发表的scRNA-seq数据集证明,DrImpute的插补结果显著改善了现有工具的性能,包括pcaReduce、SC3、t-SNE、PCA、Monocle和TSCAN,并且这些结果也提高了在细胞聚类、可视化和谱系重建方面的性能。

二、模型与方法

图1a总结了DrImpute的一般计算框架。首先,使用Spearman和Pearson相关系数计算细胞-细胞距离矩阵,然后根据距离矩阵在预期聚类数范围内 (k,默认为10到15) 进行细胞聚类。对于距离矩阵 (Spearman或Pearson) 和k的每个组合,使用其平均值估计输入的基因-细胞矩阵中的零值。实验中所用到的数据集全部整理在Table 1中。

三、实验结果

3.1 DrImpute在区分“dropout”和真实零值方面有更好的性能

本实验将真实表达的零值定义为在属于同一个细胞群的所有细胞中表达水平始终为零的基因。为了产生“dropout”事件,随机下采样原始测序reads数到总reads数的10、15、25、40和63%,将采样的reads映射到基因组上,并计算相应的基因-细胞计数矩阵。将“dropout”事件定义为在下采样数据集中表达水平为零,但在整个数据集中表达水平大于零的基因。

然后,利用DrImpute以及另外两个scRNA-seq插补工具scImpute和MAGIC来插补下采样数据集中的“dropout”事件。所有的零值可以分为四种情况:(1) 真阳性 (TP,被插补的“dropout”事件),(2) 真阴性 (TN,未被插补的真实零值),(3) 假阳性 (FP,被插补的真实零值),(4) 假阴性 (FN,未被插补的“dropout”事件)。采用F1评分 (精密度和召回率的调和平均值) 来评价每种方法对下采样数据集的插补性能。实验发现DrImpute在不同下采样率下,无论是在Pollen还是Usoskin数据集上,都具有更好的鉴别“dropout”事件和真实表达的零值的性能 (图1b和c)。

图1.DrImpute在区分“dropout”事件和真实表达的零值方面有更好的性能

3.2 DrImpute显著提高了现有细胞类型识别工具的性能

本实验评估了使用DrImpute来插补“dropout”事件是否能够提高识别细胞类型的准确性。在7个已发布的scRNA-seq数据集上,比较了在使用DrImpute插补“dropout”事件和不插补“dropout”事件时的聚类性能。使用在原始论文中的细胞类型作为标准,并使用调整兰德指数 (ARI) 作为性能指标,发现经过DrImpute处理的scRNA-seq数据集显著提高了pcaReduce,t-SNE和k-means (t-SNE/kms) 以及SC3的聚类性能 (图2a)。其次,本实验还发现将DrImpute与t-SNE/kms结合的策略在7个不同的数据集上的聚类性能明显优于其他方法 (图2a)。

图2b显示了由pcaReduce在诱导神经元 (iN) 重编程的scRNA-seq数据集上预测的细胞标签和细胞簇的混淆矩阵,其中显示了没有使用DrImpute (左) 和使用DrImpute (右) 插补“dropout”事件。本实验观察到在经过插补后的混淆矩阵中出现了更清晰的对角线模式,ARI从0.55提高到0.72。图2c显示了t-SNE/kms在小鼠植入前胚胎数据集上预测的细胞标签和细胞簇的混淆矩阵。结果显示ARI从0.50提高到到0.66,证明插补“dropout”事件有助于t-SNE/kms更准确地聚集囊胚期的细胞。本文甚至在补充材料中进一步评估了通过插补“dropout”事件来预处理scRNA-seq数据是否会产生更一致的聚类结果。

以上结果表明,使用DrImpute插补“dropout”事件来预处理scRNA-seq数据集,显著提高了未明确处理“dropout”事件的聚类方法的准确性和鲁棒性。与其他插补工具相比,DrImpute结合t-SNE/kms在21个测试案例中有16个 (76.2%) 的聚类性能得到了提高。

图2. DrImpute显著提高了现有细胞类型识别工具的性能

3.3 DrImpute提高了PCA和tSNE在数据可视化方面的性能

为了评估二维空间中降维的准确性,本实验首先估计了来自一个种群的细胞 (使用原始出版物中报道的类标签) 与二维空间中其他种群的区别性。对于每个降维结果,使用90%的细胞的二维坐标作为特征训练一个SVM分类器,并对剩余的10%的细胞进行分类标签预测。上述过程重复10次,利用10倍交叉验证精度,定量测量不同种群在二维空间的分离度。

由图3a观察到14个测试实例中有9个的PCA和t-SNE的性能在使用DrImpute插补后显著改善。此外,在三个数据集 (Pollen、Usoskin和Treutlein) 上PCA的性能劣于ZIFA,但是经过DrImpute优化后,PCA区分不同细胞类别的性能提高到优于ZIFA (图3a)。DrImpute在12个测试的tSNE可视化性能明显优于scImpute和MAGIC (图3a)。

图3b显示了四种类型的神经元 (非肽能性痛觉感受器 (NP)、含酪氨酸羟化酶 (TH)、肽能性痛觉感受器 (PEP) 和含神经丝 (NF) ) 的细胞表达谱。在不使用DrImpute来插补“dropout”事件的情况下,NP、TH和PEP组在二维空间中在视觉上是不可区分的。然而,在应用DrImpute之后,所有四组在视觉上都是分开的,准确率也从62%提高到93%。图3c显示了使用t-SNE的小鼠植入前胚胎的细胞表达谱。结果显示使用DrImpute对scRNA-seq数据进行预处理后,早期、中期和晚期囊胚阶段的细胞区分更加清晰,准确度从84%提高到96%。总的来说,本实验发现利用DrImpute对scRNA-seq数据集进行预处理可以显著提高可视化的准确性。

图3. DrImpute显著提高了PCA和t-SNE在scRNA-seq数据可视化方面的性能

3.4 DrImpute提高了Monocle和TSCAN在谱系重建中的性能

本实验在三个已经发表的时序scRNA-seq数据集上比较了未插补“dropout”事件和插补“dropout”事件的伪时间推断性能,这三个数据集包括小鼠植入前胚胎发育数据 (Deng),人类植入前胚胎发育数据 (Petropoulos) 和小鼠早期中胚层发育数据 (Scialdone)。Deng数据集包括小鼠从受精卵、2 - /4 - /8 - /16细胞到囊胚的10个早期发育阶段的单个细胞。Petropoulos数据集包括胚胎发育第3天至第7天的5个胚胎发育阶段的单细胞。Scialdone数据集包括小鼠E6.5、E7.0、E7.5和E7.75早期中胚层发育的四个阶段的单细胞。时序标签与伪时间排序之间的一致性通过伪时间排序得分 (POS) 和Kendall’s排序相关得分来衡量。

本实验发现,如果对scRNA-seq数据进行DrImpute预处理,Monocle和TSCAN在所有三个测试数据集上的伪时间推断性能都有显著提高,POS和Kendall’s排序相关得分均有显著提高 (图4a)。图4b显示了使用PCA绘制的2D空间中单个小鼠早期中胚层发育数据,其中分为不使用 (左图) 和使用DrImpute (右图) 插补“dropout”事件,以及一个使用TSCAN构建伪时间轨迹。不过不进行插补,伪时间轨迹从E7.75开始,到E7.75结束,这与已知的生物学观察结果不一致。但是进行插补后,伪时间轨迹从E6.5开始到E7.75结束,POS和Kendall’s排序相关得分均显著增加 (POS从0.66增加到0.89,Kendall’s排序相关得分从0.5增加到0.63)。

图4c用独立分量分析 (independent component analysis, ICA) 在二维空间中描述了人类植入前胚胎的单个细胞数据,其伪时间轨迹使用Monocle来推断。当使用DrImpute来进行插补之后,伪时间序列从E3开始到E7结束,并且在E5, E6、E7阶段的轨迹也更加清晰。POS和Kendall’s排序相关得分均显著增加 (POS从0.61增加到0.94,Kendall’s排序相关得分从0.44提高到0.77)。

结果表明,使用DrImpute插补“dropout”事件改善了使用Monocle和TSCAN进行伪时间推断的性能。

图4. DrImpute显著提高了Monocle和TSCAN在谱系重建中的性能

四、总结

当前研究的主要目标是通过插补“dropout”事件来去除scRNA-seq数据中的生物噪声。本文开发了DrImpute,并提出了在不考虑处理“dropout”事件的现有工具上使用DrImpute。结果表明,DrImpute极大地改进了许多现有的统计工具 (pcaReduce, SC3, PCA, t-SNE, Monocle和TSCAN),这些工具没有考虑到解决scRNA-seq细胞聚类,可视化和谱系重构这三个流行的研究领域的“dropout”事件。总之,DrImpute可以作为目前单细胞RNA-seq分析统计工具的一个非常有用的辅助工具。


代码

https://github.com/gongx030/DrImpute

参考文献

Wuming G , Il-Youp K , Pruthvi P , et al. DrImpute: imputing dropout events in single cell RNA sequencing data[J]. Bmc Bioinformatics, 2018, 19(1):220.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档