任何扩增步骤都有可能导致数据的偏好性。使用UMIs可以很大程度上去除这方面的影响。但并不是所有的技术都可以使用UMIs，比如基于全长的SmartSeq2方法就不可以。使用已知浓度的RNA分子(Spike-ins)也是减少技术噪音的主要手段，标准的Spike-ins是ERCC指定的一段细菌序列。但存在一定的问题，如：ERCC的捕获效率要低于内源mRNA，ERCC具有高的技术误差；某些情况下ERCC会比内源mRNA的表达量更高；Spike-ins的定量会受生物学因素的影响。其实是否要加Spike-ins目前还是存在争议的，且不能够用于Drop-seq。

6.文库制备和测序

测序中的base calls可能会被许多因素影响：

①当有许多引物二聚体时，文库的低复杂性可能成为问题；

②当流动的细胞中存在污染时会影响base calls的质量分数。

四QC的标准

1.reads的数目；

2.比对率(单一比对的百分比)；

3.比对到外显子区域的reads比率；

4.3’端的偏好性；

5.比对到mRNA区域的reads数；

6.UMIs/reads的数值；

7.检测到的基因数目；

8.Spike-ins检测；

9.比对到线粒体和核糖体的reads数；

10.与其它细胞的相关性。

五如何过滤细胞

1.在决定设定cut off值前了解数据的分布情况

2.基于QC标准使用PCA检测异常细胞（Scater package）

六如何过滤基因

基因集选择基于：

①依据设定的cut off值获得基因表达情况；

②变异基因；

③过滤低丰度的基因；

④预先的基因注释信息；

⑤来自Bulk转录组数据的差异表达基因；

⑥基于PCA的排序。

1.观察总体的表达情况

以下图为例，结果分布比较平稳表示细胞中全转录组的覆盖度比较好，前15个基因存在一些Spike-ins，因此如果下一步重复实验可以将Spike-ins的比重降低，个别基因的高表达可能是标准化的问题。

2.过滤基因的标准

①线粒体编码的基因（通常会产生技术偏差）；

②疑似技术偏差产生的基因；

③可能与细胞类型变异无关的基因。

3.去除批次效应（Batch effects）

不同时间、不同操作者、不同试剂、不同仪器导致的实验误差，反映到细胞的表达量上就是批次效应。如果批次效应很严重的话，可能会和真实的生物学差异相混淆。

检查质量控制措施是否完善，可以用PCA的方法核查某个指标与批次效应是否相关。

七PCA的功能

1.寻找特定类型细胞时用来鉴定污染细胞

2.检查批次效应

看完这些相信大家一定对单细胞转录组的质控有了一定的了解了。总的来说，质控必不可少，如何计划好实验避免技术误差，提前预估数据集中细胞分布情况等都有利于获得更加准确的数据结果。

单细胞测序

单细胞转录组测序数据质控

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐