大家都知道质控是单细胞转录组数据分析中十分重要的一步,那么导致数据质量差的原因有哪些呢?质控的标准是什么呢?有哪些解决的方案呢?快快跟随小编一起来寻找答案吧。
一质控的目的
消除技术问题及偏差。
二单细胞转录组测序 VS Bulk转录组测序
总的来说,单细胞转录组体现异质性(个体),Bulk转录组体现平均程度(总体)。因此Bulk转录组不能区分一个样本中的不同细胞类型。
单细胞转录组相比于Bulk转录组的缺点:
①扩增的偏好性;
②Drop-out(基因表达但未测到)的比例;
③背景噪声;
④由于细胞周期、细胞大小等带来的偏好性;
⑤批次效应。
三实验中产生的影响因素
1.细胞分离
①不完全的解离可能会导致多个细胞的粘连;
②严格的分离可能会使RNA降解和泄露;
③受到周围细胞的污染(使用SoupX R包可减少背景污染)。
2.细胞捕获
①上述方法都可能会产生空的微孔/液滴或者产生双细胞(Doublets);
②不同方法对于细胞大小,细胞类型选择的偏好性;
③长时间的分选可能会破坏细胞。
Doublets检测的软件:
①DoubletFinder
(https://github.com/chris-mcginnis-ucsf/DoubletFinder)
②Scrublet
(https://github.com/AllonKleinLab/scrublet)
③DoubletDecon
(https://github.com/EDePasquale/DoubletDecon)
④DoubletCluster
……
3.细胞裂解
①严格的裂解条件可能会影响文库的制备;
②不同的裂解条件与核的裂解与否相关。
4.逆转录
逆转录效率是高灵敏度的关键,Drop-out的比例60%~90%取决于逆转录方法的选择,但即使使用同样方法构建的文库,使用同种细胞类型也会产生不同的Drop-out比例。
5.扩增
任何扩增步骤都有可能导致数据的偏好性。使用UMIs可以很大程度上去除这方面的影响。但并不是所有的技术都可以使用UMIs,比如基于全长的SmartSeq2方法就不可以。使用已知浓度的RNA分子(Spike-ins)也是减少技术噪音的主要手段,标准的Spike-ins是ERCC指定的一段细菌序列。但存在一定的问题,如:ERCC的捕获效率要低于内源mRNA,ERCC具有高的技术误差;某些情况下ERCC会比内源mRNA的表达量更高;Spike-ins的定量会受生物学因素的影响。其实是否要加Spike-ins目前还是存在争议的,且不能够用于Drop-seq。
6.文库制备和测序
测序中的base calls可能会被许多因素影响:
①当有许多引物二聚体时,文库的低复杂性可能成为问题;
②当流动的细胞中存在污染时会影响base calls的质量分数。
四QC的标准
1.reads的数目;
2.比对率(单一比对的百分比);
3.比对到外显子区域的reads比率;
4.3’端的偏好性;
5.比对到mRNA区域的reads数;
6.UMIs/reads的数值;
7.检测到的基因数目;
8.Spike-ins检测;
9.比对到线粒体和核糖体的reads数;
10.与其它细胞的相关性。
五如何过滤细胞
1.在决定设定cut off值前了解数据的分布情况
2.基于QC标准使用PCA检测异常细胞(Scater package)
六如何过滤基因
基因集选择基于:
①依据设定的cut off值获得基因表达情况;
②变异基因;
③过滤低丰度的基因;
④预先的基因注释信息;
⑤来自Bulk转录组数据的差异表达基因;
⑥基于PCA的排序。
1.观察总体的表达情况
以下图为例,结果分布比较平稳表示细胞中全转录组的覆盖度比较好,前15个基因存在一些Spike-ins,因此如果下一步重复实验可以将Spike-ins的比重降低,个别基因的高表达可能是标准化的问题。
2.过滤基因的标准
①线粒体编码的基因(通常会产生技术偏差);
②疑似技术偏差产生的基因;
③可能与细胞类型变异无关的基因。
3.去除批次效应(Batch effects)
不同时间、不同操作者、不同试剂、不同仪器导致的实验误差,反映到细胞的表达量上就是批次效应。如果批次效应很严重的话,可能会和真实的生物学差异相混淆。
检查质量控制措施是否完善,可以用PCA的方法核查某个指标与批次效应是否相关。
七PCA的功能
1.寻找特定类型细胞时用来鉴定污染细胞
2.检查批次效应
看完这些相信大家一定对单细胞转录组的质控有了一定的了解了。总的来说,质控必不可少,如何计划好实验避免技术误差,提前预估数据集中细胞分布情况等都有利于获得更加准确的数据结果。