之前分享过一个有意思的数据集,详见:每个样品搞这么多细胞干什么啊(这样谁相信你的数据分析结论?),是10x技术的单细胞转录组,里面的绝大部分样品的细胞数量都是在1万附近,但是有极个别的样品是有4万左右的细胞数量,这个就很恐怖了!所以我做了一个简单的抽样:
sce.all
# 26047 features across 528855 samples within 1 assay
sce.all <- JoinLayers(sce.all)
sce.all = subset(sce.all,downsample=10000)
# 26047 features across 233585 samples within 1 assay
可以看到最开始的数据集是528855细胞数量,简单的抽样后就是233585个细胞啦!然后数据分析的结果就大体上正常一点了,但是仍然是没办法解决数据本身的产出的时候的质量问题,文章最后的结论是cancer-associated macrophage-like cells (CAMLs),很明显的就是这个文章的作者们的实验特殊性导致的。
但是,交流群小伙伴看到了这个推文后马上提出来了一个新鲜出炉的单细胞多组学文章,每个样品五六万个细胞也没有问题,标题是;《Pre-existing skin-resident CD8 and gd T cell circuits mediate immune response in Merkel cell carcinoma and predict immunotherapy efficacy》,主要是关心的是这个特殊的Merkel皮肤癌病人的 ICB, immune checkpoint blockade; 后的结局,区分成为 :CR, complete response; PR, partial response; SD, stable disease; PD, progressive disease;
单细胞多组学文章的介绍
数据是公开的:Bulk RNA-seq and scRNA-seq data is available at GEO accession GSE235093,但是可以看到其实是3个不同的子集:
其中 GSE235091 [scRNA_blood] 可以看到的是 :
GSE235091_PBMC01.tar.gz 320.0 Mb
GSE235091_PBMC02.tar.gz 259.8 Mb
GSE235091_PBMC03.tar.gz 205.2 Mb
GSE235091_PBMC04.tar.gz 240.7 Mb
GSE235091_PBMC05.tar.gz 180.7 Mb
GSE235091_PBMC06.tar.gz 200.0 Mb
GSE235091_PBMC07.tar.gz 220.7 Mb
GSE235091_PBMC08.tar.gz 236.0 Mb
GSE235091_PBMC09.tar.gz 90.5 Mb
GSE235091_PBMC10.tar.gz 71.6 Mb
GSE235091_pool01.tar.gz 260.9 Mb
GSE235091_pool02.tar.gz 47.2 Mb
GSE235091_pool03.tar.gz 214.2 Mb
GSE235091_pool04.tar.gz 293.4 Mb
但是文献描述的是 55 peripheral blood mononuclear cell (PBMC) samples from 32 patients :
理论上,每个样品都应该是有一个独立的表达量矩阵文件压缩包,但是上面的 GSE235091_PBMC01.tar.gz文件有320.0 Mb ,解压开后看起来是是单个样品的表达量矩阵文件。
把这个项目的全部.tar.gz文件读取后可以很容易进行降维聚类分群,如下所示:
降维聚类分群
可以很清晰的看到0和1是两种不同的t细胞,6也是t细胞但是处于增殖的状态。然后2很多3是经典的单核细胞,4是cd16的单核细胞,5是b细胞,7是树突细胞。
而且确实是每个样品里面的都是有三五万个单细胞,如下所示:
有三五万个单细胞
但是这个文献的另外一个数据集, GSE235090 [scRNA_tissue] 里面的各个单细胞转录组样品就没有这样的细胞数量的问题。
据说是10x技术升级,可以一次性跑100多万个细胞,不知道上面可以容纳多少个样品,如果是20个样品那么每个样品5万个细胞也是合理的。如果是需要100多个样品,那么就还是老样子,每个样品1万左右的单细胞数量。
如果不是10x技术的升级,那就是上面我们看到的说假象。虽然说GSE235091_PBMC01.tar.gz文件有320.0 Mb ,解压开后看起来是是单个样品的表达量矩阵文件,但是如果细细研读,还是可以看到里面其实是多个样品的组合?
读取GSE235091_PBMC01.tar.gz文件有320.0 Mb ,然后去跟pbmc3k或者5k数据集去对比看看。反正免疫细胞亚群进行细分,主要是淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类。因为这个是pbmc所以是没有巨噬细胞的,仍然是单核细胞。