看到了一个新鲜出炉的单细胞数据挖掘文章,标题是:《Single-cell analysis of tumor microenvironment and cell adhesion reveals that interleukin-1 beta promotes cancer cell proliferation in breast cancer》,研究者重新处理了GSE176078这个数据集,里面是26个乳腺癌患者的单细胞表达量矩阵 (five HER2+, 12 ER+/PR+, and nine TNBC samples) 。
很简单的降维聚类分群后,可以看到是如下所示是的主要单细胞亚群 :
这个是比较容易的:
第一层次降维聚类分群
而且很明显,第一层次降维聚类分群其实是没办法区分 28200 epithelial cells (markers: EPCAM, KRT8, and KRT18), 里面的 恶性与否的上皮细胞,这个时候需要走inferCNV等流程对上皮细胞进行恶性程度的判断。
然后,作者找出来了这26个乳腺癌患者的单细胞表达量矩阵里面的恶性的上皮细胞后,根据病人的临床分组 (five HER2+, 12 ER+/PR+, and nine TNBC samples) 做差异分析,居然得到了如下所示的一个看起来有点奇怪的火山图:
看起来有点奇怪的火山图
如果是这个火山图是基于bulk表达量矩阵,无论是表达量芯片还是转录组测序,的差异分析后的可视化,很明显就有问题的。一般来说log2FC绝大部分都是5以内,大于10的都很少很少了。但是上面的差异分析结果来源于恶性上皮细胞的单细胞表达量矩阵分组,所以有可能是合理的,仅仅是火山图的展示方式不太好了。
重新重新处理了GSE176078这个数据集,里面是26个乳腺癌患者的单细胞表达量矩阵,然后对它进行严格的质量控制后,做出来第一层次降维聚类分群后,提取里面的上皮细胞进行细分亚群后,鉴定里面的恶性情况,然后取里面的恶性上皮细胞根据tnbc与否进行二分组然后进行差异分析哈!