最近看到了很多借助 单细胞水平的不同细胞亚群的差异来解释以前的传统转录组混合各种细胞亚群的样品差异的文章, 如下所示:

研究者首先做了一个bulk转录组,走了标准的差异分析,拿到了上下调基因以及注释它们的功能。然后把这些基因在自己的单细胞转录组各个亚群具体看其是否有表达差异,发现异质性很大,以前拿到的混合状态的差异其实是细胞亚群的比例差异而已。
图来源于文章:NATURE COMMUNICATIONS | (2021)12:87 | https://doi.org/10.1038/s41467-020-20358-y
我就在思考,这完全是颠覆了以前数以万计的芯片和转录组测序项目的结论啊!而且这样的数据挖掘思路,又可以成为一个风靡中国医生群体的生物信息学灌水策略了。
我特意看了看这样的策略是否有人采用,其中语言 一个对GSE88715数据集的挖掘,文章标题是;《Identification of Key Genes Potentially Related to Triple Receptor Negative Breast Cancer by Microarray Analysis》,链接是:https://www.biorxiv.org/content/10.1101/2020.12.21.423796v1.full 看起来就有点类似;
数据集链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE88715
这个数据本身使用的是 Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Probe Name Version) 芯片,发表的文章是 Spatially distinct tumor immune microenvironments stratify triple-negative breast cancers. J Clin Invest 2019 Apr 1;129(4):1785-1800. PMID: 30753167
并不是单细胞转录组,但是呢,它里面的样品也不是传统bulk转录组的样品,而是具体到了Epithelium 和 Stroma 这样的单细胞亚群。
一个很简单的箱线图,有意思的是它这个明明是有问题的图表!

居然也好意思放出来,怪不得一直在预印本没办法发表呢, 两个分组的表达量分布范围天然就有差异,后面的差异分析其实就根本站不住脚!
虽然作者对表达量芯片矩阵的预处理并不到位,是值得批判的,但并不影响作者自顾自的走流程,这也是绝大部分生物信息学入门选手的弱点:

不管三七二十一,差异分析走起,上下调基因判断ok了,就火山图热图画出来了。
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
之所以说它这个文章完全是在凑图,就是因为明明一个图就可以说明的事情它都可以扩充到4个图:

有了基因列表,做PPI网络图无非就是输入string数据库,然后简单的丢入cytoscape软件即可。
有了网络图,找网络图的子网络的cytoscape软件插件也有十多个,我们的b站课程:

又是凑图,如下所示,一堆花花绿绿的点,除了唬人,就基本上没有其它作用了!

我在生信技能树多次分享过生存分析的细节;
生存分析是目前肿瘤等疾病研究领域的点睛之笔!
表达差异无非就是箱线图啦,而且绝大部分都是网页工具代劳!
仍然是丑爆了的图:

微弱的趋势,而且作者也没有给出统计量!
CbioPortal 网页工具可以看到多组学信息,不过这个研究仅仅是看了看突变情况:

同样的,使用在线的 human protein atlas (HPA)网页工具即可

生存分析已经无需过多介绍了,感兴趣可以具体看 我们的b站免费视频课程《临床生存分析》
终于有一点点实验验证了,不容易啊!
仍然是网页工具,略