我们这个月的马拉松生信入门课程进行到了表达量数据分析单元课,虽然说目前授课的案例主要还是基于20多年前的芯片技术的文章,但是数据分析的策略是一通百通的, 表达量矩阵可以来自于转录组测序技术,亦或是蛋白质组技术。
常规的表达量矩阵只需要实验设计合理,比如两分组的,就可以不管三七二十一,差异分析走起,上下调基因判断ok了,就火山图热图画出来了。这些常规的分析相信大家都不陌生了,基本上看我10年前的表达芯片的公共数据库挖掘系列推文即可;
不过学员群小伙伴们很喜欢举一反三,拿他们看到的自己的领域相关文献来考我们表达量矩阵数据分析关键的知识点。比如其中一个小伙伴就分享了这个《Thrombospondin-1 Regulates Trophoblast Necroptosis via NEDD4-Mediated Ubiquitination of TAK1 in Preeclampsia》,文章虽然也是常规的差异分析+生物学功能数据库注释,但是两次都能定位到关键基因和通路,想问我们有什么技巧!
这个研究的实验设计是对七个胎盘样本(包括三例重度PE患者和四例正常孕妇)进行了TMT定量蛋白质组学分析,差异分析的结果是:74个上调蛋白和66个下调蛋白(sPE/NP倍数变化>1.2或<0.83,p<0.05),如下所示的火山图和go数据库的注释结果:

火山图和go数据库的注释
这个很简单的,任意科研服务公司都可以帮忙对大家的样品进行蛋白质组学实验而且返回处理好的表达量矩阵,接下来就是简单的差异分析+生物学功能数据库注释,完全等同于我们授课的表达量芯片或者转录组测序的矩阵分析。
如下所示的说kegg数据库的注释结果,以及统计学显著的上下调蛋白质的表达量热图:

统计学显著的上下调蛋白质的表达量热图
这个时候大家肯定是有一个疑惑,我们做任意组学,表达量芯片,转录组测序,或者蛋白质组,都是高通量的,必然是有成百上千个统计学显著的差异结果。比如上面的74个上调蛋白和66个下调蛋白,如何从这里面找到关键的单个目标基因确实是玄学。
这个时候研究者们选择了PPI分析:
就定位到了THBS1这个基因:

蛋白质-蛋白质相互作用网络分析
蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)分析是一种系统生物学方法,用于识别和量化蛋白质之间的相互作用,并构建蛋白质相互作用网络。在处理高通量数据,如转录组测序、表达量芯片或蛋白质组学数据时,PPI分析可以提供以下帮助:
然而,PPI分析也有其局限性:
因此,虽然PPI分析是一个强大的工具,可以帮助定位关键基因或蛋白质,但它应该与其他生物学方法和实验验证相结合,以获得更全面的理解。
转录组测序(RNA-Seq)是一种高通量测序技术,可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据,研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。以下是进行这类实验的几个主要原因:
常见的转录组实验设计就是干扰一下目标基因,然后两分组每个组内3个样品,是因为早期转录组测序费用昂贵。如果是二十年前做一个转录组样品可能会过万的费用,十年前就千把块钱了,五年前就五六百块钱,现在就三百多块钱了。详见:转录组价格腰斩哈!(优化升级后单个样本仅399元)所以,建议大家敲减过表达前后转录组差异最好是都做一下,向CNS期刊看齐!比如2024的CELL文章:《A TCF4-dependent gene regulatory network confers resistance to immunotherapy in melanoma》
但是这个文章做的是sh-THBS1和sh-NCHTR8/SVneo两分组的RNA-seq,差异分析后拿到了238个DEGs,其中128个上调基因和110个下调基因,如下所示的火山图和kegg数据库注释结果:

火山图和kegg数据库注释结果
从这个结果里面,研究者们注意的了 a remarkable up-regulation of necroptosis but had little effect on apoptosis ,其实仍然是跟前面的蛋白质组学差异分析同样的难点,因为也是成百上千个基因有统计学显著的改变,哪怕是注释到kegg这样的生物学功能数据库也是有很多条目。但是,神奇的地方来了,这个时候作者需要引入生物学背景知识:
毫无疑问,程序性细胞死亡(programmed cell death, PCD)现在是科研界的当红炸子鸡,上面提到的Necroptosis 和 PANoptosis 是两种不同的细胞死亡形式。
如果科研界的明星基因和明星通路,科研热点发生了变化,我相信这个文章肯定是就会挑选其它的基因或者通路吧。这个已经不是生物信息学数据分析能解释的了。