我们的马拉松授课环节里面的表达量芯片通常是2分组,所以简单的差异分析即可!但实际科研场景经常是多分组的更复杂的生物学问题,例如时间序列分析、剂量反应、不同条件下的比较等。以下是一些常见的多分组实验设计:
在处理多分组数据时,研究者需要使用更复杂的统计方法来分析数据,如多元方差分析(MANOVA)、混合效应模型、多重比较校正等。这些方法可以帮助研究者从复杂的数据中提取有意义的生物学信息,并控制多重比较导致的假阳性结果。
常见的转录组实验设计就是干扰一下目标基因,然后两分组每个组内3个样品,是因为早期转录组测序费用昂贵。如果是二十年前做一个转录组样品可能会过万的费用,十年前就千把块钱了,五年前就五六百块钱,现在就三百多块钱了。详见:转录组价格腰斩哈!(优化升级后单个样本仅399元)。所以,建议大家敲减过表达前后转录组差异最好是都做一下,向CNS期刊看齐!比如2024的CELL文章:《A TCF4-dependent gene regulatory network confers resistance to immunotherapy in melanoma》
但是多分组,就可以两两组合的差异分析,结果很复杂, 比如文献这个新鲜出炉的文献,. Int J Biol Sci. 2024 Feb :《Hspb1 protects against severe acute pancreatitis by attenuating apoptosis and ferroptosis via interacting with Anxa2 to restore the antioxidative activity of Prdx1 》,如下所示的差异分析组合:

差异分析组合
急性胰腺炎(Acute Pancreatitis, AP)是一种涉及胰腺炎症的疾病,其特征是胰腺消化酶的异常激活,导致胰腺自身和周围组织的损伤。根据疾病的严重程度和临床表现,急性胰腺炎可以分为轻度、中度和重症急性胰腺炎(Severe Acute Pancreatitis, SAP)。
可以看到,文献里面是挑选了那些在急性胰腺炎(AP)是高表达但是在重症急性胰腺炎(SAP)组里面又重新降低回去了的基因列表作为后续的分析目标,如下所示:

后续的分析目标
可惜的是这个文章并没有给出来表达量矩阵,但是我们可以找到很多类似的3分组实验设计!比如下面的这个文章也是三分组,但是研究者关注的并不是先上升然后下降的基因,而是先上升然后保持上升的基因,如下所示:

先上升然后保持上升的基因
如果进行了两次独立的差异表达分析,每次分析都将基因分为上调、下调和不变三类,那么确实可以存在多种不同的组合情况。这些组合反映了两次分析中基因表达变化的一致性和差异性。 以下是两次差异表达分析中基因可能的九种不同组合:
不同的实验设计决定了我们选择哪个组合的基因列表去做后续的分析,前面的急性胰腺炎(AP)发展为重症急性胰腺炎(SAP)是有时间顺序,但是后面的药物处理浓度高低是独立的事件。
如何比较两次差异分析结果呢,代码可以参考:剔除了两个样品前后的差异分析结果没什么区别?
当然了,更高级的分析是mfuzz等时间序列方法!