前面我们强调了,基因功能推断的数据分析的重要性 ,而且我们已经演示了3个基因的功能推断方法,分别是:
这些方法都需要大队列,因为如果样品数量太少了,很多统计学分析就不行。虽然我最推崇wgcna这样的共表达模块分析方法,但是这些基因的功能推断毕竟是间接的证据,如果是在多个大队列转录组表达量矩阵里面都拿到了同样的结果才能让人信服!
其实,还有一个更直接的方法学,就需要辅助一些湿实验,产出数据了,比如对目标基因进行敲减过表达的干扰,然后前后都做转录组测序。转录组测序(RNA-Seq)是一种高通量测序技术,可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据,研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。以下是进行这类实验的几个主要原因:
比如2023年的文章《HDAC8-mediated inhibition of EP300 drives a transcriptional state that increases melanoma brain metastasis》,就是选取了两个肿瘤细胞系作为实验材料,然后都干扰了HDAC8这个基因:
其中一个细胞系是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE240307
GSM7695882 EV_SKMEL28-1
GSM7695883 EV_SKMEL28-2
GSM7695884 EV_SKMEL28-3
GSM7695885 HDAC8_SKMEL28-1
GSM7695886 HDAC8_SKMEL28-2
GSM7695887 HDAC8_SKMEL28-3
另外一个细胞系是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE218625
GSM6753427 WM164-1
GSM6753428 WM164-2
GSM6753429 WM164-3
GSM6753430 WM164HDAC8-1
GSM6753431 WM164HDAC8-2
GSM6753432 WM164HDAC8-3
两次独立的干扰前后的转录组差异分析,都可以拿到独立的统计学显著的上下调基因然后进行生物学功能注释:
上下调基因然后进行生物学功能注释
之所以取两个不同的细胞系,就是为了取交集,拿到更加保险的目标基因的生物学功能:
取交集
这样的对目标基因的干扰案例比比皆是,2021的文章就是同样的实验设计:《Integrin alpha-V is an important driver in pancreatic adenocarcinoma progression》,为了探索这个the integrin subunit alpha- V (ITGAV, CD51)在胰腺癌的重要性,就对两个胰腺癌细胞系进行了ITGAV的敲除,然后转录组前后看差异基因,差异的通路,数据集是GSE153702。
另外一个方案是对目标基因进行完备的敲减过表达,比如2022的文章;《CTCFL regulates the PI3K-Akt pathway and it is a target for
personalized ovarian cancer therapy》,数据集是:GSE166767,也是可以做两次差异分析:
GSM5082293 OVCAR3_CONTROL_rep1
GSM5082294 OVCAR3_CONTROL_rep2
GSM5082295 OVCAR3_CONTROL_rep3
GSM5082296 OVCAR3_BORIS_OE_rep1
GSM5082297 OVCAR3_BORIS_OE_rep2
GSM5082298 OVCAR3_BORIS_OE_rep3
GSM5082299 OVCAR3_BORIS_KD_rep1
GSM5082300 OVCAR3_BORIS_KD_rep2
GSM5082301 OVCAR3_BORIS_KD_rep3
参考文献:《Single-cell transcriptomics reveal metastatic CLDN4+ cancer cells underlying the recurrence of malignant pleural effusion in patients with advanced non-small-cell lung cancer》,可以看到研究者们就是使用了The BioGRID database,然后就可以直接查看不同基因的干扰在不同细胞系的结果。
直接查看不同基因的干扰在不同细胞系的