众所周知,单个单细胞的转录组,如果是目前流行的10x这样的单细胞转录组技术,具体到每个细胞层面我们拿到的表达量信息通常是500到2000个基因的范围,也就是说如果我们的参考基因组注释文件里面是2万或者6万基因会出现起码90%的基因是缺失的,这个现象在单细胞转录组领域称作是drop-out (大家可以自行统计一下pbmc3k这个示例数据的drop-out情况 )
这一现象在单细胞测序中是常见的,它可能有以下几个原因:
但是,我们每个样品在10x技术层面可以出8000个左右的细胞,虽然具体的单个细胞表达的基因很少,但是作为一个整体,还是可以有2万多个基因的表达的,这就是为什么我们的表达量矩阵仍然是很大。
而我们的传统的转录组一般来说就是bulk层面,里面的细胞数量数不胜数,理论上不太可能出现大规模的0值,也就是说每个样品本来就是应该是有几万个基因有表达量的,这一点大家下载tcga或者gtex的表达量矩阵就可以验证一下!
但是我看到了一个2020的泛癌数据挖掘文章:《pan-cancer analyses of human nuclear receptors reveal transcriptome diversity and prognostic value across cancer types》,作者就一个人, 他检查了 mRNA expression patterns for the 48 human NRs across 33 cancer types (8,526 TCGA patient samples )and 11 pan-organ groups
然后发现:
很简单的一个热图就可以看到:
很容易做同样的分析看看,上面的数据挖掘文章居然得到了五个基因(ESR2, ESRRB, NR2E3, NR6A1, RORB)在所有的癌症样品都是不表达的,我怀疑里面应该是有错误。在所有样品都不表达的可能的原因有下面的这些:
但是那五个基因(ESR2, ESRRB, NR2E3, NR6A1, RORB)是 human nuclear receptors ,理论上不应该是有这样的情况发生。我简单查了一下,它确实是在 gencode.v22.annotation.gene.probeMap 文件里面,也就是说并不是因为基因被修改名字了,或者说也不是基因本身不在参考基因组注释文件造成的:
> b[match(cg,b$gene),]
id gene chrom chromStart chromEnd strand V2
ENSG00000140009.17 ESR2 chr14 64084232 64338112 - protein_coding
ENSG00000119715.13 ESRRB chr14 76310614 76501841 + protein_coding
ENSG00000278570.3 NR2E3 chr15 71792638 71818259 + protein_coding
ENSG00000148200.15 NR6A1 chr9 124517275 124771310 - protein_coding
ENSG00000198963.9 RORB chr9 74497365 74693177 + protein_coding
而且如果我们去看其它数据集里面的癌症样品,也会发现类似的现象,比如2022的文章《Clinical associations of ESR2 (estrogen receptor beta) expression across thousands of primary breast tumors》 就是重新分析了了GSE96058数据集里面的ESR2基因几乎没有表达量。
The median expressi on wa s 0.05 log2(TPM + 0.1), and in 1027 samples ESR2 was not expressed at all.
现在已经是排除了数据处理或分析问题,然后普通转录组技术为什么会有这样的技术限制导致这5个基因被忽略呢?或者说它们本来就是超低水平基因?但是我们查询网页工具,发现它在正常组织其实是可以表达的(https://www.genecards.org/cgi-bin/carddisp.pl?gene=ESR2),所以就排除了组织或细胞类型特异性的原因,也不可能是转录组技术限制 :
它在正常组织其实是可以表达的
那么接下来还需要看它是不是恰好在所有的癌症都出现了拷贝数缺失,当然了这个概率实在是太小了。。。
不过柯南(福尔摩斯)曾经说过,当你排除一切不可能之后,剩下的那个无论多么令人难以置信……那就是真相!!!
人类有许多著名的基因家族,其中一些包括:
这些基因家族在生物学研究中具有重要地位,因为它们控制着多种生物学过程,而它们的突变或异常表达通常与疾病有关。因此,对这些基因家族的研究对于理解生物学和开发治疗方法至关重要。
如果这些基因家族里面的基因在单细胞层面也有一些特性,就好玩了!