一般来说,我们在RNA-seq进行差异分析时最好使用Count值,因为limma-voom、edgeR和DESeq2都是针对RNA-seq的Count值分布进行假设,从而设计的软件。但是,在实际过程中,我们并不是总能获得其Count值,而经常得到的是FPKM或者TPM值,那对于这种情况,我们能不能使用类似于分析芯片的方法进行差异分析呢?
和前面一样,使用的数据依然来自GSE145894,使用STAR进行比对,然后使用StringTie获取其Count值和FPKM以及TPM值。对于Count值,使用DESeq2,而对于FPKM值,在log2之后使用limma进行差异分析。为避免固定阈值导致的误差,我使用mean(logFC)+2*sd(logFC)作为差异阈值,以P<0.05作为显著性阈值。
下面,进入我们的正题部分。

logFC_t约为4.2,共有665个基因下调,196个基因上调。

logFC_t约为0.7,共有112个基因下调,305个基因上调。
以去除全0行作为筛选条件。

logFC_t约为0.9,共有82个基因下调,268个基因上调。
4、经过四分位标准化后的FPKM

logFC_t约为0.7,共有392个基因下调,255个基因上调。
5、筛选后并经过四分位标准化后的FPKM

logFC_t约为0.6,共有436个基因下调,333个基因上调。
看起来已经有很大的差异了,那么具体有多少差异基因具有一致性呢?做个upset图看看。

这差异也太大了吧。。。。
虽然这只是一个孤证,但是也能够提醒我们在分析数据的时候注意,如果能拿到原始count,还是用count来做吧。同时也说明,即使有FPKM和TPM值,也不能简单地log之后用芯片的方法进行差异分析。