首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >RNA-seq差异分析究竟应该用什么?

RNA-seq差异分析究竟应该用什么?

作者头像
生信菜鸟团
发布2022-05-24 16:29:38
发布2022-05-24 16:29:38
2.8K0
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

一般来说,我们在RNA-seq进行差异分析时最好使用Count值,因为limma-voom、edgeR和DESeq2都是针对RNA-seq的Count值分布进行假设,从而设计的软件。但是,在实际过程中,我们并不是总能获得其Count值,而经常得到的是FPKM或者TPM值,那对于这种情况,我们能不能使用类似于分析芯片的方法进行差异分析呢?

和前面一样,使用的数据依然来自GSE145894,使用STAR进行比对,然后使用StringTie获取其Count值和FPKM以及TPM值。对于Count值,使用DESeq2,而对于FPKM值,在log2之后使用limma进行差异分析。为避免固定阈值导致的误差,我使用mean(logFC)+2*sd(logFC)作为差异阈值,以P<0.05作为显著性阈值。

下面,进入我们的正题部分。

1、Count值

logFC_t约为4.2,共有665个基因下调,196个基因上调。

2、FPKM

logFC_t约为0.7,共有112个基因下调,305个基因上调。

3、筛选后的FPKM值

以去除全0行作为筛选条件。

logFC_t约为0.9,共有82个基因下调,268个基因上调。

4、经过四分位标准化后的FPKM

logFC_t约为0.7,共有392个基因下调,255个基因上调。

5、筛选后并经过四分位标准化后的FPKM

logFC_t约为0.6,共有436个基因下调,333个基因上调。

看起来已经有很大的差异了,那么具体有多少差异基因具有一致性呢?做个upset图看看。

这差异也太大了吧。。。。

虽然这只是一个孤证,但是也能够提醒我们在分析数据的时候注意,如果能拿到原始count,还是用count来做吧。同时也说明,即使有FPKM和TPM值,也不能简单地log之后用芯片的方法进行差异分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、Count值
  • 2、FPKM
  • 3、筛选后的FPKM值
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档