前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >count、tpm、fpkm等表达量差异

count、tpm、fpkm等表达量差异

作者头像
医学和生信笔记
发布2023-02-14 17:30:48
2.5K1
发布2023-02-14 17:30:48
举报
文章被收录于专栏:医学和生信笔记

在进行差异分析、生存分析等下游分析时,有很多粉丝朋友对到底使用哪种类型的数据非常纠结,所以我们今天比较一下counts、tpm、fpkm、vst、cpm的表达量差异,让大家对这些数据类型有一个直观的感受。

以TCGA-CHOL为例。

首先获取counts、tpm、fpkm表达矩阵,这个过程建议使用1行代码系列,一步到位:

代码语言:javascript
复制
rm(list = ls())
load(file = "G:/tcga/TCGA-mRNA/TCGA-CHOL_mRNA.Rdata")

library(tidyverse)
library(SummarizedExperiment)

然后我们再准备下vst格式的表达矩阵:

代码语言:javascript
复制
library(DESeq2)

mrna_expr_vst <- vst(as.matrix(mrna_expr_counts))

再准备下cpm格式的表达矩阵:

代码语言:javascript
复制
library(edgeR)

mrna_expr_cpm <- cpm(mrna_expr_counts)

简单看下数据情况,都是19938行,44列。

代码语言:javascript
复制
dim(mrna_expr_counts)
dim(mrna_expr_fpkm)
dim(mrna_expr_tpm)
dim(mrna_expr_vst)
dim(mrna_expr_cpm)

[1] 19938    44
[1] 19938    44
[1] 19938    44
[1] 19938    44
[1] 19938    44

然后简单画个箱线图看看表达量分布情况:

代码语言:javascript
复制
opar <- par(mfrow=c(3,2))
boxplot(mrna_expr_counts)
boxplot(mrna_expr_fpkm)
boxplot(mrna_expr_tpm)
boxplot(mrna_expr_vst)
boxplot(mrna_expr_cpm)

结果很清晰了吧?这里面只有vst是另类,这也是为什么vst不需要再log的原因,其他4种类型的表达量都是很大且很分散的。

接下来我们再看看其他几个数据log之后的情况。

代码语言:javascript
复制
opar <- par(mfrow=c(3,2))
boxplot(log2(mrna_expr_counts+1))
boxplot(log2(mrna_expr_fpkm+1))
boxplot(log2(mrna_expr_tpm+1))
boxplot(mrna_expr_vst)
boxplot(log2(mrna_expr_cpm+1))

这样看是不是很接近了呢?

所以大家不要纠结了!对于TCGA这种转录组数据,差异分析就用counts,使用DESeq2包,后续的各种分析都用vst,没啥问题。你看这篇cell的文章用的就是vst后的数据:

当然log2之后的tpm也可以用于后续的各种分析,你去pubmed搜一下就知道,大把文章用的都是log2(tpm+1)这种,当然你用log后的tpm做差异分析(limma包)也是可以的(不推荐),可以多看看文献~

fpkm现在都不推荐使用了!


新版TCGA系列推文

1.新版TCGA数据库学习:批量下载数据

2.新版TCGA数据库学习:表达矩阵提取(mRNA/lncRNA/counts/tpm/fpkm)

3.手动下载的TCGA数据也是可以用TCGAbiolinks包整理的

4.新版TCGAbiolinks包学习:差异分析

5.新版TCGAbiolinks包学习:富集分析和生存分析

6.TCGA的maf突变文件不能下载了?直接用TCGAbiolinks包搞定!

7.maftools需要的文件如何自己整理

8.TCGAbiolinks的甲基化数据分析

9.新版TCGA数据库不同癌种的组学数据合并

10.TCGA官网下载的文件数量竟然和TCGAbiolinks不一致!

11.可能是最适合初学者的TCGA官网下载和表达矩阵整理教程

12.新版TCGAbiolinks包学习:可视化

13.1行代码提取6种TCGA表达矩阵和临床信息

14.1行代码提取6种TCGA表达矩阵2.0版

15.1行代码提取TCGA的6种表达矩阵是有视频教程的

16.ChAMP分析甲基化数据:标准流程

17.ChAMP分析甲基化数据:从β值矩阵开始的流程

18.ChAMP分析TCGA结直肠癌的甲基化数据!

19.minfi包处理甲基化数据



本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 医学和生信笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档