TCGA的isoform转录本表达谱数据搞起来会有些麻烦,主要有两点一个是下载以后会出现重复名字和列的bug,这个需要重新整理一下query文件才能往下进行,另外一个就是hg19注释问题,用的是UCSC knowngene这个是数据注释的那个名字很诡异类似
uc001aaa.3这个样子,
需要折腾一下,先转成EntrezID,才能很好的注释转录本对应的基因名字,下面就是代码大家可以自己运行一下看看。
isoform转录本数据能干嘛?
同一基因在转录过程中会有很多不同的转录本产生,直观体现就是长短不一。往小了说可以矫正基因表达量,往大了说可以研究剪切事件。
行了,字数凑的差不多,看代码吧!
library(TCGAbiolinks)
projects <- getGDCprojects()
query.exp <-GDCquery(
project = projects[45,1],
data.category = "Gene expression",
data.type = "Isoform expression quantification",
legacy = TRUE
)
GDCdownload(query.exp)
tmp<-query.exp[[1]][[1]]
tmp<-tmp[!grepl(tmp$tags,pattern="unnormalized"),]
query.exp[[1]][[1]]<-tmp
Exp <-GDCprepare(query = query.exp)
得到了上面这个表达矩阵,可以看到这个列名有些特殊,注释起来会有点费劲,如果你需要注释可以参考下面的代码。
library(annoEpro)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
myGeneSymbolsTx <- select(TxDb.Hsapiens.UCSC.hg19.knownGene,
keys = annoENSG.entrz$EntrezGene,
columns = c("GENEID", "TXNAME", "TXCHROM", "TXSTART", "TXEND"),
keytype = "GENEID")
myGeneSymbolsTx<-AnnoE.pro(data = data.frame(myGeneSymbolsTx),col = "GENEID",ref = "EntrezID")
Exp_anno<-merge(myGeneSymbolsTx,Exp,by.x="TXNAME",by.y=0)
上面这个注释中有个包annoEpro是站长自己写的,不用也没关系。
站长把myGeneSymbolsTx保存下来了,
load("myGeneSymbolsTx.rda")
Exp_anno<-merge(myGeneSymbolsTx,Exp,by.x="TXNAME",by.y=0)
把这个教程转发到朋友圈就行,在后台贴个截图,站长把myGeneSymbolsTx.rda文件发送给你。
或者可以在最下面搞个赞赏,9元起,rda文件自动发给您~