前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【TCGA】如何下载TCGA公开的转录本Isoform表达谱数据

【TCGA】如何下载TCGA公开的转录本Isoform表达谱数据

作者头像
Chris生命科学小站
发布2023-02-28 17:03:44
8440
发布2023-02-28 17:03:44
举报
文章被收录于专栏:Chris生命科学小站五年归档

TCGA的isoform转录本表达谱数据搞起来会有些麻烦,主要有两点一个是下载以后会出现重复名字和列的bug,这个需要重新整理一下query文件才能往下进行,另外一个就是hg19注释问题,用的是UCSC knowngene这个是数据注释的那个名字很诡异类似

uc001aaa.3这个样子,

需要折腾一下,先转成EntrezID,才能很好的注释转录本对应的基因名字,下面就是代码大家可以自己运行一下看看。‍‍‍

isoform转录本数据能干嘛?

同一基因在转录过程中会有很多不同的转录本产生,直观体现就是长短不一。往小了说可以矫正基因表达量,往大了说可以研究剪切事件。

行了,字数凑的差不多,看代码吧!

代码语言:javascript
复制
library(TCGAbiolinks)
projects <- getGDCprojects()
query.exp <-GDCquery(
  project = projects[45,1], 
  data.category = "Gene expression",
  data.type = "Isoform expression quantification",
  legacy = TRUE
)
GDCdownload(query.exp)
tmp<-query.exp[[1]][[1]]
tmp<-tmp[!grepl(tmp$tags,pattern="unnormalized"),]
query.exp[[1]][[1]]<-tmp
Exp <-GDCprepare(query = query.exp)

得到了上面这个表达矩阵,可以看到这个列名有些特殊,注释起来会有点费劲,如果你需要注释可以参考下面的代码。‍‍‍‍‍‍‍‍‍‍‍‍

代码语言:javascript
复制
library(annoEpro)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
myGeneSymbolsTx <- select(TxDb.Hsapiens.UCSC.hg19.knownGene,
                          keys = annoENSG.entrz$EntrezGene,
                          columns = c("GENEID", "TXNAME", "TXCHROM", "TXSTART", "TXEND"),
                          keytype = "GENEID")
myGeneSymbolsTx<-AnnoE.pro(data = data.frame(myGeneSymbolsTx),col = "GENEID",ref = "EntrezID")

Exp_anno<-merge(myGeneSymbolsTx,Exp,by.x="TXNAME",by.y=0)

上面这个注释中有个包annoEpro是站长自己写的,不用也没关系。

站长把myGeneSymbolsTx保存下来了, ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

代码语言:javascript
复制
load("myGeneSymbolsTx.rda")
Exp_anno<-merge(myGeneSymbolsTx,Exp,by.x="TXNAME",by.y=0)

把这个教程转发到朋友圈就行,在后台贴个截图,站长把myGeneSymbolsTx.rda文件发送给你。

或者可以在最下面搞个赞赏,9元起,rda文件自动发给您~‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Chris生命科学小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档