生信技能树jimmy大神分享过芯片探针注释到基因名的3种方法:
我作为11月学徒马上就收益了,也总结一下,分享广大粉丝!
现在我完成作业就遇到了gpl16699平台,它并没有bioconductor的包,所以需要下载gpl平台的soft文件,进行注释,官网https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16699 可以看到信息如下:
image-20191104214410497
rm(list = ls()) ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
library(GEOquery)
gpl=getGEO("GPL16699",destdir = '.')
names(Meta(gpl))
Table(gpl)[1:10,1:2]
ids=Table(gpl)[,c("NAME","GENE_SYMBOL")]
head(ids)
colnames(ids)=c('probe_id','symbol')
head(ids)
这一个方法需要网速保障,并且确保下载的GPL完整,不然会影响后面的操作。
在官网https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16699 下载txt文件
image-20191104214744842
读取它的代码如下:
rm(list = ls()) ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
gpl=read.table("GPL16699-15607.txt",
header = TRUE,fill = T,sep = "\t",
comment.char = "#",
stringsAsFactors = FALSE,
quote = "")
head(gpl)
colnames(gpl)
ids=gpl[,c("NAME","GENE_SYMBOL")]
head(ids)
colnames(ids)=c('probe_id','symbol')
head(ids)
这个就是gpl16699的探针ID与基因名
image-20191104214939037
对比一下,方法一里面的getGEO函数下载后使用Table提取到的内容,就是方法二的txt文件,后续处理一致。
大功告成!
需要细读表达芯片的公共数据库挖掘系列推文 ;
然后看B站的GEO数据挖掘技巧,基本上该分享的都在B站和GitHub了,目录如下: