来自——生信技能树课程
library(tinyarray)
find_anno("GPL代码",install = T)#GPL代码通常在数据资料内可找到
#>- [1] `library(xxxxx.db);ids <- toTable(xxxxxxx)` and `ids <- AnnoProbe::idmap('GPL代码')` are both available
#2选1运行代码即可下载GPL注释文件
当上述代码运行结果为:no annotation packages avliable,please use `ids <- AnnoProbe::idmap('XXXGPLXXX')` if you get error by this code ,please try different `type` parameters
#找到GPL码
#GPL平台与R包的对应关系:http://www.bio-info-trainee.com/1399.html #安装并加载相应的R包(此处以为例"hgu133plus2.db")
if(!require(hgu133plus2.db))BiocManager::install("hgu133plus2.db")
library(hgu133plus2.db)
ls("package:hgu133plus2.db")#列出某R包内有哪些函数/数据
#用toTable()处理探针注释号(xxxSYMBOL)且不能加引号(此处为“hgu133plus2SYMBOL”);
ids <- toTable(hgu133plus2SYMBOL)
head(ids)
(1)下载GPL文件到工作目
网站下载(以GPL570为例):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570
GEOquery包下载:getGEO("GSExxxxx",getGPL =T) ——有时会连接超时无法下载
get_gpl_txt {tinyarray}也可以下载:get_gpl_txt("GPLxxxx")(很大下载很慢)
(2)继续
#读取表格(可应用函数众多,视情况而定)
#表格读取参数、文件列名不统一,活学活用,有的表格里没有symbol列,也有的GPL平台没有提供注释表格
b = read.delim("GPL570.txt",
check.names = F,
comment.char = "#")
#check.names——是否将列名里的特殊符号转换为下划线
#comment.char = "#"——#开头的行是注释行,不作为表格正式内容
#"skip ="为跳过开头几行
colnames(b)
ids2 = b[,c("ID","Gene Symbol")]
#为避免数据覆盖,命名为ids2,自己运行时最后要运行ids=ids2以实现代码数据衔接
colnames(ids2) = c("probe_id","symbol")
#为使与之后代码兼容更改列名,此处列名不可动!!
#检查ids2数据有误异常并进行相应处理(以下为常见问题举例)
#查看ids2可见symbol有空值,即有的探针没有对应的symbol,要将其删除
k1 = ids2$symbol!=""
table(k1)
#有的探针对应多个symbol(非特异探针),将其删除
k2 = !str_detect(ids2$symbol,"///")
table(k2)
ids2 = ids2[ k1 & k2,]
#ids = ids2
http://www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus
https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。