首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GEO数据挖掘补充(四)——探针注释

GEO数据挖掘补充(四)——探针注释

原创
作者头像
拉布拉多_奶芙
发布2024-11-04 12:54:57
发布2024-11-04 12:54:57
3120
举报
文章被收录于专栏:GEO数据挖掘GEO数据挖掘

来自——生信技能树课程

常用方法

代码语言:r
复制
library(tinyarray)
find_anno("GPL代码",install = T)#GPL代码通常在数据资料内可找到
#>- [1] `library(xxxxx.db);ids <- toTable(xxxxxxx)` and `ids <- AnnoProbe::idmap('GPL代码')` are both available
#2选1运行代码即可下载GPL注释文件

当上述代码运行结果为:no annotation packages avliable,please use `ids <- AnnoProbe::idmap('XXXGPLXXX')` if you get error by this code ,please try different `type` parameters

不可行,以下4选1下载注释文件

一、Bioconductor R包(最常用)

#找到GPL

#GPL平台与R包的对应关系:http://www.bio-info-trainee.com/1399.html #安装并加载相应的R包(此处以为例"hgu133plus2.db")

代码语言:r
复制
 if(!require(hgu133plus2.db))BiocManager::install("hgu133plus2.db")
   library(hgu133plus2.db)
   ls("package:hgu133plus2.db")#列出某R包内有哪些函数/数据
   #用toTable()处理探针注释号(xxxSYMBOL)且不能加引号(此处为“hgu133plus2SYMBOL”);
   ids <- toTable(hgu133plus2SYMBOL)
   head(ids)

二、 读取GPL网页的表格文件,按列取子集

(1)下载GPL文件到工作目

网站下载(以GPL570为例):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570

GEOquery包下载:getGEO("GSExxxxx",getGPL =T) ——有时会连接超时无法下载

get_gpl_txt {tinyarray}也可以下载:get_gpl_txt("GPLxxxx")(很大下载很慢)

(2)继续

代码语言:r
复制
 
     #读取表格(可应用函数众多,视情况而定)
     #表格读取参数、文件列名不统一,活学活用,有的表格里没有symbol列,也有的GPL平台没有提供注释表格
     b = read.delim("GPL570.txt",
                 check.names = F,
                 comment.char = "#")
          #check.names——是否将列名里的特殊符号转换为下划线
          #comment.char = "#"——#开头的行是注释行,不作为表格正式内容
          #"skip ="为跳过开头几行
     colnames(b)
     ids2 = b[,c("ID","Gene Symbol")]
     #为避免数据覆盖,命名为ids2,自己运行时最后要运行ids=ids2以实现代码数据衔接
     colnames(ids2) = c("probe_id","symbol") 
     #为使与之后代码兼容更改列名,此处列名不可动!!
  
     #检查ids2数据有误异常并进行相应处理(以下为常见问题举例)
        #查看ids2可见symbol有空值,即有的探针没有对应的symbol,要将其删除
        k1 = ids2$symbol!=""
        table(k1)
        #有的探针对应多个symbol(非特异探针),将其删除
        k2 = !str_detect(ids2$symbol,"///")
        table(k2)
        ids2 = ids2[ k1 & k2,]
     #ids = ids2

三、官网下载注释文件并读取(很有可能不能用)

http://www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus

四、自主注释

https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 常用方法
  • 不可行,以下4选1下载注释文件
    • 一、Bioconductor R包(最常用)
    • 二、 读取GPL网页的表格文件,按列取子集
  • 三、官网下载注释文件并读取(很有可能不能用)
  • 四、自主注释
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档