前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GEO数据挖掘—GSE68183

GEO数据挖掘—GSE68183

原创
作者头像
sheldor没耳朵
发布2024-07-23 12:18:42
1460
发布2024-07-23 12:18:42
举报
文章被收录于专栏:GEO数据挖掘

学习完GEO数据挖掘-基于芯片之后,进行GSE68183实战演练,

记录下实战过程中值得注意的点

(很多时候我并不能发现自己的错误,欢迎大家批评指正)

1 设置分组信息

首先注意到信息表格pd中的title与source_name_ch1列中均含有分组信息,这里我选择了source_name_ch1l列,non-Diabetic Foot skin作为对照,Diabetic Foot skinDFU作为处理组。

代码语言:r
复制
k = str_detect(pd$source_name_ch1,"non");table(k) #不在title就在pd的其他列
Group = ifelse(k,"Normal","DFU")
# 需要把Group转换成因子,并设置参考水平,指定levels
#,对照组在前,处理组在后
Group = factor(Group,levels = c("Normal","DFU"))
Group

2 GPL16686进行探针注释

这一步花了不少时间,第一次遇见,是个难点

2.1 GPL16686注释文件读取

发现GPL16686是无法通过tinyarray直接进行探针注释的,故需要从网页获取GPL16686注释文件后,放在工作目录下。可以直接在GEO网页中搜索

或通过代码直接获取GPL16686的下载链接

代码语言:r
复制
library(tinyarray)
get_gpl_txt(gpl_number) #获取表格文件的下载链接

观察下载文件,确定read.delim读取表格的方式(跳过前十行和最后一行!platform_table_end)

代码语言:r
复制
a <- read.delim("GPL16686.txt",skip = 10,comment.char = "!")
#看一下a的行数是否与网站上相同
dim(a)
[1] 53981     8

2.2 GPL16686表格处理

观察GPL16686的表格是没有SYMBOL列,需要通过GB_ACC列进行转换

代码语言:r
复制
#获取pre_ids的id,GB_ACC列,并去除空值
pre_ids <- a[,c("ID","GB_ACC")]
k <- pre_ids$GB_ACC!="";k
pre_ids <- pre_ids[k,]

2.3 GB_ACC与SYMBOL的转换

通过clusterProfiler包进行转换

代码语言:r
复制
library(clusterProfiler)
library(org.Hs.eg.db)
s2e = bitr(pre_ids$GB_ACC, 
           fromType = "ACCNUM",
           toType = "SYMBOL",
           OrgDb = org.Hs.eg.db)

2.4 连接pre_ids与s2e,得到探针注释文件ids

代码语言:r
复制
#两个数据框的连接列名不一致,需要改一致才能进行连接
colnames(s2e) <- c("GB_ACC","SYMBOL")
library(dplyr)
ids <- left_join(pre_ids,s2e,by="GB_ACC")
ids <- ids[,c("ID","SYMBOL")]
colnames(ids)=c("probe_id","symbol")

3 后续

3.1 数据探索

PCA分析以及挑选标准差前1000基因画热图分析

3.2 差异表达基因

根据网站上的描述,确定logFC_t阈值与p值

代码语言:r
复制
logFC_t = 1
p_t = 0.05
k1 = (deg$P.Value < p_t)&(deg$logFC < -logFC_t)
k2 = (deg$P.Value < p_t)&(deg$logFC > logFC_t)
deg = mutate(deg,change = ifelse(k1,"down",ifelse(k2,"up","stable")))
table(deg$change)
#输出
down stable     up 
    21  15593     21 

按照同样的条件做出来的差异基因和文章中有所不同(文章中有36个差异基因),我做出来有21down+21up=42个差异基因,不能得出一致的结果但差异不大属于正常。有时真的感觉科研这玩意怎么说都行。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 设置分组信息
  • 2 GPL16686进行探针注释
    • 2.1 GPL16686注释文件读取
      • 2.2 GPL16686表格处理
        • 2.3 GB_ACC与SYMBOL的转换
          • 2.4 连接pre_ids与s2e,得到探针注释文件ids
          • 3 后续
            • 3.1 数据探索
              • 3.2 差异表达基因
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档