1.同一个分组对应同一个关键词
2.顺序与表达矩阵的列一一对应
3.因子,对照组的level在前
1.根据gpl编号查找
2.探针与基因之间的对应关系
3.只能由两列,且都是字符型
4.列名必须是probe_id和symbol
pd <- pData(eSet) #提取临床信息
p = identical(rownames(pd),colnames(exp));p #判断临床信息表格的行名是否和表达矩阵的列名完全一致,并返回一个逻辑值
if(!p) {
s = intersect(rownames(pd),colnames(exp))
exp = exp[,s]
pd = pd[s,]
}
#大括号的内容表示当两个表格信息不一一对应时,怎么通过取子集的方式让临床信息的行与表达矩阵的列完全一致
gpl_number <- eSet@annotation;gpl_number
save(pd,exp,gpl_number,file = "step1output.Rdata") #用来保存当前脚本
一次数据分析最好分多个脚本
代码一旦有修改,就全选重新运行,所以不需要的代码要么直接删掉,要么注释掉
rm(list = ls())
load(file = "step1output.Rdata")
library(stringr)
# 标准流程代码是二分组,多分组数据的分析后面另讲
#⭐要修改的地方:分组信息,必须学会ifelse和str_detect
k = str_detect(pd$title,"Normal");table(k) #不在title就在pd的其他列
Group = ifelse(k,"Normal","Disease")
# 需要把Group转换成因子,并设置参考水平,指定levels
#⭐要修改的地方,对照组在前,处理组在后
Group = factor(Group,levels = c("Normal","Disease")) #因为默认level的排序是按照首字母顺序,所以必须加levels = c("Normal","Disease")这一句
Group
data.frame(pd$title,Group)
如果Group各行对应关系正确,则表示分组正确
1.Bioconductor的注释包(最常用)
2.GPL页面的表格文件解析
3.官网下载对应产品的注释表格
4.自主注释
不是所有的GPL都能找到相应的注释
引用自生信技能树
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。