首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >biotrainee note 8

biotrainee note 8

原创
作者头像
季枫
发布2024-11-16 11:50:56
发布2024-11-16 11:50:56
960
举报
文章被收录于专栏:生信学习笔记生信学习笔记

芯片差异分析所需的输入数据

表达矩阵

  1. 数据分布范围0-20之间 2.无异常值,如NA、Inf,负值 3.无异常样本

分组信息

1.同一个分组对应同一个关键词

2.顺序与表达矩阵的列一一对应

3.因子,对照组的level在前

探针注释

1.根据gpl编号查找

2.探针与基因之间的对应关系

3.只能由两列,且都是字符型

4.列名必须是probe_id和symbol

代码分析流程

提取临床信息(分组信息)

临床信息表格的行名与表达矩阵的列名应该是完全一致且顺序相同的,呈一一对应的关系

代码语言:r
复制
pd <- pData(eSet) #提取临床信息
p = identical(rownames(pd),colnames(exp));p #判断临床信息表格的行名是否和表达矩阵的列名完全一致,并返回一个逻辑值
if(!p) {
  s = intersect(rownames(pd),colnames(exp))
  exp = exp[,s]
  pd = pd[s,]
} 
#大括号的内容表示当两个表格信息不一一对应时,怎么通过取子集的方式让临床信息的行与表达矩阵的列完全一致

提取芯片平台编号,后面要根据它来找探针注释

代码语言:r
复制
gpl_number <- eSet@annotation;gpl_number
save(pd,exp,gpl_number,file = "step1output.Rdata") #用来保存当前脚本

一次数据分析最好分多个脚本

代码一旦有修改,就全选重新运行,所以不需要的代码要么直接删掉,要么注释掉

实验分组和探针注释

分组

代码语言:r
复制
rm(list = ls())  
load(file = "step1output.Rdata")
library(stringr)
# 标准流程代码是二分组,多分组数据的分析后面另讲
#⭐要修改的地方:分组信息,必须学会ifelse和str_detect
k = str_detect(pd$title,"Normal");table(k) #不在title就在pd的其他列
Group = ifelse(k,"Normal","Disease") 

将Group转换成因子

代码语言:r
复制
# 需要把Group转换成因子,并设置参考水平,指定levels
#⭐要修改的地方,对照组在前,处理组在后
Group = factor(Group,levels = c("Normal","Disease")) #因为默认level的排序是按照首字母顺序,所以必须加levels = c("Normal","Disease")这一句
Group

检测自己得到的分组是否正确

代码语言:r
复制
data.frame(pd$title,Group)

如果Group各行对应关系正确,则表示分组正确

探针注释

注释来源

1.Bioconductor的注释包(最常用)

2.GPL页面的表格文件解析

3.官网下载对应产品的注释表格

4.自主注释

不是所有的GPL都能找到相应的注释

引用自生信技能树

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 芯片差异分析所需的输入数据
    • 表达矩阵
    • 分组信息
    • 探针注释
  • 代码分析流程
  • 提取临床信息(分组信息)
    • 临床信息表格的行名与表达矩阵的列名应该是完全一致且顺序相同的,呈一一对应的关系
  • 提取芯片平台编号,后面要根据它来找探针注释
  • 实验分组和探针注释
    • 分组
    • 将Group转换成因子
    • 检测自己得到的分组是否正确
    • 探针注释
      • 注释来源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档