首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R08-GEO数据库挖掘

R08-GEO数据库挖掘

原创
作者头像
坚不可崔同学
发布2024-06-22 13:27:30
发布2024-06-22 13:27:30
1800
举报
文章被收录于专栏:R语言系列R语言系列

数据来源

可挖掘的数据库类型

基因表达芯片;

转录组;

单细胞;

突变、甲基化、拷贝数变异...

如何筛选基因

一、图表介绍

1.热图

输入数据是数值型矩阵/数据框

颜色变化代表数据大小

差异基因热图
差异基因热图

2.散点图和箱线图

散点图

箱线图:输入数据是一个连续型向量和一个有重复值的离散型向量

箱线图
箱线图

3.火山图

FC(Foldchange):处理组平均值/对照组平均值(除以)

log2Foldchange(logFC):Foldchange取log2

转录组和单细胞数据分析不需要取log

取过log的计算方式
取过log的计算方式
logFC范围的意义、结合p值为显著与否
logFC范围的意义、结合p值为显著与否
P.Value
P.Value

4.主成分分析

适合组间比较的查看
适合组间比较的查看
PCA样本聚类图
PCA样本聚类图

主成分分析,旨在利用降维的思维,把多指标转化为少数几个综合指标(即主成分)。

根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

二、GEO背景知识+表达芯片分析思路

1.表达数据实验设计

2.数据库介绍

NCBI-GEO数据库

可做差异分析
可做差异分析

基因表达芯片的原理——探针的表达量代表基因的表达量

探针的表达量代表基因的表达量
探针的表达量代表基因的表达量
分析思路
分析思路

3.表达矩阵

三、代码分析流程

芯片差异分析所需的输入数据

代码分析流程

如何查找数据

1.提取表达矩阵
1.提取表达矩阵

上面取log+1是为了避免临值(不+1也可以使用)

表达芯片数据(array)

检查表达矩阵是否正常

检查表达矩阵是否正常
检查表达矩阵是否正常

处理异常样本(第二种方法能拉平所有样本)

关于表达矩阵里的负值

2.提取临床信息
2.提取临床信息
3.让exp列名与pd的行名顺序完全一致
3.让exp列名与pd的行名顺序完全一致

#intersect是取交集函数

表达矩阵与临床信息表格顺序完全一致
表达矩阵与临床信息表格顺序完全一致
4.提取平台编号(GPL)
4.提取平台编号(GPL)

annotation用@还是$提取可以自行查看

annotation用@还是$提取可以自行查看
annotation用@还是$提取可以自行查看

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据来源
  • 可挖掘的数据库类型
  • 如何筛选基因
  • 一、图表介绍
    • 1.热图
    • 2.散点图和箱线图
    • 3.火山图
    • 4.主成分分析
  • 二、GEO背景知识+表达芯片分析思路
    • 1.表达数据实验设计
    • 2.数据库介绍
    • 3.表达矩阵
  • 三、代码分析流程
    • 芯片差异分析所需的输入数据
    • 代码分析流程
    • 如何查找数据
    • 上面取log+1是为了避免临值(不+1也可以使用)
      • 表达芯片数据(array)
      • 检查表达矩阵是否正常
      • 处理异常样本(第二种方法能拉平所有样本)
      • 关于表达矩阵里的负值
      • annotation用@还是$提取可以自行查看
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档