Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >100个GEO基因表达芯片或转录组数据处理之GSE126848(003)

100个GEO基因表达芯片或转录组数据处理之GSE126848(003)

原创
作者头像
生信探索
修改于 2024-07-10 06:19:42
修改于 2024-07-10 06:19:42
1610
举报
文章被收录于专栏:生信探索生信探索

写在前边

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。

公众号:生信探索

小红书:生信探索

抖音:生信探索

B站:生信探索

知乎:生信探索

CSDN:生信探索

简书:生信探索

YouTube:生信探索

Twitter:生信探索

数据信息检索

可以看到GSE126848是转录组高通量测序数据,因此可以使用GEOquery包下载数据临床信息,并且手动下载表达矩阵并整理

使用GEOquery包下载数据

代码语言:R
AI代码解释
复制
using(tidyverse, GEOquery, magrittr, data.table, AnnoProbe, clusterProfiler, org.Hs.eg.db, org.Mm.eg.db)

注:using是我写的函数,作用是一次性加载多个R包,不用写双引号,并且不在屏幕上打印包的加载信息,可以参考之前的推文using的定义;函数名字using是在模仿Julia语言中的包加载函数

代码语言:R
AI代码解释
复制
geo_accession <- "GSE126848"
gset <- GEOquery::getGEO(geo_accession, destdir = "./", AnnotGPL = F, getGPL = F)
eSet <- gset[[1]]
gpl <- eSet@annotation

处理表型数据

这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,在这里只保留disease:ch1中healthy和NASH的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)

代码语言:R
AI代码解释
复制
pdata <- pData(eSet)

geo_accession

description

disease:ch1

gender:ch1

tissue:ch1

GSM3615293

2683

NAFLD

Male

Liver

GSM3615294

2685

NAFLD

Male

Liver

GSM3615295

2687

NAFLD

Male

Liver

GSM3615296

2689

NAFLD

Female

Liver

GSM3615297

2691

NAFLD

Female

Liver

GSM3615298

2693

NAFLD

Male

Liver

代码语言:R
AI代码解释
复制
pdata %<>%
    dplyr::mutate(
        Sample = geo_accession,
        Group = case_when(`diagnosis:ch1` == "HC" ~ "Control", `diagnosis:ch1` == "NASH" ~ "Case", TRUE ~ NA),
        Age = `age (y):ch1`,
        Sex = str_to_title(`gender:ch1`),
        Stage = `fibrosis (stage):ch1`
    ) %>%
    dplyr::filter(!is.na(Group)) %>%
    dplyr::select(Sample, Group, Age, Sex)
fwrite(pdata, file = str_glue("{geo_accession}_pdata.csv"))

处理表达谱数据

原始数据为Count值,需要标准化为TPM,并且基因名是Ensembl ID转换为Symbol基因名,可以使用到我自己写的几个函数genekit、bioquest;有需要可以联系我的公众号@恩喜玛生物,加入交流群

代码语言:Python
AI代码解释
复制
import pandas as pd
import genekit as gk
import bioquest as bq
代码语言:Python
AI代码解释
复制
fdata = pd.read_csv("GSE126848_Gene_counts_raw.txt.gz",sep='\t',index_col=0)
pdata = pd.read_csv("GSE126848_pdata.csv",index_col=0)
pdata.drop(columns=["Sample2"]).to_csv("GSE126848_pdata.csv")

fdata与pdata样本名统一,这里使用了Python的字符串格式化方法

代码语言:Python
AI代码解释
复制
fdata = fdata.loc[:,["{0:0>4}".format(x) for x in pdata.Sample2]]
fdata.columns = pdata.index.to_list()

保存一份原始Count数据信息

代码语言:Python
AI代码解释
复制
fdata.to_csv("GSE126848_count.csv.gz")

Count 转 TPM

代码语言:Python
AI代码解释
复制
fdata = gk.countto(fdata, towhat='tpm', geneid='Ensembl', species='Human')

Ensembl ID转换为Symbol基因名

代码语言:Python
AI代码解释
复制
fdata=gk.geneIDconverter(
    frame=fdata,
    from_id='Ensembl',
    to_id='Symbol',
    keep_from=False,
    gene_type=False,
    )

去重复

根据每个基因表达量的中位数去除重复的基因

代码语言:Python
AI代码解释
复制
fdata=bq.tl.unique_exprs(fdata)

保存TPM基因表达量数据

代码语言:Python
AI代码解释
复制
fdata.to_csv("GSE126848_tpm.csv.gz")

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
100个GEO基因表达芯片或转录组数据处理025.GSE248467
虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。
生信探索
2025/07/09
830
100个GEO基因表达芯片或转录组数据处理GSE25097(018)
虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。
生信探索
2024/11/08
2230
GEO数据库表达数据的提取以及limma包进行差异分析
关于GEO数据库认识和在线使用教程,参考文章:GEO数据库使用教程及在线数据分析工具。关于GEO数据库的R包:Bioconductor:GEOquery包,我们前面已经介绍,当然是官方案例,我们这里实战一下。
DoubleHelix
2020/06/24
19.5K13
GEO数据库表达数据的提取以及limma包进行差异分析
aglient芯片原始数据处理
我多次在学徒作业强调了 3大基因芯片产商里面,就Agilent公司的芯片比较难搞,比如Agilent芯片表达矩阵处理(学徒作业) 以及 oligo包可以处理agilent芯片吗,这个作业难度非常高,不过我们生信技能树优秀讲师:小洁在繁重的授课压力下抽空整理了相关数据处理经验分享给大家,下面看她的表演:
生信技能树
2020/06/11
3.8K1
aglient芯片原始数据处理
GEO数据挖掘——快速将探针ID转化为Gene Symol
hello,hello!各位小伙伴们大家好,我是大家的小编豆豆,最近因为南京疫情,导致很多学校被封了,很多实验样品进不来,所以很多做实验的同学开始学生信。前两天,我妹妹在做GEO数据分析时遇到一点问题,就是将芯片数据的探针ID转化为Gene ID。小编以前也是学数据挖掘出身,知道这个是小伙伴们做GEO数据挖掘的第一道坎,今天小编就来写一个函数帮助小伙伴们快速的解决这个问题。
用户1075469
2023/01/11
4.4K0
geo数据挖掘-2
对下载的数据进行处理,提取表达矩阵,并匹配探针信息,基因名 教程来自:https://github.com/jmzeng1314/GEO/
火星娃统计
2020/09/15
1.3K0
geo数据挖掘-2
基因芯片数据分析(二):读取芯片数据
在microarray的处理中,第一步就是读取数据。无论是自己的保存在本地的数据,还是在线保存的数据,对于不同公司的芯片可以使用不同的软件包读取。在这里,我们说的在线数据,主要是指保存在GEO (Gene Expression Omnibus) 数据库中的数据,当然GEO的数据可先下载后再读入。
DoubleHelix
2019/12/13
5K0
芯片数据分析,so easy?
我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯课堂发布的课程GEO数据库表达芯片处理之R语言流程(阅读原文购买)遇到了问题问我请教,为了解决这个问题,我花了一个晚上时间学习这方面的分析。
生信技能树
2018/07/27
2.5K0
芯片数据分析,so easy?
GEO 数据挖掘-数据获得
NCBI Gene Expression Omnibus(GEO)是各种高通量实验数据的公共存储库,这些数据包括测量mRNA、基因组DNA和蛋白质丰度的单通道和双通道微阵列实验,以及非阵列技术,如基因表达序列分析(SAGE)、质谱蛋白质组数据和高通量测序数据。相比较TCGA数据库,因为数据是用户上传,所以更新较快
火星娃统计
2020/09/15
2.1K0
GEO数据挖掘流程+STRING VS R in KEGG/GO
In molecular biology, STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) is a biological database and web resource of known and predicted protein–protein interactions.(from Wkkipedia)
生信技能树
2019/05/15
3.6K0
GEO数据挖掘流程+STRING VS R in KEGG/GO
解读GEO数据存放规律及下载,一文就够
做生物信息学分析的朋友应该是对GEO数据库耳熟能详了,总会用到公共数据库的,而GEO数据库则是首选,起先只是为表达芯片数据准备的,后期纳入了各种NGS组学数据,文章里面会给出数据地址,GSE ID号,
生信技能树
2018/03/29
4.8K0
解读GEO数据存放规律及下载,一文就够
高颜值复杂热图绘制小技巧
这幅图展示了 两分组(KRAS-mt vs KRAS-wt)差异分析结果中 21个上调基因 与 14 个下调 差异基因在不同样本中的基因表达水平模式,热图上方 展示了 样本的许多临床性状特征 如 Stage分期,年龄,性别,CMS 分子分期等。热图如下:
生信技能树
2025/01/19
1410
高颜值复杂热图绘制小技巧
配对样本检验及绘图
1. 下载GEO数据 #======================================================= #set the working files and load the packages #======================================================= # install some packages if neccessary # if (!requireNamespace("BiocManager", quietly
用户1359560
2021/12/06
7050
配对样本检验及绘图
从零开始的异世界生信学习 GEO数据库数据挖掘--GEO代码-芯片数据分析-1
在列表中取子集后得到"ExpressionSet"结构数据,为"Biobase"包中的数据形式
用户10361520
2023/03/09
1.1K0
数据集“变脸术”?曾老板给的双胞胎数据集之谜
这两个数据集分别是:2012年update 在GEO上的 GSE41258,以及 2015年 update的GSE68468
生信技能树
2025/02/24
580
数据集“变脸术”?曾老板给的双胞胎数据集之谜
从GEO数据库下载得到表达矩阵 一文就够
在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习。总得来说,从GEO数据库里面得到感兴趣数据集的表达矩阵分成两类,最简单的就是直接下载作者归一化好的表达矩阵咯,比较麻烦的就是下载最原始芯片数据,然后根据不同的芯片来一一解读成表达矩阵。 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 直接下载数据集作者上传的表达矩阵 通常我们默认作者对其芯片数据处理的
生信技能树
2018/03/29
11.2K0
从GEO数据库下载得到表达矩阵 一文就够
GEO数据库(一)
2、本地安装:从github官网上R包界面下载到本地,并放到当前工作目录下,使用如下命令:
祈祈
2023/04/26
1.3K0
没有生物学重复的转录组差异分析如何挑选基因呢: 变化倍数与P值选谁?
2、没有生物学重复的时候 还有算法可以做差异分析吗?进而得到一个统计学显著性Pvalue值。
生信技能树
2024/12/27
3090
没有生物学重复的转录组差异分析如何挑选基因呢: 变化倍数与P值选谁?
GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序
虽然一直演示的表达芯片数据分析,这些芯片分析难点主要是在ID转换,因为不同公司设计的探针命名都不一样,在我4年前博客整理的芯片平台对应R包找:(16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集
生信技能树
2019/10/31
2.3K0
GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序
Bioconductor:GEOquery包
http://www.bioconductor.org/packages/release/bioc/vignettes/GEOquery/inst/doc/GEOquery.html
DoubleHelix
2020/06/17
6.4K0
推荐阅读
相关推荐
100个GEO基因表达芯片或转录组数据处理025.GSE248467
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档