Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TCGA数据库的normal样本不够可以拿GTEx来凑

TCGA数据库的normal样本不够可以拿GTEx来凑

作者头像
生信技能树
发布于 2020-07-14 03:47:53
发布于 2020-07-14 03:47:53
6.7K0
举报
文章被收录于专栏:生信技能树生信技能树

太多人问到:自己想挖掘的癌症,虽然是在TCGA数据库有数据,但是normal(癌旁样品或者血液)太少了,做差异分析什么的, 会面临样本数量不平衡问题,是否可以纳入GTEx数据库的正常组织转录组测序数据。

  • GTEx,The Genotype-Tissue Expression (GTEx) project,首次被提出来是2013年,上百位科学家联名在Nature Genetics杂志发表的文章首次介绍了“基因型-组织表达工程”,并成立了“基因型-组织表达研究联盟”。The GTEx has catalogued gene expression in >9,000 samples across 53 tissues from 544 healthy individuals.
  • TCGA,The cancer genome altas,https://cancergenome.nih.gov/ ,是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据。The Cancer Genome Atlas (TCGA) has quantified gene expression levels in >12000 samples from >33 cancer types.

其实是没办法简单的回答是否可以整合TCGA和GTEx数据库,或者说该如何结合,这背后的统计学略微有点复杂,不仅仅是批次效应。发表在Sci Data. 2018; 的文章:Unifying cancer and normal RNA sequencing data from different sources 就比较详细的说明了TCGA和GTEx数据库的转录组数据的天然差异:

  • sequencing platform and chemistry, personnel, details in the analysis pipeline, etc
  • 基因表达量范围:4-10 (log2 of normalized_count) for TCGA, and 0-4 (log2 of RPKM) for GTEx

全部代码共享在:GitHub (https://github.com/mskcc/RNAseqDB).

统一TCGA和GTEx定量流程

最近一篇发表在SR,17 February 2020 的文章:Variability in estimated gene expression among commonly used RNA-seq pipelines 比较了常见转录组测序数据分析流程对定量拿到的表达矩阵的影响:

  • We compared gene expression values from common samples (4,800 tumor samples from TCGA and 1,890 normal-tissue samples from GTEx) processed by the pipelines to understand how gene expression quantification is impacted by differences in data processing.

TCGA和GTEX是两个超级大的拥有RNA-seq数据的计划,其中TCGA涵盖33种癌症,超1万个样品,而GTEX也有500多个病人的50多种组织的近1万个样品数据。它们各自的发起单位对RNA-seq数据处理不一样,而且后续也有一些新的流程处理试图统一两个数据库的RNA-seq数据分析结果,比较出名的5个流程分别是

  • TOPMed pipeline (https://github.com/broadinstitute/gtex-pipeline)
  • recount2 pipeline (https://jhubiostatistics.shinyapps.io/recount/)

作者把这5个流程应用到TCGA和GTEX,得到10个不同组合的数据

  • GDC (GDC-Xena/Toil, GDC-Piccolo, GDC-Recount2, GDC-MSKCC and GDC-MSKCC Batch).
  • GTEx (GTEx-Xena/Toil, GTEx-Recount2, GTEx-MSKCC, GTEx-MSKCC Batch)

做了非常完善的比较,并且公布全部代码在:https://github.com/sonali-bioc/UncertaintyRNA

比较常见的5个转录组定量流程

整合TCGA和GTEx数据库的文献

非常多!

很多简陋的数据挖掘,比如发表在PeerJ的 BIOINFORMATICS AND GENOMICS杂志的文章:Identification of four hub genes associated with adrenocortical carcinoma progression by WGCNA 也会涉及到TCGA数据库和GTEx的整合。

首先下载TCGA和GTEx数据库的TPM表达矩阵:

Gene transcripts per million (TPM) data were downloaded from the UCSC Xena database, which included ACC (The Cancer Genome Atlas, n = 77) and normal samples (Genotype Tissue Expression, n = 128).

然后差异分析流程是:

  • Of the 60,498 genes in each sample, we removed genes with a mean TPM ≤ 2.5 (>1 is a common cutoff for determining if an isoform is expressed or not in the cancer and normal samples and thus retained 13,987 genes.
  • For those genes in the samples that showed significant changes, we used analysis of variance (ANOVA) in R to determine the variance in genes between the two groups. ANOVA is a collection of statistical models useful for DEG analysis.
  • We obtained 2,953 significant DEGs (Table S2) in ACC with a p < 0.001 and |log2 (fold-change)| > 1 cutoff.

差异分析结果是:1,181 up-regulated and 1,772 down-regulated genes.

可以看到,作者默认TPM这个转录组测序表达数据归一化形式本身是具有跨平台跨数据库的特性,所以无需考虑批次效应,直接使用最简单粗暴的ANOVA检验即可!

如果是甲基化数据

我们都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:

  • DNA Sequencing
  • miRNA Sequencing
  • Protein Expression array
  • mRNA Sequencing
  • Total RNA Sequencing
  • Array-based Expression
  • DNA Methylation
  • Copy Number array

知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:

  • Broad Institute FireBrowse portal, The Broad Institute
  • cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center

对转录表达这个层面的信息来说,最优选择当然是整合TCGA和GTEx数据库,但是对于甲基化数据,我们有没有类似于GTEx数据库的超级大队列呢?

目前我还没有接触到,我前面分享过:这样的诊断模型才优秀,作者就是下载TCGA的结直肠癌甲基化位点信号矩阵文件:

  • Tissue DNA methylation data were obtained from the TCGA (TCGA, TCGA-COAD, and TCGA-READ).

以及正常人的血液的甲基化信号值作为对照:

  • Whole-blood DNA methylation profiles from healthy donors were generated in an aging study (GSE40279)

上面的两个队列是为了确定直肠癌特异性甲基化位点,做的是差异分析,确定了 top 1000 methylation markers

可以合理的推测应该是没有人类各个正常组织的甲基化数据供使用,所以他们才会退而求其次使用正常人的血液的甲基化信号值作为对照吧!

一个开放性问题

不同分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平,它们各自的组织特异性如何?

换个方式提问就是:如果做单细胞亚群,哪个层面的信息更容易区分不同组织来源的细胞?是mRNA的表达量吗,单细胞转录组足够吗?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
UCSCXena 数据库
有这么一个数据库把多种的数据都整合在了一起,并且进行了相应的整合。那就是:UCSC Xena: https://xena.ucsc.edu/
生信菜鸟团
2025/06/08
550
UCSCXena 数据库
玩转 TCGA 数据库 (一)
癌症基因组图谱计划(The Cancer Genome Atlas , TCGA),对超过 20,000 份涵盖 33 种癌症类型(https://www.cancer.gov/ccg/research/genome-sequencing/tcga/studied-cancers)的原发癌及配对正常样本进行了分子特征分析。,是一个由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)联合发起的大规模研究项目。TCGA的主要目标是通过全面分析不同类型癌症的基因组变化,来提高对癌症的理解并推动诊断、治疗和预防的进步。TCGA现在的数据均收录在 GDC (Genomic Data Commons) 中,可以通过网页 GDC Data Portal (https://portal.gdc.cancer.gov/)获得TCGA数据。
生信菜鸟团
2025/05/06
3860
玩转 TCGA 数据库 (一)
TCGA和GTEx数据库基因表达分析资源:GEPIA
GEPIA (Gene Expression Profiling Interactive Analysis) web服务器是2017年推出的,是基于TCGA和GTEx数据库中肿瘤和正常样本进行基因表达分析的一个资源。今天向大家介绍一下更新和增强的GEPIA2版本,提供了更高的resolution和更多的功能。
作图丫
2022/03/29
4.1K0
TCGA和GTEx数据库基因表达分析资源:GEPIA
GEO数据库简介
GEO 数据库全称是 Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI 创建并维护的基因表达数据库。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载,对科研人来说真是非常友好的存在。
生信喵实验柴
2022/10/25
5.3K0
GEO数据库简介
TCGA数据挖掘(一):TCGAbiolinks包介绍
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。
DoubleHelix
2019/08/27
5.1K0
TCGA数据挖掘(一):TCGAbiolinks包介绍
TCGAbiolinks包下载TCGA数据进行表达差异分析-乳腺癌案例
TCGAbiolinks -一个用于TCGA数据综合分析的R/BioConductor软件包,能够通过GDC Application Programming Interface (API)访问 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,来搜索、下载和准备相关数据,以便在R中进行分析。
DoubleHelix
2019/08/07
17.3K1
TCGAbiolinks包下载TCGA数据进行表达差异分析-乳腺癌案例
每周文献分享第一季完结撒花暨第65期分享
2019年3月11日是一个特别的日子,那一天我们发布了 生信菜鸟团每周文献分享第1期,也意味着生信技能树语雀知识库平台正式上线。
生信菜鸟团
2020/06/24
5960
每周文献分享第一季完结撒花暨第65期分享
并不是只有TCGA计划里面的癌症研究才做多组学
1966年­Donald F. Gleason博士提出Gleason评分,以便对前列腺癌进行分级,为临床医师提供前列腺癌侵犯程度和侵袭性的相关信息。其后Gleason评分历经数次修改,Gleason评分可以衡量前列腺癌的组织分化程度,对于评估前列腺癌患者的生存期有重要价值。该评分一般越低越好,分数越低肿瘤的恶性程度越小,反之分数越高肿瘤恶性程度越高。有研究结果表明,Gleason评分≤8分的患者进展至CRPC的中位时间为21个月,而>8分的患者为14个月。
生信技能树
2020/03/12
7800
并不是只有TCGA计划里面的癌症研究才做多组学
TCGA数据库R包集大成者TCGAbiolinks
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
生信技能树
2022/07/26
1K0
TCGA数据库R包集大成者TCGAbiolinks
惊!3个同样的数据挖掘策略居然同时发表
这个问题怎么说呢,生命科学领域的数据挖掘课题的发表主要是靠工作量,很少有新颖或者前沿,无非就是替换癌症替换分子替换生物学功能基因集,我整理过大家耳熟能详的策略,有:
生信技能树
2020/08/11
1.1K0
惊!3个同样的数据挖掘策略居然同时发表
标准TCGA大文章需要哪些数据?[赠重磅资料]
很多人总是问我如何挖掘TCGA的数据,发文章! 可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以根据权限下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域) 那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据? 其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.
生信技能树
2018/03/08
1.5K1
标准TCGA大文章需要哪些数据?[赠重磅资料]
TCGA数据库简介
是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。
生信修炼手册
2019/12/19
5.7K0
给你8个甲基化探针, 你在tcga数据库进行任意探索
我组织的第一个活动是文献分享,第二周是关于ctDNA里面的甲基化在癌症诊断和预后的,都是中山大学肿瘤医院的大文章。
生信技能树
2020/04/26
1.1K0
给你8个甲基化探针, 你在tcga数据库进行任意探索
必会的TCGA数据挖掘工具之TCGAbiolinks
TCGA数据库作为癌症研究的首选公共数据库,整合了各种癌症的多组学数据,今天小编给大家带来的正是一个功能强大的TCGA数据分析工具--TCGAbiolinks!
作图丫
2022/03/29
1.7K0
必会的TCGA数据挖掘工具之TCGAbiolinks
GEPIA2详解(中国智造-肿瘤数据库)
GEPIA2 是北京大学张泽民老师实验室开发的一个网站,能够对TCGA和GTEx项目共9736个肿瘤样本、8587个正常样本的RNA-seq表达数据进行分析。目前该网站已经有两篇文章发表。
生信技能树
2020/03/31
12.7K0
拼凑6个网页工具图表还不够那就再加上6个组学
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
生信技能树
2020/04/20
1.2K0
爆肝整理肿瘤生信数据库(收藏贴一)
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
作图丫
2022/03/29
4.3K0
爆肝整理肿瘤生信数据库(收藏贴一)
TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手
这个时候我们就需要想办法加大正常组织测序样本量,既然TCGA数据库没有,我们就从其他数据库着手。
生信技能树
2018/12/19
9.6K0
TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手
谁说肿瘤高表达基因就是生存风险因子(学徒作业)
所以我这里安排一个学徒作业,大家需要去下载TCGA数据库的BRCA这个癌症的芯片和RNA-seq的表达矩阵,分别进行差异分析,拿到统计学显著的上下调基因列表。
生信技能树
2020/05/14
1.2K0
选择小众技术做同样的课题(事半功倍)
实际上更应该diss的应该是单细胞技术,早期大家也是任意肿瘤对象招募病人集齐样品送给公司进行单细胞转录组,就是一个全新的 图谱研究,划时代的意义。中期就需要选择不同分级分期或者不同亚型的肿瘤或者不同疾病进展阶段的样品去试图找关键细胞亚群,晚期就更卷了,各种治疗前后各种复杂样品组成都需要慢慢的探索。而实际上这样的实验设计并没有任何新颖之处,都是两百年前老一辈生物学家玩剩下的的,唯一的创新点就是单细胞转录组技术,新瓶装旧酒。。。。
生信技能树
2023/09/04
4660
选择小众技术做同样的课题(事半功倍)
相关推荐
UCSCXena 数据库
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档