太多人问到:自己想挖掘的癌症,虽然是在TCGA数据库有数据,但是normal(癌旁样品或者血液)太少了,做差异分析什么的, 会面临样本数量不平衡问题,是否可以纳入GTEx数据库的正常组织转录组测序数据。
其实是没办法简单的回答是否可以整合TCGA和GTEx数据库,或者说该如何结合,这背后的统计学略微有点复杂,不仅仅是批次效应。发表在Sci Data. 2018; 的文章:Unifying cancer and normal RNA sequencing data from different sources 就比较详细的说明了TCGA和GTEx数据库的转录组数据的天然差异:
全部代码共享在:GitHub (https://github.com/mskcc/RNAseqDB).
统一TCGA和GTEx定量流程
最近一篇发表在SR,17 February 2020 的文章:Variability in estimated gene expression among commonly used RNA-seq pipelines 比较了常见转录组测序数据分析流程对定量拿到的表达矩阵的影响:
TCGA和GTEX是两个超级大的拥有RNA-seq数据的计划,其中TCGA涵盖33种癌症,超1万个样品,而GTEX也有500多个病人的50多种组织的近1万个样品数据。它们各自的发起单位对RNA-seq数据处理不一样,而且后续也有一些新的流程处理试图统一两个数据库的RNA-seq数据分析结果,比较出名的5个流程分别是:
作者把这5个流程应用到TCGA和GTEX,得到10个不同组合的数据
做了非常完善的比较,并且公布全部代码在:https://github.com/sonali-bioc/UncertaintyRNA
比较常见的5个转录组定量流程
非常多!
很多简陋的数据挖掘,比如发表在PeerJ的 BIOINFORMATICS AND GENOMICS杂志的文章:Identification of four hub genes associated with adrenocortical carcinoma progression by WGCNA 也会涉及到TCGA数据库和GTEx的整合。
首先下载TCGA和GTEx数据库的TPM表达矩阵:
Gene transcripts per million (TPM) data were downloaded from the UCSC Xena database, which included ACC (The Cancer Genome Atlas, n = 77) and normal samples (Genotype Tissue Expression, n = 128).
然后差异分析流程是:
差异分析结果是:1,181 up-regulated and 1,772 down-regulated genes.
可以看到,作者默认TPM这个转录组测序表达数据归一化形式本身是具有跨平台跨数据库的特性,所以无需考虑批次效应,直接使用最简单粗暴的ANOVA检验即可!
我们都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
对转录表达这个层面的信息来说,最优选择当然是整合TCGA和GTEx数据库,但是对于甲基化数据,我们有没有类似于GTEx数据库的超级大队列呢?
目前我还没有接触到,我前面分享过:这样的诊断模型才优秀,作者就是下载TCGA的结直肠癌甲基化位点信号矩阵文件:
以及正常人的血液的甲基化信号值作为对照:
上面的两个队列是为了确定直肠癌特异性甲基化位点,做的是差异分析,确定了 top 1000 methylation markers
可以合理的推测应该是没有人类各个正常组织的甲基化数据供使用,所以他们才会退而求其次使用正常人的血液的甲基化信号值作为对照吧!
不同分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平,它们各自的组织特异性如何?
换个方式提问就是:如果做单细胞亚群,哪个层面的信息更容易区分不同组织来源的细胞?是mRNA的表达量吗,单细胞转录组足够吗?
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有