前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TCGA数据库临床资料官方大全

TCGA数据库临床资料官方大全

作者头像
生信技能树
发布于 2019-06-15 07:28:01
发布于 2019-06-15 07:28:01
5K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。依托于文章 Cell. 2018 Apr 5 :[An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics]() Cell , April 2018 10.1016/j.cell.2018.02.052(link is external)

To ensure proper use of this large clinical dataset associated with genomic features, we developed a standardized dataset named the TCGA Pan-Cancer Clinical Data Resource (TCGA-CDR), which includes four major clinical outcome endpoints.

下载链接:TCGA-CDR

看起来是乱码,但的确是真实的下载地址:https://api.gdc.cancer.gov/data/1b5f413e-a8d1-4d10-92eb-7c4ae739ed81

题外话:关于不同数据源的TCGA临床资料冲突的讨论

关于生存分析的冲突问题,我们多次讨论了:

比如下面的代码比较两个数据源;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rm(list = ls())
options(stringsAsFactors = F) 
# 不同来源的生存信息,差异有点大。

## 来源于 XENA 数据源:
# https://gdc.xenahubs.net/download/TCGA-LAML/Xena_Matrices/TCGA-LAML.survival.tsv.gz
clin1=read.table('../data/TCGA-HNSC.survival.tsv.gz',header = T)[,2:4]
clin1$pid=substring(clin1[,2],1,12)
head(clin1)
clin1[,3]=clin1[,3]/30
clin1[clin1[,3] <0,3]=0

#重新读入TCGA-CDR数据
clin3=read_excel("./TCGA-CDR-SupplementalTableS1.xlsx",sheet=3,na="NA")
clin3 = as.data.frame(clin3)
rownames(clin3) = substring(clin3[,2],1,12)
clin3 = clin3[, -c(1:3)]

我在比较这两个文件的时候发现了不一致, 然后搜索解决方案居然找到了我以前华西医学院的学生的分享;https://www.jianshu.com/p/0a4a492b130e

会发现出现这样的差异,是因为对终点事件不统一造成的。在Xena的survival.tsv中定义的结局事件是死亡,在TCGA-CDR中,PFI.1定义的终点事件是疾病进展,包括死亡、复发、转移等。具体到病人TCGA-BA-5151,他可能是在术后517天发现有肿瘤复发,第722天失访,那么在Xena的生存分析中是定义为722天截尾,但是在TCGA-CDR中是517天事件发生。所以这两个变量不一致。散点图也反映了这一区别,CDR的PFI1.time总是不大于Xena的time2event。这一点在TCGA-CDR的表格文件中有解释

关于生存分析该选择哪个时间点

这不是一个选择题,既然人家TCGA组织整理了 four major clinical outcome endpoints. 那么这些时间点都可以,不同的选择得到的结果的生物学解释不一样。

DSS: disease-specific survival event, 1 for patient whose vital_status was Dead and tumor_status was WITH TUMOR. If a patient died from the disease shown in field of cause_of_death, the status of DSS would be 1 for the patient. 0 for patient whose vital_status was Alive or whose vital_status was Dead and tumor_status was TUMOR FREE. This is not a 100% accurate definition but is the best we could do with this dataset. Technically a patient could be with tumor but died of a car accident and therefore incorrectly considered as an event.

DSS.time: disease-specific survival time in days, last_contact_days_to or death_days_to, whichever is larger.

DFI: disease-free interval event, 1 for patient having new tumor event whether it is a local recurrence, distant metastasis, new primary tumor of the cancer, including cases with a new tumor event whose type is N/A. Disease free was defined by: first, treatment_outcome_first_course is "Complete Remission/Response"; if the tumor type doesn't have "treatment_outcome_first_course" then disease-free was defined by the value "R0" in the field of "residual_tumor"; otherwise, disease-free was defined by the value "negative" in the field of "margin_status". If the tumor type did not have any of these fields, then its DFI was NA.

DFI.time: disease-free interval time in days, new_tumor_event_dx_days_to for events, or for censored cases, either last_contact_days_to or death_days_to, whichever is applicable.

PFI: progression-free interval event, 1 for patient having new tumor event whether it was a progression of disease, local recurrence, distant metastasis, new primary tumors all sites , or died with the cancer without new tumor event, including cases with a new tumor event whose type is N/A.

PFI.time: progression-free interval time in days, for events, either new_tumor_event_dx_days_to or death_days_to, whichever is applicable; or for censored cases, either last_contact_days_to or death_days_to, whichever is applicable.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
带临床信息的肿瘤突变maf文件分析维度更多
每个癌症都去找各自的肿瘤突变maf文件很麻烦,所以我们才会选择 PanCanAtlas Publications Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines ,详见:https://gdc.cancer.gov/about-data/publications/mc3-2017 :它提供如下所示的文件:
生信技能树
2021/10/12
1.3K0
OS、DSS、DFI、PFI:TCGA的这些生存期在哪里找?
我,结束半个月的旅游,从成都回来了,累惨了真是。游记还没写,先来点专业知识给大家吃一吃。
用户11414625
2025/04/30
2320
OS、DSS、DFI、PFI:TCGA的这些生存期在哪里找?
单基因生信分析流程(1)一文解决TCGA数据下载整理问题
在平常科研工作中,经常有师兄师姐师弟师妹问我:我现在有一个单基因,我该怎么开展生信研究?出现这个问题的原因是:(1)目前生信研究火热也逐渐受到认可(2)许多医学生在开展实验研究的同时,如果结合生信,则自己的结论和工作量更加吸引到编辑和手审稿人(3)现有的geo、TCGA或者其他免费公开数据库确实是很多研究者的第一选择。
用户1359560
2019/05/14
4.8K0
单基因生信分析流程(1)一文解决TCGA数据下载整理问题
学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?
用在线xena下载数据,直接下载临床信息,全部都是整理好的,分14个数据集的和19个数据集的,19的那个。
生信技能树
2020/09/04
7.6K0
学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?
单基因生信分析流程(3)一文解决生存分析和临床参数相关分析
本文目的 (1)绘制生存分析图 (2)临床参数相关分析 加载所必须的包 # =============================================================
用户1359560
2019/05/15
3.2K0
TCGA生存分析③
TCGA 癌症基因组图谱(TCGA)是国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)之间的合作,收集了33种癌症类型的大量临床和基因组数据。 整个TCGA数据集的基因表达超过2PB,数据类型包括CNV分析,SNP基因分型,DNA甲基化,miRNA分析,外显子组测序和其他类型的数据。 可以在cancergenome.nih.gov上了解有关TCGA的更多信息。 数据现在位于Genomic Data Commons Portal。 有很多方法可以访问TCGA数据而无需实际下载和解析来自GDC的数据。 我们将在下面介绍更多这些内容。 但首先,让我们看一个R包,它提供方便,直接的TCGA数据访问。
用户1359560
2018/12/05
1.3K0
TCGA生存分析③
生存分析时间点问题
前者数据是 IlluminaHiSeq TCGA hub表达矩阵,基因SYMBOL的表达矩阵,基因的表达信息,通常是用来把病人进行分组,然后还是需要下载临床信息,才能做生存分析。
生信技能树
2019/08/26
9250
生存分析时间点问题
仅仅是改变了统计学显著性呢?还是说改变了其本性
然后很多粉丝留言说,如果并不是按照表达量中位值或者平均值分组,而是取巧使用了surv_cutpoint这样的函数,得到的结果并不好解释,认为这样的的数据处理方式简直是黑白颠倒!
生信技能树
2021/07/29
8490
TCGAbiolinks获取癌症临床信息
前面我们简单的介绍了一下肿瘤的TNM分期系统。今天我们来用R获取感兴 趣的癌症的临床信息,其中就可以找到我们上次讲到的TNM分期信息。
生信交流平台
2020/08/06
1.8K0
TCGAbiolinks获取癌症临床信息
最新版:TCGA 三阴性乳腺癌基因表达数据下载及生存分析
之前发了这篇推文后,有老师帮忙提出几条意见【非常感谢这位老师❤】,确实是之前考虑不到位的地方,查阅TCGAbiolinks的文档以后,进行了重新的整理,供大家参考~
生信菜鸟团
2025/03/27
7180
最新版:TCGA 三阴性乳腺癌基因表达数据下载及生存分析
人人都可以学会生存分析(学徒数据挖掘)
她上一个笔记是:学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?
生信技能树
2020/09/22
2.9K0
1行代码计算肿瘤突变负荷TMB
肿瘤突变负荷(TMB, tumor mutation burden)在生信数据挖掘领域是很古老的东西了,没想到还有人在用它进行各种分析...
医学和生信笔记
2023/02/14
1.9K1
1行代码计算肿瘤突变负荷TMB
R tips:使用TCGAbiolinks包下载TCGA数据
TCGA数据下载就易用性来说,RTCGA包应该更好用,且由于是已经下载好的数据,使用比较稳定。但是也由于是下载好的数据,不能保证数据都是全新的。TCGAbiolinks包是实时调用GDC的API,所以可以获取最新的数据。
生信菜鸟团
2022/02/17
3.6K0
R tips:使用TCGAbiolinks包下载TCGA数据
生存分析-黑、白、许多灰
  1.点击链接[GDC Data],选择界面右下角Legacy Archive(https://portal.gdc.cancer.gov/)
生信技能树
2019/07/05
8390
生存分析-黑、白、许多灰
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
其实那个需求很简单:https://www.ncbi.nlm.nih.gov/pubmed/24893932 文章里面也说的很清楚,如下:
生信技能树
2018/08/16
1.3K0
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
「R」使用UCSCXenaTools获取数据进行生存分析(全英文)
The UCSC Xena platform provides an unprecedented resource for public omics data from big projects like The Cancer Genome Atlas (TCGA), however, it is hard for users to incorporate multiple datasets or data types, integrate the selected data with popular analysis tools or homebrewed code, and reproduce analysis procedures. To address this issue, we developed an R package UCSCXenaTools for enabling data retrieval, analysis integration and reproducible research for omics data from the UCSC Xena platform1.
王诗翔呀
2020/07/06
1.7K0
「R」使用UCSCXenaTools获取数据进行生存分析(全英文)
TCGA数据库生存分析的网页工具哪家强
看自己感兴趣的基因在自己研究的癌症的预后相关性是高频需求,其实就是拿到基因在癌症病人的表达信息,然后就可以根据表达量高低对病人进行分组,最后这个分组是否统计学显著的把病人的生存情况区分开来。
生信技能树
2018/12/29
6.1K0
TCGA数据库生存分析的网页工具哪家强
使用MultiAssayExperiment结构探索TCGA数据
其bioconductor 链接是:https://bioconductor.org/packages/release/bioc/html/MultiAssayExperiment.html
生信技能树
2022/07/26
3320
使用MultiAssayExperiment结构探索TCGA数据
玩转 TCGA 数据库 - 生存分析(三)
生存分析:事件的结果和出现这一结果所经历的事件结合起来分析的一种方法。通常情况下,我们设定一个入组时间区间,在这个区间内搜寻患者的第一次患病时间称为起始时间,当过了这个入组时间区间,我们就不再收集患者了,当患者发生终点事件(比如死亡)时,我们记录此事件为终点时间。同时实验会设置一个实验截止时间,实验终止后患者仍未发生终点事件我们将实验截止时间记录为这个患者的终点时间,但终点事件记录为删失。
生信菜鸟团
2025/05/21
3040
玩转 TCGA 数据库 - 生存分析(三)
TCGA数据库:SNP数据的下载整理及其可视化
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
DoubleHelix
2020/05/26
8.7K1
推荐阅读
相关推荐
带临床信息的肿瘤突变maf文件分析维度更多
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验