前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何从TCGA数据库下载体细胞突变数据(somatic mutation)

如何从TCGA数据库下载体细胞突变数据(somatic mutation)

作者头像
生信交流平台
发布于 2022-09-21 11:28:12
发布于 2022-09-21 11:28:12
1.3K0
举报

前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据和miRNAseq数据

新版TCGA数据库RNAseq数据下载

新版TCGA数据库miRNA数据下载

以及如何合并成矩阵

【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵

【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵

零代码合并新版TCGA中RNAseq和miRNA表达谱

我们经常会在SCI文章里面看到下面这样的图来,展示体细胞突变(somatic mutation)的数据。

这个图叫瀑布图,展示每一样本中的各种类型的突变,包括错义突变,移码突变,无义突变,插入缺失等等。要想画出这张图,首先我们必须要准本好数据。今天小编就来跟大家聊聊怎么从TCGA数据库下载体细胞突变(somatic mutation)数据。

1.打开TCGA网站,输入需要下载的肿瘤类型

2.点击WXS后面的数字51

3.点击左上角File

4.选择WXS,Masked Somatic Mutation,maf,simple nucleotide variation,Aliquot Ensemble Somatic Variant Merging and masking,然后Add all files to cart

5.这51个文件就加入右上角的购物车里面了

6.下载sample sheet和Download下拉框里里面的Cart

得到两个文件

gdc_download_20220418_080408.481174.tar.gz和gdc_sample_sheet.2022-04-18.tsv

7.新建一个文件夹,名叫TCGA_CHOL_maf

在TCGA_CHOL_maf下面再建一个文件夹叫maf

将gdc_sample_sheet.2022-04-18.tsv拷贝到TCGA_CHOL_maf中,重命名为maf_sample_sheet.tsv。

将gdc_download_20220418_080408.481174.tar.gz拷贝到maf中解压

TCGA_CHOL_maf文件夹结果如下

TCGA_CHOL_maf/maf文件夹结构如下

那么到这里,我们就下载好了胆管癌的体细胞突变的数据了。下一期内容,我们将使用R代码将这些数据合并成一个矩阵,为绘制瀑布图做准备。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信交流平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
手把手学习TCGA数据库:SNP突变分析第三期
各位科研芝士的朋友好,前两期我们讲解了SNP的基础知识和数据库使用,今天我们继续聊SNP数据的下载
百味科研芝士
2019/06/17
4.3K0
手把手学习TCGA数据库:SNP突变分析第三期
如何从TCGA数据库下载DNA甲基化数据
前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据,miRNAseq数据以及体细胞突变数据
生信交流平台
2022/09/21
3.9K1
如何从TCGA数据库下载DNA甲基化数据
TCGA的maf突变文件不能下载了?直接用TCGAbiolinks包搞定!
新版TCGAbiolinks包学习:表达矩阵提取(mRNA/lncRNA/counts/tpm/fpkm)
医学和生信笔记
2022/11/15
2.8K0
TCGA的maf突变文件不能下载了?直接用TCGAbiolinks包搞定!
TCGA数据库:SNP数据的下载整理及其可视化
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
DoubleHelix
2020/05/26
8.6K1
TCGA体细胞突变系列教程--胃癌
有这个想法很久了,我教了很多人如何批量下载TCGA数据,以及分析各个癌症的somatic突变信息以及TMB,还有突变的特征频谱。
生信技能树
2018/12/07
9.7K0
TCGA体细胞突变系列教程--胃癌
开发自己的TCGA数据库下载器就是怎么简单
看到jimmy总结的如此有规律的下载地址链接,我尝试用python写几句脚本下载一下tcga数据。
生信技能树
2019/05/08
1.1K0
开发自己的TCGA数据库下载器就是怎么简单
TCGA数据库R包集大成者TCGAbiolinks
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
生信技能树
2022/07/26
1K0
TCGA数据库R包集大成者TCGAbiolinks
不是maf格式的somatic突变数据就没办法读入到maftools了么
因为使用的是百度李彦宏的文章数据,大家会比较倾向于处理tcga的肿瘤突变数据,虽然仅仅是输入数据的不一样,后续分析都是靠 maftools 这个包,maftools 全能无需我再吹嘘,必须花十几个小时认真掌握它!
生信技能树
2021/08/25
2K0
不是maf格式的somatic突变数据就没办法读入到maftools了么
TCGA的28篇教程- 数据下载就到此为止吧
因为TCGA是一个史无前例的癌症研究项目,值得介绍的东西太多,不能在下载这个基础环境耽误太多的功夫,下载渠道再多,也只需要一个好用的即可!
生信技能树
2018/07/27
2.3K0
TCGA的28篇教程- 数据下载就到此为止吧
R语言TCGA-Assembler包下载TCGA数据
通过官网下载(需要注册),或者百度一下也有资源。需要注意的是要下载最新版,百度或者谷歌的不一定是最新版本,最好在官网下载,但是现在有一个问题,注册账号时验证码的图片总是无法显示,所以无法注册,如果注册时没有我说的这个问题,那就直接注册,注册后直接输入自己的邮箱在1处,点击下载即可。如果无法注册,可通过GitHub下载。
DoubleHelix
2019/08/07
4.9K0
R语言TCGA-Assembler包下载TCGA数据
下载TCGA所有癌症的maf文件做signature分析
才sanger研究所已经做好了这个分析,但是值得我们重复一下,效果如下: TCGA所有癌症的mutation signature 首先TCGA所有癌症的maf文件 maf格式的mutation记录文件
生信技能树
2018/03/09
3.6K0
下载TCGA所有癌症的maf文件做signature分析
maftools|TCGA肿瘤突变数据的汇总,分析和可视化
之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫“瀑布图”,以及一些细节的更改和注释。
生信宝典
2019/10/24
5K0
​R语言TCGA数据下载与整理
这篇推文将帮助你了解如何从GDC(Genomic Data Commons)下载TCGA(The Cancer Genome Atlas)数据,并在R中进行数据整理和处理。我们将包括所有的步骤,包括下载、读取、整理表达矩阵、添加行列名、以及获取样本和文件名的对应关系。
天意生信云
2025/01/22
2980
​R语言TCGA数据下载与整理
TCGA的28篇教程-所以癌症的突变全景图
有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:
生信技能树
2018/09/21
5.5K1
TCGA的28篇教程-所以癌症的突变全景图
TCGA|根据somatic mutation绘制突变景观图(oncoplot)和基因词云
使用 XENA下载的TCGA-LAML.mutect2_snv.tsv文件绘制基因词云和突变景观图。
生信补给站
2020/10/29
3K0
TCGA|根据somatic mutation绘制突变景观图(oncoplot)和基因词云
使用SNVSniffer软件找somatic mutation
SNVSniffer and synthetic samples are publicly available at http://snvsniffer.sourceforge.net
生信技能树
2020/10/26
9060
使用SNVSniffer软件找somatic mutation
maftools包分析突变数据,绘制瀑布图
今天我们来讲讲,怎么用R的maftools包来分析MAF格式的突变数据,并用瀑布图来展示结果。maftools这个包的主要分为两部分功能,分析和可视化。下图列出了,这个包中相应的函数的名字。
生信交流平台
2022/09/21
1.2K0
maftools包分析突变数据,绘制瀑布图
最新最全的varscan 软件找somatic mutation
我在生信技能树发布的很多关于varscan 软件找somatic mutation教程都过时了,如下:
生信技能树
2020/09/29
4.7K0
最新最全的varscan 软件找somatic mutation
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析
如何找到somatic的突变信息的maf文件,仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可,这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦(其中一个带有GDC的前缀):
生信技能树
2023/12/28
3730
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析
使用TCGAbiolinks包进行TCGA的somatic的突变信息下载整理有时候会失败
TCGAbiolinks 是一个 R 语言中用于处理和分析 The Cancer Genome Atlas (TCGA) 数据的生物信息学工具包。该包提供了访问 TCGA 数据的接口,使用户能够检索、下载和分析癌症基因组学数据。
生信技能树
2024/11/21
1070
使用TCGAbiolinks包进行TCGA的somatic的突变信息下载整理有时候会失败
推荐阅读
相关推荐
手把手学习TCGA数据库:SNP突变分析第三期
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档