前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用TCGAbiolinks包进行TCGA的somatic的突变信息下载整理有时候会失败

使用TCGAbiolinks包进行TCGA的somatic的突变信息下载整理有时候会失败

作者头像
生信技能树
发布于 2024-11-21 00:30:11
发布于 2024-11-21 00:30:11
12900
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

有学徒在完成我布置的一个月前( 2023-12-01 )的学徒作业:任意癌症的任意基因突变与否分组后的转录组测序的差异分析的时候,选择了使用TCGAbiolinks包进行TCGA的somatic的突变信息下载,但是他失败了,所以我就帮忙debug了一下。

TCGAbiolinks 是一个 R 语言中用于处理和分析 The Cancer Genome Atlas (TCGA) 数据的生物信息学工具包。该包提供了访问 TCGA 数据的接口,使用户能够检索、下载和分析癌症基因组学数据。

一般来说是三个步骤就可以获取所需要的数据啦:

  • 首先是使用 GDCquery 函数可以检索符合指定条件的数据集,例如指定癌症类型、数据类型、样本类型等。
  • 然后是使用 GDCdownload 函数可以下载通过 GDCquery 检索到的数据
  • 最后是使用 GDCprepare 函数可以整合下载的数据,将其转换成易于分析的格式。

虽然说TCGAbiolinks 本身还提供了大量的数据分析函数,主要是各种统计可视化,但是我们拿到了数据后其实就可以自己分析啦。

三个步骤的案例演示

如果我们感兴趣NSCLC的里面的LUAD数据集的somatic的突变信息的maf文件,可以借助TCGAbiolinks包进行TCGA的somatic的突变信息下载整理,代码非常简单, 如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(TCGAbiolinks)
query <- GDCquery(
  project = "TCGA-LUAD", 
  data.category = "Simple Nucleotide Variation",
  data.type = "Masked Somatic Mutation",
  access = "open"
)
GDCdownload(query)
GDCprepare(query, save = T,save.filename = "TCGA-LUAD_SNP.Rdata") 

现在的网络一般来说还挺好的,因为文件也不大,如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Downloading data for project TCGA-LUAD
GDCdownload will download 618 files. A total of 61.056443 MB
Downloading as: Wed_Dec_20_11_19_05_2023.tar.gz

它其实是先下载了一个压缩包,成功之后再解压成为了文件夹给大家,解压后是每个样品一个独立的文件夹,文件夹里面才是具体的somatic的突变信息的maf文件:

每个样品一个独立的文件夹

但是如果换一个癌症,有时候就会出错,比如laml这个癌症,同样的代码 :

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(TCGAbiolinks)
query <- GDCquery(
  project = "TCGA-LAML", 
  data.category = "Simple Nucleotide Variation",
  data.type = "Masked Somatic Mutation",
  access = "open"
)
GDCdownload(query)
GDCprepare(query, save = T,save.filename = "TCGA-LAML_SNP.Rdata") 

一个学徒反馈给我他遇到的报错是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GDCprepare(query, save = T,save.filename = "TCGA-LAML_SNP.Rdata")
Error in `dplyr::bind_rows()`:                                                                                   
! Can't combine `..17$Tumor_Seq_Allele2` <character> and `..18$Tumor_Seq_Allele2` <logical>.
Run `rlang::last_trace()` to see where the error occurred.

如果你认真看上面的3个步骤的代码,其实就会发现他的GDCdownload是成功的,仅仅是GDCprepare这个步骤失败,如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> GDCdownload(query)
Downloading data for project TCGA-LAML
GDCdownload will download 153 files. A total of 1.562904 MB
Downloading as: Wed_Dec_20_11_23_55_2023.tar.gz

其实就是版本问题,我的成功的版本 信息如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>  sessionInfo()
R version 4.3.1 (2023-06-16 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19045)
 
 [57] TCGAbiolinksGUI.data_1.20.0
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验