前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >这bug有《走近科学》那味儿了

这bug有《走近科学》那味儿了

作者头像
生信菜鸟团
发布2023-09-09 16:54:24
2900
发布2023-09-09 16:54:24
举报
文章被收录于专栏:生信菜鸟团

背景&问题

前一阵子在练习转录组的分析,我使用小洁老师在技能树课程上提供的代码(附于最后) 运行起来的截图是这样的,

就和图里面描述的一样,我数据下载已经完成了,按理来说是不会重复下载了。

bug

最近就想着好好琢磨一下TCGAbiolinks包,我就跳过if,一句一句运行代码。

但是.......

在运行到GDCdownload()的时候,我发现工作目录下多了一系列TCGA的数据... 这是又重新下载了...

继续运行一下,就报错了....函数说它找不着文件..

代码语言:javascript
复制
>   dat = GDCprepare(query)
Error in GDCprepare(query) : 
  I couldn't find all the files from the query. Please check if the directory parameter is right or `GDCdownload` downloaded the samples.

这文件不是在那儿嘛?

我眼睛都能看见....

然后继续往上看,发现有“cannot create file”的Warnning

代码语言:javascript
复制
使用GDCdownload()函数下载数据
>   GDCdownload(query)
Downloading data for project TCGA-LUAD
GDCdownload will download 600 files. A total of 2.542346162 GB
The total size of files is big. We will download files in chunks
Downloading chunk 1 of 3 (236 files, size = 999.85205 MB) as Thu_May__4_16_47_02_2023_0.tar.gz
<simpleWarning in file.create(to[okay]): cannot create file 'GDCdata/TCGA-LUAD/harmonized/Transcriptome_Profiling/Gene_Expression_Quantification/9f01664c-19be-4841-afb4-297483d22ec8/e3955555-9663-49da-bb98-f6593eb74d7f.rna_seq.augmented_star_gene_counts.tsv', reason 'No such file or directory'>
<simpleWarning in file.create(to[okay]): cannot create file 'GDCdata/TCGA-LUAD/harmonized/Transcriptome_Profiling/Gene_Expression_Quantification/89bdfb20-8991-4bc4-b112-6e9be096b566/4f332295-b93c-48bf-8125-3a1539a03742.rna_seq.augmented_star_gene_counts.tsv', reason 'No such file or directory'>

目前还处于不知所措的阶段, 于是就,顺着这个路径去看了一眼(之前下载的数据)

应该就是默认的TCGA下载文件的路径 但为啥文件创建不了呢?然后还有个问题,

这一堆文件夹为什么会出现在这里?这一看文件路径就不对劲吧。

同款bug

想起自己之前还用同款代码分析过TCGA-BRCA的数据,当时顺利下载了数据也成功把表达矩阵读出来了

跑了之前能跑出来的TCGA-BRCA,

发现同款问题

代码语言:javascript
复制
<simpleWarning in file.create(to[okay]): cannot create file 'GDCdata/TCGA-BRCA/harmonized/Transcriptome_Profiling/Gene_Expression_Quantification/db5aadbb-3042-4c20-8235-ccd19634d9d3/9692b4cc-6c7f-4f88-8854-769568f088ae.rna_seq.augmented_star_gene_counts.tsv', reason 'No such file or directory'>

继续同款报错

代码语言:javascript
复制
>   dat = GDCprepare(query)
Error in GDCprepare(query) : 
  I couldn't find all the files from the query. Please check if the directory parameter is right or `GDCdownload` downloaded the samples.

试着下载一下数据,发现同款现象....

网上搜了一下, 有遇到类似报错的小伙伴 https://www.omicsclass.com/question/2770 https://ask.csdn.net/questions/1070537

但好像和我这个也不太能对得上....

新的bug

我就想可能是我路径格式不太对?想着用自动补齐再写一下路径...

函数里面的路径自动补齐也遭不住了

代码语言:javascript
复制
Error in basename(paths) : path too long
Error in basename(paths) : path too long

导致bug原因的猜测

啊这,自动补齐可是基本功能呀, 我这R和Rstudio难道废了?

最近确实R升级4.3来着,Rstudio是个套皮软件应该没什么影响的吧。

重装之后,难道之前的R包我也要重装,

有610个呢...

于是陷入深深的纠结中...

问了一下办公室的小伙伴,觉得奇怪..

装了一下R4.3...依旧不行...

难道是R包的问题?最近新老R交接,这是什么新型bug?

难道...我是要发现什么了吗?

难道R有什么鲜为人知的漏洞嘛?(想太多)

.........

灵光一现

等等,难道....

你们说有没有一种可能,是我路径太长了.....导致函数无法读取我的文件...

额......最近是确实整理了文件夹来着....

缩短一下路径 读取成功了.........

代码语言:javascript
复制
>   dat = GDCprepare(query)
|===============================================|100%                      Completed after 1 m 
Starting to add information to samples
 => Add clinical information to samples
  => Adding TCGA molecular information from marker papers
 => Information will have prefix 'paper_' 
brca subtype information from:doi.org/10.1016/j.ccell.2018.03.014
Available assays in SummarizedExperiment : 
  => unstranded
  => stranded_first
  => stranded_second
  => tpm_unstrand
  => fpkm_unstrand
  => fpkm_uq_unstrand

啊这....

结局竟然是我整理文档的时候把文件放深了...

emmm...

这是我没有想到的

代码

代码语言:javascript
复制
#下载数据
rm(list=ls())
library(TCGAbiolinks)
library(stringr)
projs=getGDCprojects()$project_id %>%
      str_subset("TCGA-LUAD")
projs
### 2.下载并整理表达矩阵
proj = projs
f1 = paste0(proj,"expf.Rdata")
if(!file.exists(f1)){
  query = GDCquery(project = proj, 
                   data.category = "Transcriptome Profiling",
                   data.type = "Gene Expression Quantification", 
                   workflow.type = "STAR - Counts",
  )
  GDCdownload(query)   #在运行这句代码之后出现报错,信息如下
  dat = GDCprepare(query)
  exp = assay(dat)
  #tpm = assay(dat,4)
  save(exp,file = f1)
}
load(f1)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景&问题
  • bug
  • 同款bug
  • 新的bug
  • 导致bug原因的猜测
  • 灵光一现
  • 代码
相关产品与服务
腾讯云代码分析
腾讯云代码分析(内部代号CodeDog)是集众多代码分析工具的云原生、分布式、高性能的代码综合分析跟踪管理平台,其主要功能是持续跟踪分析代码,观测项目代码质量,助力维护团队卓越代码文化。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档