前一阵子在练习转录组的分析,我使用小洁老师在技能树课程上提供的代码(附于最后) 运行起来的截图是这样的,
就和图里面描述的一样,我数据下载已经完成了,按理来说是不会重复下载了。
最近就想着好好琢磨一下TCGAbiolinks包,我就跳过if,一句一句运行代码。
但是.......
在运行到GDCdownload()的时候,我发现工作目录下多了一系列TCGA的数据... 这是又重新下载了...
继续运行一下,就报错了....函数说它找不着文件..
> dat = GDCprepare(query)
Error in GDCprepare(query) :
I couldn't find all the files from the query. Please check if the directory parameter is right or `GDCdownload` downloaded the samples.
这文件不是在那儿嘛?
我眼睛都能看见....
然后继续往上看,发现有“cannot create file”的Warnning
使用GDCdownload()函数下载数据
> GDCdownload(query)
Downloading data for project TCGA-LUAD
GDCdownload will download 600 files. A total of 2.542346162 GB
The total size of files is big. We will download files in chunks
Downloading chunk 1 of 3 (236 files, size = 999.85205 MB) as Thu_May__4_16_47_02_2023_0.tar.gz
<simpleWarning in file.create(to[okay]): cannot create file 'GDCdata/TCGA-LUAD/harmonized/Transcriptome_Profiling/Gene_Expression_Quantification/9f01664c-19be-4841-afb4-297483d22ec8/e3955555-9663-49da-bb98-f6593eb74d7f.rna_seq.augmented_star_gene_counts.tsv', reason 'No such file or directory'>
<simpleWarning in file.create(to[okay]): cannot create file 'GDCdata/TCGA-LUAD/harmonized/Transcriptome_Profiling/Gene_Expression_Quantification/89bdfb20-8991-4bc4-b112-6e9be096b566/4f332295-b93c-48bf-8125-3a1539a03742.rna_seq.augmented_star_gene_counts.tsv', reason 'No such file or directory'>
目前还处于不知所措的阶段, 于是就,顺着这个路径去看了一眼(之前下载的数据)
应该就是默认的TCGA下载文件的路径 但为啥文件创建不了呢?然后还有个问题,
这一堆文件夹为什么会出现在这里?这一看文件路径就不对劲吧。
想起自己之前还用同款代码分析过TCGA-BRCA的数据,当时顺利下载了数据也成功把表达矩阵读出来了
跑了之前能跑出来的TCGA-BRCA,
发现同款问题
<simpleWarning in file.create(to[okay]): cannot create file 'GDCdata/TCGA-BRCA/harmonized/Transcriptome_Profiling/Gene_Expression_Quantification/db5aadbb-3042-4c20-8235-ccd19634d9d3/9692b4cc-6c7f-4f88-8854-769568f088ae.rna_seq.augmented_star_gene_counts.tsv', reason 'No such file or directory'>
继续同款报错
> dat = GDCprepare(query)
Error in GDCprepare(query) :
I couldn't find all the files from the query. Please check if the directory parameter is right or `GDCdownload` downloaded the samples.
试着下载一下数据,发现同款现象....
网上搜了一下, 有遇到类似报错的小伙伴 https://www.omicsclass.com/question/2770 https://ask.csdn.net/questions/1070537
但好像和我这个也不太能对得上....
我就想可能是我路径格式不太对?想着用自动补齐再写一下路径...
函数里面的路径自动补齐也遭不住了
Error in basename(paths) : path too long
Error in basename(paths) : path too long
啊这,自动补齐可是基本功能呀, 我这R和Rstudio难道废了?
最近确实R升级4.3来着,Rstudio是个套皮软件应该没什么影响的吧。
重装之后,难道之前的R包我也要重装,
有610个呢...
于是陷入深深的纠结中...
问了一下办公室的小伙伴,觉得奇怪..
装了一下R4.3...依旧不行...
难道是R包的问题?最近新老R交接,这是什么新型bug?
难道...我是要发现什么了吗?
难道R有什么鲜为人知的漏洞嘛?(想太多)
.........
等等,难道....
你们说有没有一种可能,是我路径太长了.....导致函数无法读取我的文件...
额......最近是确实整理了文件夹来着....
缩短一下路径 读取成功了.........
> dat = GDCprepare(query)
|===============================================|100% Completed after 1 m
Starting to add information to samples
=> Add clinical information to samples
=> Adding TCGA molecular information from marker papers
=> Information will have prefix 'paper_'
brca subtype information from:doi.org/10.1016/j.ccell.2018.03.014
Available assays in SummarizedExperiment :
=> unstranded
=> stranded_first
=> stranded_second
=> tpm_unstrand
=> fpkm_unstrand
=> fpkm_uq_unstrand
啊这....
结局竟然是我整理文档的时候把文件放深了...
emmm...
这是我没有想到的
#下载数据
rm(list=ls())
library(TCGAbiolinks)
library(stringr)
projs=getGDCprojects()$project_id %>%
str_subset("TCGA-LUAD")
projs
### 2.下载并整理表达矩阵
proj = projs
f1 = paste0(proj,"expf.Rdata")
if(!file.exists(f1)){
query = GDCquery(project = proj,
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "STAR - Counts",
)
GDCdownload(query) #在运行这句代码之后出现报错,信息如下
dat = GDCprepare(query)
exp = assay(dat)
#tpm = assay(dat,4)
save(exp,file = f1)
}
load(f1)