前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >高速下载GEO数据库的单细胞表达量矩阵文件

高速下载GEO数据库的单细胞表达量矩阵文件

作者头像
生信技能树jimmy
发布2024-02-22 16:20:53
2960
发布2024-02-22 16:20:53
举报
文章被收录于专栏:单细胞天地单细胞天地

一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。

但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 :

代码语言:javascript
复制
 GSE253013_all_luad_garnett_temp.rds.gz 9.3 Gb (ftp)(http) RDS

如果是慢慢的下载需要两三天时间:

代码语言:javascript
复制
wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz 

 8.04M  34.2KB/s  剩余 2d 4h

借助aspera的高速下载

首先自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可,然后要详细的阅读GEO数据库的官方文档

  • https://www.ncbi.nlm.nih.gov/geo/info/download.html
  • https://www.ibm.com/support/pages/downloading-data-ncbi-command-line

需要构建的命令如下所示:

代码语言:javascript
复制
conda activate download
 
ascp -v -k 1 -T -l 200m \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   \
anonftp@ftp.ncbi.nlm.nih.gov:/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz ./ 

下载速度非常感人:

代码语言:javascript
复制
1%   97MB  191Mb/s

有了这个rds文件,很容易载入到r编程语言里面去处理它,然后文章是提取子集,感兴趣的可以试试看(Single-cell analysis identifies NOTCH3-mediated interactions between stromal cells that promote microenvironment remodeling and invasion in lung adenocarcinoma)

全部的Linux命令

首先是安装自己的conda,在自己的服务器里面自己下载并且安装自己的conda,自己配置哈:

代码语言:javascript
复制
# 首先下载文件,20M/S的话需要几秒钟即可
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# Miniconda3-latest-Linux-x86_64.sh 135.1 MiB 2023-12-21 09:23
# wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 如果比较慢就切换镜像哦

# 接下来使用bash命令来运行我们下载的文件,记得是一路yes下去
bash Miniconda3-latest-Linux-x86_64.sh 
#  上面的bash命令安装成功后,需要更新系统环境变量文件
source ~/.bashrc

首先如果是在中国大陆,需要设置好镜像:

代码语言:javascript
复制
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes 

然后就可以使用自己的conda来安装 aspera 软件,本来是说让大家自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可。

代码语言:javascript
复制
conda create -n download 
conda activate download 
conda install -y -c hcc aspera-cli 
which ascp 
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh 

上面的代码是基于Linux操作系统哦,如果大家一定要在自己的Windows或者Mac电脑处理,就简单的替换关键参数即可。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 借助aspera的高速下载
  • 有了这个rds文件,很容易载入到r编程语言里面去处理它,然后文章是提取子集,感兴趣的可以试试看(Single-cell analysis identifies NOTCH3-mediated interactions between stromal cells that promote microenvironment remodeling and invasion in lung adenocarcinoma)
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档