首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SRA高效数据传输—ASCP

SRA高效数据传输—ASCP

作者头像
生信菜鸟团
发布于 2023-12-06 10:44:09
发布于 2023-12-06 10:44:09
1.4K00
代码可运行
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
运行总次数:0
代码可运行

工欲善其事必先利其器

1ASCP

ascp(Aspera Command Line Transfer)是一种用于高速数据传输的命令行工具,由 Aspera 开发,用于在网络上传输大型数据集和文件。它专为大容量、高速度和安全性而设计,适用于远程文件传输,特别是在需要高效传输大量数据的情况下。

主要特点和功能:

  • 高速传输:ascp 利用 Aspera 的 FASP(Fast And Secure Protocol)技术,通过优化传输算法和并行传输,在不同网络条件下实现高速的数据传输,提供比传统传输方式更快的速度。
  • 大容量文件传输:适用于传输大型数据集、高分辨率图像、基因组测序数据等大容量文件,具有优秀的性能和稳定性。
  • 安全性:ascp 支持加密传输,通过安全的加密通道(SSH)确保数据传输过程中的安全性和隐私保护,防止数据泄露和篡改。
  • 跨平台:ascp 工具可在多种操作系统上运行,包括 WindowsLinux 和 macOS 等主流操作系统。
  • 命令行操作:ascp 通过命令行进行操作,提供了丰富的选项和参数,方便用户进行定制化的传输设置和管理。

官网:https://www.ibm.com/products/aspera/downloads?list

2安装Aspera

一般推荐使用Conda安装管理软件

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda install -c hcc aspera-cli -y
#检查ascp是否下载成功
ascp -h

3实例演示

从NCBI-SRA下载accession list,把SRA编号,通过vim写到SRA.list里

使用ascp下载需要密匙asperaweb_id_dsa.openssh,位置在:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#我的环境名称是chip,文件路径需要自行探索:
#miniconda3/envs/chip/etc/asperaweb_id_dsa.openssh

若SRR后为六位数,-i参数指定密匙,注意使用的密匙路径替换为自己的

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#单端测序:
cat SRA.list|while read id
do
x=$(echo $id | cut -b1-6)
echo $id
ascp -QT -l 300m -P33001  -i \
$HOME/miniconda3/envs/chip/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/$id/${id}.fastq.gz ./
done
#双端测序:
cat SRA.list|while read id
do
x=$(echo $id | cut -b1-6)
echo $id
ascp -QT -l 500m -P33001  -i \
$HOME/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/$id/${id}_1.fastq.gz \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/$id/${id}_2.fastq.gz ./
done

若SRR后为七位数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#单端测序:
cat SRA.list|while read id
do
x=$(echo $id | cut -b1-6)
y=$(echo $id | cut -b10-10)
echo $id
ascp -QT -l 300m -P33001  -i \
$HOME/miniconda3/envs/chip/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/00$y/$id/${id}.fastq.gz ./
done
#双端测序:
cat SRA.list|while read id
do
x=$(echo $id | cut -b1-6)
y=$(echo $id | cut -b10-10)
echo $id
ascp -QT -l 500m -P33001  -i \
$HOME/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/00$y/$id/${id}_1.fastq.gz \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/00$y/$id/${id}_2.fastq.gz ./
done

若SRR后为八位数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#单端测序:
cat SRA.list|while read id
do
x=$(echo $id | cut -b1-6)
y=$(echo $id | cut -b10-11)
echo $id
ascp -QT -l 300m -P33001  -i \
$HOME/miniconda3/envs/chip/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/0$y/$id/${id}.fastq.gz ./
done

#双端测序:
cat SRA.list|while read id
do
x=$(echo $id | cut -b1-6)
y=$(echo $id | cut -b10-11)
echo $id
ascp -QT -l 500m -P33001  -i \
$HOME/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/0$y/$id/${id}_1.fastq.gz \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/0$y/$id/${id}_2.fastq.gz ./
done

下载后直接是fastq,不用转换格式

其实不管单双端,SRR六七八位数,就是根据url地址找规律......

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
aspera下载真的好烦啊
差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是问题往往是出在下载上面。虽然有aspera下载加速措施,但是每次下载至少失败一半!
生信技能树
2022/07/26
2.4K0
aspera下载真的好烦啊
吊打ChIP-seq的CUT&Tag技术
研究者们做了棉花材料的表观测序,主要是比较最新的技术 cleavage under targets and tagmentation (CUT&Tag)和以前的 chromatin immunoprecipitation with sequencing (ChIP-seq) 技术,结论是 CUT&Tag技术实验流程更快,对peaks的分辨率更高,而且背景噪音更小。
生信技能树
2021/04/15
1.7K0
一个优秀的ATAC-seq数据分析资源实战(一)
之前我们给大家介绍了两篇ATAC-Seq数据分析pipeline的优秀综述:综述:ATAC-Seq 数据分析工具大全 和 Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc),我们今天就来实战介绍!
生信技能树
2025/02/27
3470
一个优秀的ATAC-seq数据分析资源实战(一)
转录组上游分析流程(二)
使用ascp(Aspera Connect)来下载数据,它是 NCBI 的另一个官方工具。
凑齐六个字吧
2024/10/24
2480
转录组上游分析流程(二)
学员分享-aspera踩坑记录
19年开学的时候是打算自学,偶然间发现生信技能树,然后在b站上看了生信技能树的视频,基础不够,看了一部分R语言的相关视频就没有继续看下去了。我在天津上学,一开始还想等生信技能树来天津然后报线下课,由于这次疫情的我,有机会上了线上班。我是第五期学员,现在已经是上完课的状态,虽然自己上完课了依旧很菜,但是至少让我有勇气,有底气觉得自己有一点点入门的希望,有可以让自己继续学下去的勇气。也把如此好的课程推荐给大家,生信技能树官方举办的学习班:
生信技能树
2020/07/21
2.2K0
学员分享-aspera踩坑记录
aspera的高速下载确实很快吗
执行conda的安装两个软件(kingfisher和aspera),是如下所示的代码:
生信技能树
2024/11/21
2690
aspera的高速下载确实很快吗
RNA-Seq数据用aspera高效批量下载(万事开头难)
由于是EBI数据库,用wget下载速度太慢,Jimmy大神强烈建议用aspera工具下载,于是参考生信技能树教程代码,首先需要熟悉GEO和SRA数据库:
生信技能树
2020/09/24
3.6K2
RNA-Seq数据用aspera高效批量下载(万事开头难)
aspera曲折下载arrayexpress数据库文件
简单学习一下这个数据库的背景知识,问kimi:介绍一下arrayexpress数据库,它与GEO数据库相比有什么不同?
生信技能树
2025/02/05
5640
aspera曲折下载arrayexpress数据库文件
新格元的单细胞转录组软件CeleScope实战
于是安排学徒去到新格元的官方网站,有对这款试剂盒及其分析软件(celescope)的介绍,在github上有软件的使用说明及下载:https://github.com/singleron-RD/CeleScope
生信技能树
2022/03/03
2.8K1
新格元的单细胞转录组软件CeleScope实战
Aspera下载NCBI和EBI文件
Aspera下载: http://downloads.asperasoft.com/connect2/。
生信编程日常
2020/04/01
3.5K0
SRA数据几种常用的下载方法
依据大家上传数据的习惯,绝大多数生物信息学数据都是可以从NCBI上下载到,当然也可以通过DDBJ,EBI去下载。另外,部分科研人员也将数据传到github等其他平台。
小汪Waud
2023/02/16
7.1K0
SRA数据几种常用的下载方法
在美帝的服务器的prefetch和aspera下载比较
需要注意的是:什么,SRA测序数据要收费了,同样的,需要熟悉GEO和SRA数据库编号规则:
生信技能树
2020/08/11
2.9K0
在美帝的服务器的prefetch和aspera下载比较
如何从ENA数据库批量下载fq数据与表达矩阵(代码版)?
其他信息见页面:https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-7918,可以知道这个项目是T细胞免疫组库数据,4个样本,物种为小鼠。
生信技能树
2025/06/09
3240
如何从ENA数据库批量下载fq数据与表达矩阵(代码版)?
RNA-seq(2)-1:原始数据下载的几种方法
第1选择--Aspera Connect 如果aspera connect不能下载,推荐sratoolkit的prefetch功能。尽量不要用wget或curl下载,速度慢,且有时下载不完全
Y大宽
2018/09/10
5.2K0
单细胞RNA速率(velocyto)分析学习(一)
该部分内容仅为从Cellranger到loom文件部分内容,使用的数据集是GSE188711。
凑齐六个字吧
2025/05/08
3210
单细胞RNA速率(velocyto)分析学习(一)
ATAC-seq或者ChIP-seq等表观测序数据处理服务
ATAC-seq或者ChIP-seq等表观测序数据,需要比对到参考基因组并且找其峰值(peaks)并且进行基因功能元件注释或者motif注释,我们仅仅是收取一个计算机资源的费用,800-1600元人民币(根据样品数量不同收费不一样)即可,并且提供全套代码。不管是公共数据集还是你自己的实验测序数据,一样的费用!我们会代替你跑如下所示的流程:
生信技能树
2021/10/21
2K0
ATAC-seq或者ChIP-seq等表观测序数据处理服务
使用aspera从EBI下载fastq数据,抛弃NCBI的SRA数据库吧!
ENA主页:https://www.ebi.ac.uk/ena/browser/home
生信技能树
2020/02/20
9.8K3
今年暑假一起学单细胞吧(附上游数据下载tips)
之所以选取这个模块,是因为这部分包含了scRNAseq的上游实验部分,掌握好这部分能够更好帮助我们了解scRNAseq的结果文件,进行下游分析
生信技能树jimmy
2023/08/31
5510
今年暑假一起学单细胞吧(附上游数据下载tips)
PRJNA713302这个10x单细胞fastq实战
》 很久以前分享了:10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)以及一个10x单细胞转录组项目从fastq到细胞亚群,但是它缺乏NCBI的SRA数据库下载方式,因为ebi的ena数据库首先是不稳定,其次是部分单细胞数据集的样品在ena上面并不是R1,R2,I1的3个fastq文件形式。所以我们补充了"赵小明"的笔记:一文打通单细胞上游:从软件部署到上游分析,现在跟着这个笔记演示一下全部流程:
生信技能树
2022/06/08
9710
PRJNA713302这个10x单细胞fastq实战
终于轮到aspera高速下载的方式被抛弃了吗
但是读者多了之后我接受到的大家的反馈就是从ncbi的sra数据库里面下载sra文件实在是太慢了,因为我做演示的服务器在境外,所以自己压根就没有意识到这点。但是陆陆续续有小伙伴告诉我应该是使用aspera从ebi的ena数据库直接下载fastq文件即可,高速而且还少了一个sra文件转为fastq的步骤。所以后来我也开始在日常更新的公众号里面推荐这个方法,就是参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
生信技能树
2022/12/16
6960
相关推荐
aspera下载真的好烦啊
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档