1.数据下载软件 aspera,ubuntu下的下载方式为:
wget https://download.asperasoft.com/download/sw/conne ct/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
之后,tar -zxvf
进行解压,安装成功。
2.ncbi中SRA的ftp下载链接为: ftp://ftp.ncbi.nlm.nih.gov/sra/
, SRA数据库的格式为:
ERP或SRP表示Studies
SRS表示Samples
SRX表示Experiments
SRR表示Runs;
在文献中,或者数据库中找到SRP/ERP/SRX/SRS/SRR这些序列号,(SRA数据库中存放的是测序原始数据),然后进入ftp进行下载,比如假设看见一篇文章的SRA数据库的一个序号:SRR6208854。 我们进入SRAftp进行数据下载,逐步定位到该序列:
可以看见这条序列的完整信息是大概有563MB。 如果用普通的ftp格式进行下载将会异常缓慢,所以我们采用aspera的fasp传输协议进行数据下载。 复制ftp的url:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
将其改为:
anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
然后使用aspera进行下载:
~/.aspera/connect/bin/ascp -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./
-T 不使用加密 -i 指定openssh(通用)
之后序列下载成功,这样原始序列我们就得到了。
如果需要批量下载数据的话,使用命令:
/.aspera/connect/bin/ascp -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --user=anonftp --host=ftp-private.ncbi.nlm.nih.gov --mode=recv --file-list ~/1.sra ./
user是使用者,NCBI的为anonftp,EBI的为era-fasp。 host是你需要链接的主机,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为 fasp.sra.ebi.ac.uk。 --file-list是你的文件列表 后面跟上你所需要下载的文件的列表 --mode=string 选择模式,上传为 send,下载为 recv(这个在有file-list时为必须的)
慢慢写,不着急
全文结束,欢迎在评论区讨论~