背景
做生物信息的过程中,除了可以分析自己研究的测序数据,也可以分析公开的测序数据。目前已经累积了大量的测序数据可供下载分析。目前测序数据主要发表在 NCBI,EBI,CNDB,DDBJ 等几大站点。
一、SRA 数据库简介
SRA(Sequence Read Archive)数据库是 NCBI 用于存储测序的原始数据的数据库,包括 454,Illumina,SOLiD,IonTorren,pacbio,nanopore 等。我们经常会看到文献中给出数据名字为 SRA 然后后面接一些数字。我们根据这个 SRA 的 ID 就可以进行下载了,然后进行数据的分析,重复文献的分析内容。
链接地址:https://www.ncbi.nlm.nih.gov/sra/
根据 SRA 数据产生的特点,将 SRA 数据分为四类:
Studies-- 研究课题,ERP 或 SRP 表示 Studies;
Experiments-- 实验设计,SRX 表示 Experiments;
Samples-- 样品信息,SRS 表示 Samples;
Runs-- 测序结果集,SRR 表示 Runs。
这四种分类有一个层次关系。首先是 Studies->Experiments->Samples->Runs。这也是一个研究项目正常的逻辑关系。SRA 数据可以使用 NCBI 提供的 sratoolkit 工具来进行处理。
二、利用 sratookit 管理 SRA 数据库
sra 工具包里面包含了很多工具,可以用来管理和操作 sra 数据库的资源,可以处理多种测序平台的数据。fastq-dump: 最常用的,将 SRA 数据转换为 fastq 格,也可以直接下载数据 prefetch 下载 sra 数据。
网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
下载指定版本
ubuntu
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz
centos 版本
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-centos_linux64.tar.gz
tar -zxvf sratoolkit.2.10.8-centos_linux64.tar.gz
首次运行需要进行配置
vdb-config --interactive
三、下载文献数据
3.1 数据介绍
下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data
部分。如果存在多样本,则需要得到 PROJECT 号,在 PROJECT 号下面找对应的数据。
Data bibliography
1. Raw sequencing data: NCBI BioProject Accession PRJNA422511
(https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511).
2. Assemblies: FigShare doi https://doi.org/10.6084/m9.figshare. 7649051 (https://doi.org/10.6084/m9.figshare.7649051).
3. NCBI GenBank reference sequences:
a. CFT073: NC_004431.1 (chromosome)
b. MGH78578: NC_009648.1 (chromosome); NC_009649.
《Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes》
3.2 获取 PRJNA422511 项目数据
https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511
3.3 下载测序数据
prefetch SRR8482567 -O ./
2021-09-22T02:46:15 prefetch.2.9.3: 1) Downloading 'SRR8482567'...
观察该提示是 https 还是 fasp
2021-09-22T02:46:15 prefetch.2.9.3: Downloading via https...
3.4 下载参考序列:
Klebsiella pneumoniae MGH78578
基因组:NC_009648.1
https://www.ncbi.nlm.nih.gov/nuccore/NC_009648.1/
质粒:NC_009649.1
https://www.ncbi.nlm.nih.gov/nuccore/NC_009649