简单来说,你可以在这个数据库中搜索并下载测序原始数据。这次依旧从使用层面来聊这个数据库。
各类数据之间采用线性、一对多的模式进行关联,从而形成“金字塔”式的信息组织与管理模式。在实验中,生物学重复归类为2个不同Sample;技术重复则视为2个Experiment。

数据类型 | 编号举例 | 解释意义 |
|---|---|---|
项目 Project | PRJCA000001 | 标识一个整体研究项目或课题,是数据归档和组织的顶层单元 |
样本 Sample | SAMC000001 | 代表一个具体的生物体、组织或样本来源,是数据实验的基础对象 |
基因组序列归档库 GSA | CRA000001 | 专门用于存储原始测序读数的数据仓库 |
实验编号 Experiment | CRX000001 | 一次的实验编号 |
测序编号 Run | CRR000001 | 一次的测序编号 |
因此呢,GSA 数据库只是一个储存测序序列的数据库,因此,如果要查看项目的详细信息,还是在 BioProject 或者 BioSample 中查看。但是目前我测试发现 BioProject 搜索系统有点 bug,所以先简单聊聊。
BioProject :(https://ngdc.cncb.ac.cn/bioproject/)

搜索关键词词条就可以查看项目信息和进行数据筛选过滤了。

点击进去就是下一级别 BioSample.

在这些面板中就可以查看项目的基本信息了,但是下载原始数据还是在 GSA 数据库中。如果明确了编号可以直接编号搜索,当然也可以通过关键词搜索

通过左边的选项卡可以进一步筛选,比如我想看来自国家基因组科学数据中心(NGDC)的转录组数据。

在 CRX 页面就可以看到一个或者多个测序编号,点击进去可以看到下载链接,官方推荐使用 FTP 客户端(比如 FileZilla Client)下载数据。


在 GSA 页面可以根据编号一级一级的查找下载。


目前中国自己的数据库体系也在逐渐发展起来,对比原来常用的 SRA 数据库,国产 GSA 数据库既有自己独有的数据也会定期整合 SRA 的数据源,作为我们数据挖掘的数据来源之一,也是一个不错的选择。但是,个人来看,比较之下,觉得还有待开发和维护,也推荐大家多多使用和提交数据,让数据库“活”起来。