首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >GSA - 组学测序原始数据库【国家生物信息中心】

GSA - 组学测序原始数据库【国家生物信息中心】

作者头像
生信菜鸟团
发布2025-11-19 19:33:24
发布2025-11-19 19:33:24
280
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
  • 组学原始数据归档库(Genome Sequence Archive, GSA)是面向组学领域的原始数据采集、存储、管理与共享的重要基础设施。GSA严格遵循国际核酸序列数据库联盟(INSDC)的数据规范和架构,主要接收和归档实验元数据(Experiment Metadata)、测序文库与反应元数据(Run Metadata),以及高通量测序产生的原始数据文件(Sequence Data files)。
  • 国际核酸序列数据库联盟(INSDC,全称International Nucleotide Sequence Database Collaboration)是由日本DNA数据库(DDBJ)、欧洲核酸序列数据库(ENA)、美国国家生物信息中心(NCBI GenBank)三大数据库共同组成的全球核酸序列数据管理与共享网络体系。

简单来说,你可以在这个数据库中搜索并下载测序原始数据。这次依旧从使用层面来聊这个数据库。

数据结构

各类数据之间采用线性、一对多的模式进行关联,从而形成“金字塔”式的信息组织与管理模式。在实验中,生物学重复归类为2个不同Sample;技术重复则视为2个Experiment。

数据类型

编号举例

解释意义

项目 Project

PRJCA000001

标识一个整体研究项目或课题,是数据归档和组织的顶层单元

样本 Sample

SAMC000001

代表一个具体的生物体、组织或样本来源,是数据实验的基础对象

基因组序列归档库 GSA

CRA000001

专门用于存储原始测序读数的数据仓库

实验编号 Experiment

CRX000001

一次的实验编号

测序编号 Run

CRR000001

一次的测序编号

搜索

因此呢,GSA 数据库只是一个储存测序序列的数据库,因此,如果要查看项目的详细信息,还是在 BioProject 或者 BioSample 中查看。但是目前我测试发现 BioProject 搜索系统有点 bug,所以先简单聊聊。

BioProject :(https://ngdc.cncb.ac.cn/bioproject/)

搜索关键词词条就可以查看项目信息和进行数据筛选过滤了。

点击进去就是下一级别 BioSample.

在这些面板中就可以查看项目的基本信息了,但是下载原始数据还是在 GSA 数据库中。如果明确了编号可以直接编号搜索,当然也可以通过关键词搜索

通过左边的选项卡可以进一步筛选,比如我想看来自国家基因组科学数据中心(NGDC)的转录组数据。

下载

CRX 页面下载

在 CRX 页面就可以看到一个或者多个测序编号,点击进去可以看到下载链接,官方推荐使用 FTP 客户端(比如 FileZilla Client)下载数据。

根据编号下载

在 GSA 页面可以根据编号一级一级的查找下载。

碎碎念

目前中国自己的数据库体系也在逐渐发展起来,对比原来常用的 SRA 数据库,国产 GSA 数据库既有自己独有的数据也会定期整合 SRA 的数据源,作为我们数据挖掘的数据来源之一,也是一个不错的选择。但是,个人来看,比较之下,觉得还有待开发和维护,也推荐大家多多使用和提交数据,让数据库“活”起来。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据结构
  • 搜索
  • 下载
    • CRX 页面下载
    • 根据编号下载
  • 碎碎念
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档