GEO(Gene Expression Omnibus, 基因表达综合数据库)是一个国际公共存储库,负责存档并免费分发由研究团体提交的微阵列、新一代测序及其他形式的高通量功能基因组学数据。
平台(Platform) | 平台记录由对阵列或测序仪的概要描述组成,对于基于阵列的平台,还包括定义阵列模板的数据表。每个平台记录都会被分配一个唯一且稳定的 GEO 登录号(GPLxxx)。一个平台可以关联多个提交者提交的众多样本。GPL341 | A | 阵列或测序仪的文本描述 |
---|---|---|---|
B | 文本制表符分隔的阵列模板表格 | ||
样本(Sample) | 样本记录描述了个体样本的处理条件、所经历的操作步骤以及从中获取的每个元素的丰度测量值。每个样本记录都被分配一个唯一且稳定的 GEO 登录号(GSMxxx)。一个样本实体必须仅引用一个平台,并可被包含在多个系列中。GSM81022 | C | 生物样本及其处理方案的文本描述 |
D | 处理后的杂交结果文本制表符分隔表格****(可选择性包含原始数据列) | ||
E | 原始数据文件或处理后的序列数据文件 | ||
系列(Series) | 系列记录将一组相关样本关联起来,并提供整个研究的核心描述。系列记录可能还包含描述提取数据、总结结论或分析结果的表格。每个系列记录都会被分配一个唯一且稳定的 GEO 登录号(GSExxx 格式)。GSE3541 | F | 实验整体情况的文字描述 |
G | 原始原始数据文件或处理后序列数据文件的 tar 归档 |
数据集(DataSet) | 如前所述,GEO 系列记录是由提交者提供的原始记录,用于总结实验。这些数据由 GEO 工作人员重新整理为 GEO 数据集记录(GDSxxx)。数据集代表一组经过整理的生物学和统计学上可比较的 GEO 样本集合,是 GEO 系列数据展示与分析工具的基础。数据集中的样本均指向同一平台,即它们共享相同的阵列元件组。假定数据集中每个样本的数值测量均以等效方式计算,即背景处理和标准化等处理方法在整个数据集中保持一致。通过数据集子集可获取反映实验因素的信息。系列和数据集均可通过 GEO 数据集界面进行检索,但只有数据集能作为 GEO 高级数据展示与分析工具(包括基因表达谱图表和数据集聚类)的基础。并非所有提交数据都适合组建成数据集,且目前存在数据集创建积压情况,因此并非所有系列都有对应的数据集记录。GDS2225 | H | |
---|---|---|---|
表达谱(Profile) | 一个分析图谱包含某个基因在数据集中所有样本的表达测量值。可通过 GEO 分析图谱界面搜索这些图谱。GDS2225[ACCN] | I |
GEO 数据集数据库存储了原始提交者提供的记录(系列、样本和平台)以及经过整理的数据集。目前并非所有原始提交者提供的记录都已整合为经过整理的数据集。
目前官方这部份提供的页面介绍和实际是有一些不同的,不过都差不多,估计是没更新到。不一致的地方我下面会提醒一下。
当前 GEO DataSets 页面如此所示,和上方官方介绍位置可能存在略为不同,不过基本一致,差别可以忽略。
##
A | 搜索框 | 在此输入框中输入关键词或搜索语句以识别感兴趣的 GEO 数据集。搜索时可使用多种术语,包括关键词、生物体、数据集类型和作者。 |
---|---|---|
B | 显示设置与发送至 | 使用"显示设置"可更改显示格式或显示项目数量。使用"发送至"功能可将结果导出为纯文本文件,或保存至剪贴板及您的 My NCBI 收藏集。 |
C | 《关于 GEO 数据集 - GEO - NCBI》 (注:当前页面无此) | 列出数据集(GDS)、系列(GSE)或平台(GPL)的登录号,后接标题和生物体信息 |
D | 摘要、类型、子集、补充文件和样本 | 摘要:对数据集、系列或平台记录的简要描述类型:数据集或系列的类型。类型指明一般应用(如表达谱分析)及所用技术(如高通量测序)。数据集记录还会显示样本值类型。子集:概述数据集中所包含的实验变量子集的数量和类型。补充文件:指明原始提交时提供的补充文件类型。补充文件通常指原始数据文件,例如 Affymetrix 的 CEL 文件。样本:说明数据集或系列中的样本数量,并列示样本登录号(GSM)及标题。 |
E | GEO 数据档案与链接 | 与其他 NCBI 数据库(包括 PubMed、表观基因组学和 SRA)相关记录的互链。数据集页面提供对应 GEO 数据档案的链接。也可通过批量模式获取链接,详见下方"查找相关数据"部分。 |
F | 结果筛选 | 显示查询获取的数据集、系列和平台记录数量。点击可限定检索特定类型的记录。 |
G | 缩略图聚类图像 | 数据集提供聚类分析功能。点击图像可跳转至数据集记录页面,该页面包含多种数据分析工具,包括聚类热图(详见下方"聚类热图"章节)。 |
H | 查找相关数据 | 此功能与上文"GEO Profiles 及链接"章节所述功能类似,但采用批处理模式。 |
进入每一个搜索出来的条目,显示一些对数据集的一些描述信息。
I | 数据集描述信息 | 本部分包含数据集标题、摘要、生物体、平台、引用文献、数据集所基于的原始(参考)系列、样本数值类型、数据集包含的样本数量以及原始系列公开日期。 |
---|---|---|
J | 缩略图聚类图像 | 点击图像可查看完整尺寸的默认聚类热图(非中心化相关 UPGMA 法)。 |
K | 下载 | 提供多种下载选项,包括:数据集完整 SOFT 文件 (DataSet full SOFT file)(推荐):包含数据集信息、实验变量子集、表达值测量数据以及数据集平台的全面最新基因注释(纯文本,制表符分隔格式)。数据集 SOFT 文件 (DataSet SOFT file):包含数据集信息、实验变量子集、表达值测量数据及基因符号(纯文本,制表符分隔格式)。系列家族 SOFT 文件 (Series family SOFT file):包含构成该数据集基础的完整原始提交者提供记录(纯文本,制表符分隔格式)。系列家族 MINiML 文件 (Series family mIniML file):包含构成该数据集基础的完整原始提交者提供记录(XML 格式)。注释 SOFT 文件 (Annotation SOFT file):包含数据集平台的最新全面基因注释(纯文本,制表符分隔格式)。 |
L | 数据分析工具 | 这部分提供了每个数据分析工具的相关信息。 |
M | 查找基因 | 查找基因名称或符号:输入您想在该数据集中定位的基因名称或符号,系统将引导至相关基因表达谱。查找与该病症相关上调/下调的基因:此功能可帮助识别被标记具有子集效应的基因,即根据实验子集显示差异表达的基因。子集是指数据集中根据主要实验变量(如性别、疾病状态等)分类的样本组。对于具有多个子集类型的数据集,可以通过勾选/取消勾选复选框,将检索限制为仅在特定子集类型中差异表达的基因。子集效应标志是基于样本记录 VALUE 列中提交者提供的原始表达测量值计算的。鉴于 GEO 接收数据的多样性及 VALUE 类型和范围的差异,该标志的计算方式具有一定临时性,仅用于提高潜在差异表达基因的可见度。如需进行更可靠的分析,可尝试使用"比较两组样本"查询工具进行 t 检验,或将数据集完整 SOFT 文件导入常用的微阵列分析软件中。 |
N | 比较两组样本 | 该工具旨在帮助识别在两组样本(A 组与 B 组)间表现出显著表达水平差异的基因。通常,用户会比较属于不同实验变量子集的样本。步骤 1:选择要执行的检验方法及显著性水平。可选方法包括学生 t 检验、数值或秩均值倍数差异分析。第二步:选择将哪些样本归入 A 组,哪些样本归入 B 组。关于如何分配样本至 A 组和 B 组的具体说明,请参阅章节 O。第三步:查询组 A 与组 B 的对比。计算每组数据的 t 检验分数或均值倍数差异。符合用户选定标准的基因将在 GEO Profiles 中呈现。注意事项与说明:计算基于样本记录 VALUE 列中原始提交者提供的表达测量值。请注意,GEO 提交者提供的数据值及范围存在极大差异。学生 t 检验是一种成熟的统计方法,用于确定两组数据的均值是否真实存在差异。t 检验基于若干基本假设,若这些假设不成立,结果可能出现错误或误导。t 检验要求每组至少包含 2 个样本。以数值或排序均值(倍数差异)作为筛选标准可能是最基础的数据过滤方法。检索结果可能无统计学意义,或比较的子集过小而无法提供统计价值(如单例样本)。若值为空或缺失,计算时将予以忽略。若一组数值为空,其均值倍数差异假定为零。若两组数值均为空,则跳过该profile。若没有profile符合标准,结果集可能为空。无法预先确定使用何种过滤器才能获得有意义的结果,也无法保证一定能获得有意义的结果。 |
O | 将样本分配至 A 组和 B 组 | 选择您要分配到 A 组(左列)和 B 组(右列)的样本。中间的彩色区块显示数据集中实验变量子集的信息。点击样本登录号(GSMxxx)可单独选择样本,或点击彩色区块后再点击闪烁箭头可选择整组样本。您可以通过取消勾选不想包含的组别或样本对应的复选框来限制组内样本数量。在上方示例中,用户选择将所有"非糖尿病"样本(A 组)与所有"2 型糖尿病"样本(B 组)进行对比。 |
P | 聚类热图 | 本部分提供完整的聚类类型选择,包括无监督层次聚类、K 均值/K 中值聚类以及按染色体基因位置组织的热图。 |
Q | 聚类选项 | 提供数据下载、绘制图表、将选定数据导出至 GEO Profiles 以及调整热图颜色等选项。对于层次聚类,还可从此区域更改聚类类型。 |
R | 在热图图像上选择感兴趣区域 | 点击热图图像可选择聚类区域进行进一步分析。将显示半透明选择框,拖动和/或调整框体高度以覆盖目标区域。如需选择多个区域,请点击选择框左侧的"+"图标,重复操作选择更多区域。双击选择框或点击"堆叠显示"可放大查看选定区域,放大后的聚类右侧会列出基因符号。可使用浏览器的 Ctrl+F 功能在此列表中搜索特定基因。通过"下载"、"绘制数值"或"在 Entrez 中查看"按钮可获取选定区域的数据。 |
S | 实验设计与数值分布 | 展示一个箱线图,呈现数据集中各样本表达值的分布情况。该图表有助于判断数据集是否经过标准化处理,即各样本的数值分布是否以中位数为中心。图表底部的彩色条带代表数据集中的实验变量子集,每个子集包含类型(如"年龄")和描述(如"8 周龄")。例如在上图中,第一个样本 GSM9920 来源于一只 8 周龄的非糖尿病小鼠。 |
GEO Profiles 数据库存储来自精选 GEO 数据集(Datasets)的基因表达谱。每个 Profile 以图表形式展示单个基因在数据集中所有样本(Samples)的表达水平。图表底部的实验条件条带提供实验背景信息,可直观显示基因在不同实验条件下的差异表达情况。Profile 包含多种链接类型,包括连接具有相似表达模式基因的内部链接,以及指向其他 NCBI 数据库相关记录的外部链接。
同样的,目前官方这部份提供的页面介绍和实际是有一些不同的,不过都差不多,估计是没更新到。最新的界面我也放在了下面。
A | 搜索框 | 通过在此框中输入关键词或搜索语句来识别感兴趣的 GEO Profiles。搜索时可使用多种术语,包括基因名称、基因符号、GenBank 登录号以及标记不同实验条件下差异表达基因的标志。 |
---|---|---|
B | 显示设置与发送至 | 使用"显示设置"可更改显示格式或显示项目数量。使用"发送至"功能可将结果导出为纯文本文件,或保存至剪贴板及 My NCBI 收藏集。 |
C | 基因表达谱标题行 | 列出 Profile 来源的 DataSet 登录号(GDSxxx)、该 DataSet 所基于的 Platform 登录号(GPLxxx)、Platform 记录 ID 列中的唯一标识符以及生物体信息。 |
D | 注释、探针与实验 | 注释 (Annotation):列出来自 NCBI Gene、UniGene 或 Nucleotide 数据库的基因符号、全称及别名。我们会定期使用从提交者提供的平台记录中提取的原始序列探针信息查询 Gene、UniGene 和 Nucleotide 数据库,以获取这些最新注释。探针 (Reporter):从提交者提供的平台记录中提取的原始序列探针。通常,探针是可追踪的序列标识符,如 GenBank 登录号或克隆 ID。正是从这些探针中衍生出最新的注释信息。实验 (Experiment):显示该表达谱来源的数据集标题,后接数据集类型和样本值类型 |
E | 相关基因与链接 | 表达谱邻居 (Profile Neighbors):将数据集中与选定表达谱显示相似表达模式的其他表达谱进行关联。针对每个数据集,计算表达谱两两之间的皮尔逊相关系数。相关系数最高的 200 个结果被任意定义为表达谱邻居。通过任意设定的阈值过滤掉相关系数值较低的配对。此功能可能有助于识别功能相关的基因。染色体邻居 (Chromosome Neighbors):在数据集中连接查询基因在染色体两侧各 20 个物理距离最近的基因。此功能可能有助于研究基因表达邻域。序列邻居:通过核苷酸序列相似性关联来自所有数据集的相关表达谱。同源基因 (Homologs):通过 Homologene 组关联所有数据集中的相关基因。链接 (Link):与其他 NCBI 数据库(包括 Gene、UniGene、GenBank、PubMed 和 OMIM)中相关记录的双向链接。邻居和链接也可以通过批量模式获取,详见下方的"查找相关数据"部分。 |
F | 缩略图表 | 每个图表显示一个基因在数据集中所有样本的表达水平。颜色代码、轴描述等详细信息请参阅下方的完整图表说明。图表底部的条形代表实验变量子集。缩略图支持快速视觉扫描和比较多个基因表达谱。点击缩略图可查看完整图表。 |
G | 下载图谱数据 | 使用此按钮可下载页面上每个表达谱的数值和注释信息。下载文件为制表符分隔格式,适合在 Excel 等电子表格应用程序中打开。包含多个数据集的检索结果将按数据集区块进行组织。文件中包含实验因素和基因注释信息。下载文件仅包含当前页面显示的表达谱;如需获取最大数量的表达谱,请点击"显示设置"链接并将"每页项目数"设置为 500。请注意系统不会执行跨数据集标准化处理,因此不宜直接比较不同数据集间的表达谱数值。 |
H | 查找相关数据 | 此功能与上文"相关基因与链接"所述类似,但采用批处理模式。 |
J | 完整图表 | 点击缩略图可放大显示完整的基因表达谱详情、表达量数值以及反映实验设计的数据集子集。每个图表展示单个基因在数据集中所有样本间的表达水平。红色柱状图:每根柱子代表从原始提交者提供的样本记录(GSMxxx)VALUE 列中提取的表达量测量值。图表底部灰色方框中列出了原始样本编号(GSMxxx)。这些样本记录由科研界提交,反映了经过多种方法处理和标准化的各类数据类型。基因表达没有标准单位,因此表达值应视为任意单位。可以假定同一 GEO 数据集内的数值测量采用等效方式计算,但通常不适合直接比较不同数据集之间的数值。单通道样本为标准化信号计数值,而双通道样本通常为测试/参照对数比值比。蓝色方块:表示表达测量值的排序等级。样本中的所有 VALUE 值按等级排序后,被划分至百分位"区间"。换言之,将一次杂交的所有数值排序后分成 100 组。因此,图表中的蓝色排序方块能够显示该基因的表达量相对于该芯片上其他所有基因的分布位置。需特别注意:数值(红色柱状图)与排序(蓝色方块)采用不同标度绘制——蓝色排序始终采用 1-100%的标度(图表右侧 Y 轴),而红色数值标度会根据特定表达谱的数值范围自动调整(图表左侧 Y 轴)。这种动态数值标度可使数值间的细微差异更清晰地呈现。 |
K | 实验变量 | 图表底部的条形代表数据集中实验变量的子集。每个子集可能包含一个或多个样本。每个子集都有类型(如"疾病状态")和描述(如"2 型糖尿病")。在上图示例中,样本 GSM9920 来源于 8 周龄非糖尿病小鼠的肾脏组织。点击子集类型名称可按特定实验变量重新排序数据集中的样本——这有助于在多变量实验中更清晰地观察表达趋势。如需查看特定样本的详细信息,请点击列出样本编号(GSMxxx)的灰色方框。 |
L | 显示值(这部份当前缺失*) | 点击显示图表中呈现的表达值 |
M | 样本列表 | 构成该数据集的样本编号及标题清单 |
https://www.ncbi.nlm.nih.gov/geo/info/qqtutorial.html
要在直接在 GEO DataSets 或 GEO Profiles 数据库中查询想要的信息,了解如何使用搜索框是能更好更快的查询自己的信息。
简单来说基本的查询逻辑是:
term [field] OPERATOR term [field]
直接在GEO中检索也可以,我们先打开一个 GEO 网页。
点击这四个条目,就会出现一个表格,分别从 Series, Sample, Platforms, DataSets 选择数据。
但是也可以通过搜索 ID 或关键字直接搜索 Series 和 Profiles。
不同的测序数据类型也有所区别。
一、通过GEO数据库查找SRA链接
进入目标数据集页面
例如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE302068
查找“SRA”链接
在数据集页面(如GSE页面)下方,找到“SRA Run Selector区域,点击链接进入SRA(Sequence Read Archive)。
二、在SRA页面查找Run信息
进入SRA页面,查看Run信息。
在SRA项目页面,可以看到所有样本的Run列表(SRR编号)。
三、下载fastq原始数据的常用方法
方法1:网页直接下载(适合小数据量)
在Run列表中,点击SRR编号进入单个Run页面。
找到“FASTA/FASTQdownload”部分,点击“FASTQ files (ftp)”或“https”链接,直接下载fastq.gz文件。
方法2:使用SRA Toolkit批量下载(推荐)
https://github.com/ncbi/sra-tools/blob/master/CHANGES.md