截至目前,人类细胞图谱是一个由来自 94 个国家的 3000 名研究人员共同参与的项目,旨在收集人体内每一个细胞的样本。该项目计划创建一个人体交互式图谱,作为各类正常人类细胞的形态参考标准。但这些标准会因个体差异和地域不同而有所变化。人类细胞图谱(HCA)主要关注点是健康人类数据,但也包含一定量的鼠(Mus musculus)和犬 (Canis Lupus familiaris) 的数据。
首版人类细胞图谱正在整合来自 18 个不同重要器官和组织的图谱数据,包括心脏、肝脏和免疫系统等。
项目是 HCA 数据门户中数据组织的基本单元。项目贡献者提供原始测序数据及相关文件,同时附带描述丰富元数据(metadata):
数据门户页面列出所有项目及其关键元数据,可通过元数据值进行筛选。
筛选条件包括 project, donor, sample, protocol, file 五个方面。分类是比较清晰的,可以看根据需求筛选出需要的 project。
选择任意一个 project 标题会跳转至项目信息页面,包含概述 (Overview),元数据 (Metadata),矩阵数据 (Matrices),下载 (Download),导出 (Export) 等几个子页面。
对于每个项目,HCA 数据门户维护一个项目专属的 TSV 文件,包含完整的项目元数据。
File Manifest 是一个 xlsx 表格,包含很多个子表格,里边的信息包括:Project-Publications, Project-funders,
Project-Hca bionetworks 等。
矩阵数据这里提供了两种选择,第一种是 DCP Generated Matrices
, 采用统一流程生成的矩阵,所有 DCP 生成矩阵均包含质量控制指标,10x 矩阵包含原始计数,Smart-seq2 矩阵包含 TPM 值和估算计数。矩阵采用 Loom 文件格式。第二种是 Contributor Generated Matrices and Analysis Files
,由项目参与者选择性提供,在尝试进行细胞类型注释或与贡献者已发表结果进行比对时非常有用。其文件格式和内容各异,归一化和/或批次校正技术的使用由项目贡献者自行决定,不同项目间存在差异。
HCA 数据大多都提供完整的原始数据信息,可以全部下载下来进行分析。可以在网页中生成相应的下载命名,直接在终端中下载即可。
也可以导出数据在 Terra 平台上进行分析。Terra 是一个生物医学研究平台,可通过工作流、Jupyter Notebooks、RStudio 和 Galaxy 进行数据分析。
目前只有 Lung,Nervous System, Eye, Organoid 这几个组织或系统构建了完整的生物网络图谱。
以神经系统图谱为例,包含一个人类脑细胞图谱和一个人类内皮细胞图谱:
点击任意图谱标题部分可以进入下一级别的图谱概述,其重点是 Component Atlases 部分,不仅包含全部的神经元,也有不同部位不同细胞类型的图谱信息:
点击任意一个 Atlas 的 Explore 部分,可以进入单细胞 UMAP
或 tSNE
可视化界面:
上述可视化链接的是 CZ CELLxGENE 工具网页,除了上述可视化,这个工具还有一个 Cell Guide 选项卡,可以搜索不同的细胞类型,提供一定的知识讲解。包括细胞知识简介,细胞 Ontology, 以及最重要的 Marker 基因。
比如我搜索了 T 细胞,也可以在右上角选择不同的组织来查看组织特异性信息。其中细胞分类信息和 Marker gene 展示的是相对非常全面的:
另外,在 Gene Expression 中也可以查看基因在不同组织及细胞的表达其情况:
这个工具还有其他可探索的功能,供选择性使用。
供君使用的链接:
HCA:https://www.humancellatlas.org/
HCA Data Portal:https://data.humancellatlas.org/
Cellxgene Data Portal:https://cellxgene.cziscience.com/
CellGuide - CZ CELLxGENE:https://cellxgene.cziscience.com/cellguide