题目:hECA: The cell-centric assembly of a cell atlas 期刊:iScience 日期:May 20, 2022 DOI:https://doi.org/10.1016/j.isci.2022.104318
简介:来自清华大学自动化系的张学工课题建立一个人类综合性单细胞图谱平台--hECA(human Ensemble Cell Atlas)1.0版本。这篇文章主要基于细胞为中心(cell-centric)的理念对来自人类多器官的上百万个细胞数据进行了系统性整合工作。 网址:http://eca.xglab.tech
数据储存方式是基于NoSQL数据库语言直接将多数据集合并成巨大的表达矩阵(43878×1093299),以及每个细胞的metadata,例如样本来源、数据集来源,样本信息、细胞类型等等。
使用相同的细胞类型标签体系对合并的数据集进行统一的146种细胞类型注释。
开发了一个python工具包提供了API接口用于上述大规模数据的有效提取。
文章对该平台的三种可能应用场景进行了阐释。
该平台提供了一种新型的基于数据的细胞分选方式。具体来说可从网页界面或者API工具快速筛选特定样本、特定器官、特定基因表达模式的细胞群。文章举了两个小例子。
首先使用ECAUGHT"分选"了来自18个器官的T细胞群,简单分为了CD4+与CD8+亚群
然后使用GSVA对代谢相关通路进行了单细胞水平的打分,分析相应的器官活性特征。
使用hECA人类特定器官的单细胞表达矩阵(已基于uHAF进行细胞注释)作为reference,使用SingleR建立模型,为用户自己的数据进行细胞类型注释。
文章建立的SingleR注释模型:https://ngdc.cncb.ac.cn/omix/release/OMIX001043
在文章举例说明中,对两个心脏组织细胞注释的准确率可分别达到0.954、0.904;对神经元细胞注释的准确率可达到0.887。
此外为了进一步验证平台数据的可用性,文章分别取其中的肺组织细胞、肺免疫细胞分别代替两篇文献内的control数据仍可得到相似的结果与结论。
诚如文章所言,研究存在如下两个主要问题
(1)数据量有限:目前hECA1.0覆盖的人体器官组织单细胞数据较为有限,例如未涉及乳腺组织等。但目前平台已搭建的框架体系,例如uHAF注释系统等为以后纳入新的数据提供了基础。
(2)批次效应问题:hECA对不同数据集仅进行了细胞文库水平(log转换)的标准化处理。而测序平台等批次效应都交给用户自行鉴别、校正。此外平台也提供了器官内不同数据集harmony校正后的整合数据。https://ngdc.cncb.ac.cn/omix/release/OMIX001042