空转数据的注释是一大难题,今天来看看2022年6月18号发表在Brief Bioinform.的一篇综述,文献标题为 《A comprehensive comparison on cell-type composition inference for spatial transcriptomics data》,总结并比较了10种最先进的计算策略。
空间转录组学技术主要分为两类:基于成像的方法和基于测序的方法。基于成像的方法(如smFISH、MERFISH和osmFISH)通过直接成像单个RNA分子,提供RNA表达水平的定量信息及其在单细胞中的空间定位。基于测序的方法(如10× Genomics Visium平台和Spatial Transcriptomics平台)则通过在带有位置条形码的逆转录引物上进行测序和计算重建,捕获组织样本中的基因表达。在相关文献中,“空间转录组学”(ST)是一个广义概念,而“Spatial Transcriptomics”则指特定的技术平台。
现有的空间转录组学(ST)技术受到空间分辨率与测量基因数量之间的权衡限制:成像技术可以达到单细胞甚至亚细胞分辨率,但通常只能高质量测量几百个基因,限制了其在探索性分析中的应用。测序技术可以测量全转录组水平的基因表达,但目前只能获得接近单细胞分辨率的点级数据,容易受到细胞类型组成差异的混杂影响。
这篇综述聚焦于空间转录组学(ST)数据的细胞类型解卷积方法,总结并比较了10种最先进的计算策略。文章首先详细介绍了这些方法的关键特点,包括所使用的统计方法、适用的ST数据类型以及方法的独特性。接着,通过六个真实ST数据集对这些方法的性能进行了评估。最后,文章提供了实际应用中的指南,并讨论了这些方法在真实数据中的优势和不足。需要注意的是,评估仅限于那些直接输出细胞类型比例的解卷积方法,而不包括那些提供其他空间解卷积指标(如细胞富集分数或锚点分数MIA和Seura)的方法。
研究发现,在不同组织和技术平台上,RCTD和stereoscope方法在推断细胞类型组成方面更为稳健和准确。
在这里,作者回顾了10种最先进的方法:Adroit、cell2location、DestVI、RCTD、STdeconvolve、stereoscope、spatialDWLS、SPOTlight、DSTG和Tangram。现有的ST数据解卷积方法大致可以分为三类:(图1,表1)
每种方法的链接以及发表年限:
Method | Designed for ST data? | Feature selection | Inference method | Language | URLs | Reference | Published Time (bioRxiv first version) |
|---|---|---|---|---|---|---|---|
stereoscope | Yes | Top 5000 highest expressed genes (optional) | Probabilistic, negative binomial distribution | Python | https://github.com/almaan/Stereoscope | [[19](javascript:;)] | 10.09.2020 (12.13.2019) |
RCTD | Yes | DE genes | Probabilistic, Poisson distribution, maximum likelihood | R | https://github.com/dmcable/spacexr | [[17](javascript:;)] | 02.18.2021 (05.08.2020) |
SPOTlight | Yes | Highly variable genes | Non-negative matrix factorization (NMF) along with non-negative least squares (NNLS) | R | https://github.com/MarcElosua/SPOTlight_deconvolution_analysis | [[21](javascript:;)] | 02.05.2021 (06.04.2020) |
Tangram | Yes | Union of cell type marker genes | Optimization of self-constructed loss function | Python | https://github.com/broadinstitute/Tangram | [[23](javascript:;)] | 10.28.2021 (08.30.2020) |
DSTG | Yes | 2000 most variable genes | Semi-supervised graph convolutional network, adaptive moment estimation algorithm | Python | https://github.com/Su-informatics-lab/DSTG | [[22](javascript:;)] | 01.22.2021 (10.21.2020) |
cell2location | Yes | No selection | Probabilistic, negative binomial distribution, variational Bayesian inference | Python | https://cell2location.readthedocs.io/en/latest/ | [[15](javascript:;)] | 01.13.2022 (11.17.2020) |
AdRoit | No | Genes enriched in one or more cell types or highly variable genes | Probabilistic, non-negative least squares regression | R | https://github.com/TaoYang-dev/AdRoit | [[14](javascript:;)] | 10.22.2021 (01.04.2021) |
spatialDWLS | Yes | Cell type marker genes | Dampened weighted least squares (DWLS) | R | https://giottosuite.com/ | [[20](javascript:;)] | 05.10.2021 (02.03.2021) |
DestVI | Yes | Highly variable genes | Probabilistic, latent variable models, auto-encoding variational bayes | Python | https://docs.scvi-tools.org/en/stable/user_guide/models/destvi.html | [[16](javascript:;)] | 04.21.2022 (05.11.2021) |
STdeconvolve | Yes | Highly variable genes | Generative probabilistic model: latent Dirichlet allocation (LDA), variational expectation–maximization algorithm | R | https://jef.works/STdeconvolve/ | [[18](javascript:;)] | 04.29.2022 (06.16.2021) |
每一种方法的大致原理可以去看看文献的细节部分,在这里,作者使用多个真实ST数据集,涵盖了单细胞水平和点(spot)水平的ST数据,并且每个数据集都有病理学家的注释(表2),来系统地和客观地评估这些方法的性能。
Data | Type | Tissue | Reference | Link |
|---|---|---|---|---|
seqFISH+ | Single-cell resolution ST | Mouse olfactory bulb | [[5](javascript:;)] | https://github.com/CaiGroup/SeqFISH-PLUS |
10x | scRNA-seq | Mouse olfactory bulb | [[32](javascript:;)] | https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc = GSE121891 |
ISS | Single-cell resolution ST | Human heart | [[31](javascript:;)] | https://github.com/Moldia/heart |
10x | scRNA-seq | Human heart | [[31](javascript:;)] | European Genome-phenome Archive accession number: EGAS00001003996 |
Spatial Transcriptomics | Spot-level ST | Human heart | [[31](javascript:;)] | https://www.spatialresearch.org |
SMART-seq | scRNA-seq | Mouse brain | [[11](javascript:;)] | https://portal.brain-map.org/atlases-and-data/rnaseq/mouse-whole-cortex-and-hippocampus-smart-seq (Here we used the data released in October 2019) |
10x | Spot-level ST | Mouse brain | [[15](javascript:;)] | https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-11114/ |
Slide-seqV2 | Bead-level ST | Mouse brain | [[13](javascript:;)] | https://singlecell.broadinstitute.org/single_cell/study/SCP815/sensitive-spatial-genome-wide-expression-profiling-at-cellular-resolution#study-summary. |
osmFISH | Single-cell resolution ST | Mouse brain | [[9](javascript:;)] | http://linnarssonlab.org/osmFISH/. |
性能评估使用了三个指标:均方根误差(RMSE)、细胞类型间的距离相关性以及每种细胞类型与真实值的差异。较小的RMSE、较高的距离相关性和较小的与真实值的差异均表明性能更好。对于点级ST数据集,由于缺乏真实的点级细胞类型组成,评估推断结果具有挑战性。对于具有明确分层结构的组织(如大脑皮层区域),研究者们通过将精心匹配的单细胞级ST数据集作为“工作真实值”,来评估主要细胞类型的推断组成。
在小鼠嗅球(MOB)的空间转录组学(ST)数据上评估了解卷积方法的性能。使用来自seqFISH+平台的单细胞水平数据,该数据集包含10,000个基因的测量值,是目前单细胞水平ST数据中基因数量最多的之一。数据集中包含7个嗅球的视野(FOV),总共2050个单细胞。研究者将每个FOV裁剪成25个点,并仅保留包含非零细胞的点进行分析。
综合内部和外部参考的结果,RCTD、cell2location和stereoscope被证明是对外部参考和目标ST数据之间批次效应最稳健的方法。
为了进一步评估内部参考和外部参考之间的性能差异,并评估参考中缺失主要细胞类型的影响,我们使用发育中的人类心脏数据进行了分析。
在使用内部参考(即ISS单细胞)对从ISS数据构建的伪点进行解卷积时,Adroit、RCTD、stereoscope、DSTG和Tangram表现出优越的性能,能够成功将心房心肌细胞和心室心肌细胞分别映射到心房和心室主体,并且平滑肌细胞和心外膜细胞也正确映射到相应位置。
当使用外部参考时,只有RCTD和stereoscope能够捕捉到细胞类型预期的空间分布(补充图8)。与使用内部参考的结果相比,除了cell2location之外的所有方法都出现了性能下降(图3C)。在使用内部参考时,cell2location在不同点的细胞类型比例估计中显示出明显较小的变异(补充图7)。
为了评估这些方法在各种空间转录组学(ST)平台上的表现,分析了初级体感皮层区域(SSp),这是一个被广泛研究且结构良好的组织区域。其中单细胞ST数据来自osmFISH平台,而spots级ST数据来自10x Visium Spatial平台和Slide-seqV2平台。与空间转录组学v1.0相比,Visium和Slide-seqV2具有更高的分辨率:Visium的点直径为55微米(两个连续点的中心间距为100微米),Slide-seqV2的平均颗粒珠直径约为10微米。
使用内部参考时,Adroit、RCTD、stereoscope、DSTG和Tangram表现出色,RMSE较低。这些方法能够识别SSp区域的层状模式,尽管某些方法在特定细胞类型上存在困难。
与内部参考相比,切换到外部参考后,所有方法的性能都显著下降,主要表现为对某些细胞类型的低估和高估。
还有一些其他的细节可以看看文献原文,本次分享到这~