首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >空转反卷积方法哪家好:来看看主流的10种算法大比拼

空转反卷积方法哪家好:来看看主流的10种算法大比拼

作者头像
生信技能树
发布2025-07-08 19:11:09
发布2025-07-08 19:11:09
4810
举报
文章被收录于专栏:生信技能树生信技能树

空转数据的注释是一大难题,今天来看看2022年6月18号发表在Brief Bioinform.的一篇综述,文献标题为 《A comprehensive comparison on cell-type composition inference for spatial transcriptomics data》,总结并比较了10种最先进的计算策略。

空间转录组学技术主要分为两类:基于成像的方法和基于测序的方法。基于成像的方法(如smFISH、MERFISH和osmFISH)通过直接成像单个RNA分子,提供RNA表达水平的定量信息及其在单细胞中的空间定位。基于测序的方法(如10× Genomics Visium平台和Spatial Transcriptomics平台)则通过在带有位置条形码的逆转录引物上进行测序和计算重建,捕获组织样本中的基因表达。在相关文献中,“空间转录组学”(ST)是一个广义概念,而“Spatial Transcriptomics”则指特定的技术平台。

现有的空间转录组学(ST)技术受到空间分辨率与测量基因数量之间的权衡限制:成像技术可以达到单细胞甚至亚细胞分辨率,但通常只能高质量测量几百个基因,限制了其在探索性分析中的应用。测序技术可以测量全转录组水平的基因表达,但目前只能获得接近单细胞分辨率的点级数据,容易受到细胞类型组成差异的混杂影响。

这篇综述聚焦于空间转录组学(ST)数据的细胞类型解卷积方法,总结并比较了10种最先进的计算策略。文章首先详细介绍了这些方法的关键特点,包括所使用的统计方法、适用的ST数据类型以及方法的独特性。接着,通过六个真实ST数据集对这些方法的性能进行了评估。最后,文章提供了实际应用中的指南,并讨论了这些方法在真实数据中的优势和不足。需要注意的是,评估仅限于那些直接输出细胞类型比例的解卷积方法,而不包括那些提供其他空间解卷积指标(如细胞富集分数或锚点分数MIA和Seura)的方法。

研究发现,在不同组织和技术平台上,RCTD和stereoscope方法在推断细胞类型组成方面更为稳健和准确。

ST解卷积方法的总结

在这里,作者回顾了10种最先进的方法:Adroit、cell2location、DestVI、RCTD、STdeconvolve、stereoscope、spatialDWLS、SPOTlight、DSTG和Tangram。现有的ST数据解卷积方法大致可以分为三类:(图1,表1)

  • 概率方法:包括Adroit、cell2location、DestVI、RCTD、STdeconvolve 和stereoscope,这些方法明确或参数化地指定数据分布,并使用基于似然的方法进行推断;
  • 基于非负矩阵分解(NMF)和非负最小二乘法(NNLS)的方法:包括 spatialDWLS 和 SPOTlight,这些方法利用NMF和NNLS来估计细胞类型比例;
  • 其他方法:如 DSTG 和Tangram,通过一些特别设计的方法架构或损失函数来估计细胞类型比例,我们将这些方法宽泛地归类为其他方法。

每种方法的链接以及发表年限:

Method

Designed for ST data?

Feature selection

Inference method

Language

URLs

Reference

Published Time (bioRxiv first version)

stereoscope

Yes

Top 5000 highest expressed genes (optional)

Probabilistic, negative binomial distribution

Python

https://github.com/almaan/Stereoscope

[[19](javascript:;)]

10.09.2020 (12.13.2019)

RCTD

Yes

DE genes

Probabilistic, Poisson distribution, maximum likelihood

R

https://github.com/dmcable/spacexr

[[17](javascript:;)]

02.18.2021 (05.08.2020)

SPOTlight

Yes

Highly variable genes

Non-negative matrix factorization (NMF) along with non-negative least squares (NNLS)

R

https://github.com/MarcElosua/SPOTlight_deconvolution_analysis

[[21](javascript:;)]

02.05.2021 (06.04.2020)

Tangram

Yes

Union of cell type marker genes

Optimization of self-constructed loss function

Python

https://github.com/broadinstitute/Tangram

[[23](javascript:;)]

10.28.2021 (08.30.2020)

DSTG

Yes

2000 most variable genes

Semi-supervised graph convolutional network, adaptive moment estimation algorithm

Python

https://github.com/Su-informatics-lab/DSTG

[[22](javascript:;)]

01.22.2021 (10.21.2020)

cell2location

Yes

No selection

Probabilistic, negative binomial distribution, variational Bayesian inference

Python

https://cell2location.readthedocs.io/en/latest/

[[15](javascript:;)]

01.13.2022 (11.17.2020)

AdRoit

No

Genes enriched in one or more cell types or highly variable genes

Probabilistic, non-negative least squares regression

R

https://github.com/TaoYang-dev/AdRoit

[[14](javascript:;)]

10.22.2021 (01.04.2021)

spatialDWLS

Yes

Cell type marker genes

Dampened weighted least squares (DWLS)

R

https://giottosuite.com/

[[20](javascript:;)]

05.10.2021 (02.03.2021)

DestVI

Yes

Highly variable genes

Probabilistic, latent variable models, auto-encoding variational bayes

Python

https://docs.scvi-tools.org/en/stable/user_guide/models/destvi.html

[[16](javascript:;)]

04.21.2022 (05.11.2021)

STdeconvolve

Yes

Highly variable genes

Generative probabilistic model: latent Dirichlet allocation (LDA), variational expectation–maximization algorithm

R

https://jef.works/STdeconvolve/

[[18](javascript:;)]

04.29.2022 (06.16.2021)

测试数据

每一种方法的大致原理可以去看看文献的细节部分,在这里,作者使用多个真实ST数据集,涵盖了单细胞水平和点(spot)水平的ST数据,并且每个数据集都有病理学家的注释(表2),来系统地和客观地评估这些方法的性能。

Data

Type

Tissue

Reference

Link

seqFISH+

Single-cell resolution ST

Mouse olfactory bulb

[[5](javascript:;)]

https://github.com/CaiGroup/SeqFISH-PLUS

10x

scRNA-seq

Mouse olfactory bulb

[[32](javascript:;)]

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc = GSE121891

ISS

Single-cell resolution ST

Human heart

[[31](javascript:;)]

https://github.com/Moldia/heart

10x

scRNA-seq

Human heart

[[31](javascript:;)]

European Genome-phenome Archive accession number: EGAS00001003996

Spatial Transcriptomics

Spot-level ST

Human heart

[[31](javascript:;)]

https://www.spatialresearch.org

SMART-seq

scRNA-seq

Mouse brain

[[11](javascript:;)]

https://portal.brain-map.org/atlases-and-data/rnaseq/mouse-whole-cortex-and-hippocampus-smart-seq (Here we used the data released in October 2019)

10x

Spot-level ST

Mouse brain

[[15](javascript:;)]

https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-11114/

Slide-seqV2

Bead-level ST

Mouse brain

[[13](javascript:;)]

https://singlecell.broadinstitute.org/single_cell/study/SCP815/sensitive-spatial-genome-wide-expression-profiling-at-cellular-resolution#study-summary.

osmFISH

Single-cell resolution ST

Mouse brain

[[9](javascript:;)]

http://linnarssonlab.org/osmFISH/.

性能评估使用了三个指标:均方根误差(RMSE)、细胞类型间的距离相关性以及每种细胞类型与真实值的差异。较小的RMSE、较高的距离相关性和较小的与真实值的差异均表明性能更好。对于点级ST数据集,由于缺乏真实的点级细胞类型组成,评估推断结果具有挑战性。对于具有明确分层结构的组织(如大脑皮层区域),研究者们通过将精心匹配的单细胞级ST数据集作为“工作真实值”,来评估主要细胞类型的推断组成。

小鼠嗅球(MOB)数据上的评估

在小鼠嗅球(MOB)的空间转录组学(ST)数据上评估了解卷积方法的性能。使用来自seqFISH+平台的单细胞水平数据,该数据集包含10,000个基因的测量值,是目前单细胞水平ST数据中基因数量最多的之一。数据集中包含7个嗅球的视野(FOV),总共2050个单细胞。研究者将每个FOV裁剪成25个点,并仅保留包含非零细胞的点进行分析。

综合内部和外部参考的结果,RCTD、cell2location和stereoscope被证明是对外部参考和目标ST数据之间批次效应最稳健的方法。

图片
图片

发育中的人类心脏数据上的评估

为了进一步评估内部参考和外部参考之间的性能差异,并评估参考中缺失主要细胞类型的影响,我们使用发育中的人类心脏数据进行了分析。

在使用内部参考(即ISS单细胞)对从ISS数据构建的伪点进行解卷积时,Adroit、RCTD、stereoscope、DSTG和Tangram表现出优越的性能,能够成功将心房心肌细胞和心室心肌细胞分别映射到心房和心室主体,并且平滑肌细胞和心外膜细胞也正确映射到相应位置。

当使用外部参考时,只有RCTD和stereoscope能够捕捉到细胞类型预期的空间分布(补充图8)。与使用内部参考的结果相比,除了cell2location之外的所有方法都出现了性能下降(图3C)。在使用内部参考时,cell2location在不同点的细胞类型比例估计中显示出明显较小的变异(补充图7)。

图片
图片

小鼠SSp(感觉皮层)数据上的评估

为了评估这些方法在各种空间转录组学(ST)平台上的表现,分析了初级体感皮层区域(SSp),这是一个被广泛研究且结构良好的组织区域。其中单细胞ST数据来自osmFISH平台,而spots级ST数据来自10x Visium Spatial平台和Slide-seqV2平台。与空间转录组学v1.0相比,Visium和Slide-seqV2具有更高的分辨率:Visium的点直径为55微米(两个连续点的中心间距为100微米),Slide-seqV2的平均颗粒珠直径约为10微米。

使用内部参考时,Adroit、RCTD、stereoscope、DSTG和Tangram表现出色,RMSE较低。这些方法能够识别SSp区域的层状模式,尽管某些方法在特定细胞类型上存在困难。

与内部参考相比,切换到外部参考后,所有方法的性能都显著下降,主要表现为对某些细胞类型的低估和高估。

还有一些其他的细节可以看看文献原文,本次分享到这~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ST解卷积方法的总结
  • 测试数据
  • 小鼠嗅球(MOB)数据上的评估
  • 发育中的人类心脏数据上的评估
  • 小鼠SSp(感觉皮层)数据上的评估
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档