前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >空间组学反卷积分析的挑战与展望

空间组学反卷积分析的挑战与展望

原创
作者头像
追风少年i
发布2024-05-14 11:55:06
1770
发布2024-05-14 11:55:06

作者,Evil Genius

破译细胞类型异质性对于系统地理解组织稳态及其在疾病中的失调至关重要。计算反卷积是从各种组学数据中估计细胞型丰度的有效方法。

参考文献

任何复杂组织的生物学都直接依赖于细胞,细胞是生物功能的基本单位。据估计,人体内有200多种不同类型的细胞。实际上,多细胞生物中的所有组织都是异质的,由多种细胞类型组成。因此,细胞类型异质性在许多生物医学领域都是至关重要的。例如,细胞类型异质性在癌症治疗中受到越来越多的关注。肿瘤微环境的状态,包括细胞类型、比例及其与肿瘤细胞的相互作用,对治疗效果、转移和生存均有显著影响。因此,破译细胞类型异质性对于系统地理解健康状态下的体内平衡和疾病状态下的失调至关重要。

破译每种组织的实验方法既昂贵又耗时,而且仅限于某些类型的细胞,而且即使在检测到的细胞类型中也会受到杂质的影响。为了克服这些问题,被称为“细胞型去卷积”的替代计算过程已经成为基因组学领域的一个重要研究方向。去卷积旨在估计异质混合样本中不同细胞类型比例的计算技术。在数学上,计算去卷积的问题可以表述为E = S × C。E 是大量组织级特征表示矩阵,可通过将表示细胞类型特异性特征的参考矩阵 S 乘以细胞类型比例矩阵 C 来建模。这种广义矩阵分解过程可以通过确定性线性模型、概率模型或深度学习方法来求解。许多基因组学数据类型受益于这样的计算进步,如基因表达、表观遗传学和空间组学。

Overview of computational deconvolution in various genomics data types and related challenges
Overview of computational deconvolution in various genomics data types and related challenges

尽管不同组学的基本计算原理相似,但数据类型重点关注计算去卷积方法的三个主要组学应用:bulk组织基因表达、DNA 甲基化、空间转录组学(ST)数据。

Challenge 1: reference data quality

反褶积严重依赖于参考矩阵S形式的单个细胞类型特征信息的可用性和准确性,其中行表示特征id(基因或DNA甲基化位点),列表示细胞类型。这个参考矩阵通常作为反卷积方法的输入,以及需要从中推断细胞类型组成的数据集一起提供。理想的参考应包含感兴趣的样本中存在的所有细胞类型,包括在细胞类型之间具有较大变化的标记特征,数量相对较高且平衡。

由于细胞类型固有的复杂性、标记的非特异性以及分离它们的技术难度,通过实验或计算生成此类参考矩阵具有挑战性。同一组织的reference之间的不一致是另一个常见问题,尤其是基因表达数据。

Challenge 2: ground truth data generation

细胞类型比例的bulk转录组学和DNA甲基化数据可以通过实验或计算生成。在它们之间,实验方法无疑更接近于实际的真相;然而,从实体组织标本中生成此类数据的程序具有挑战性。例如评估bulk转录组,需要同时测bulk 和scRNA,然后推断方法的准确性。

3、Challenge 3: limitations of computational methodologies

一、Transcriptomics-based deconvolution methods(bulkRNA)

CIBERSORT 和 CIBERSORTx 通常得到推荐,其次是 MuSiC 和 EPIC。

 不同基准研究之间缺乏一致性
不同基准研究之间缺乏一致性

二、DNA methylation-based deconvolution methods

早期的计算去卷积方法通常是针对芯片平台生成的数据而设计的,基于参考的方法MethylResolver、CIBERSORT等,还有refreeewas、BayesCCE和TOAST等无参考的方法,以及refreecellmix等半无参考的方法。针对基于测序的DNA甲基化数据,已经发表了多种去卷积方法,包括MethylPurify、Bayesian epiallele detection、PRISM、csmFinder + coMethy、ClubCpG和DXM。

三、Spatial transcriptomics-based deconvolution methods

空间转录组学技术能够在组织结构和空间组织的背景下分析转录组信息。在各种空间转录组学平台中,基于下一代的方法通常不具备每个spot的单细胞分辨率。因此,反卷积对于这些技术的下游细胞类型比例依赖分析是必要的。与非空间转录组反卷积方法类似,许多空间转录组反卷积方法依赖于来自相同或不同组织的scRNA-seq参考。空间转录组反卷积的基本方法各不相同。CARD、C-SIDE、RCTD、SpatialDecon、stereoscope等方法均基于回归建模。DestVI、CellDART、DSTG、Tangram、SD2、spSeudoMap和AntiSplodge等方法使用深度学习模型进行反卷积。基于最优传输的方法,如SpaOTsc和NovoSpaRc,也可以用于反卷积目的,尽管这些方法不是专门为解决这一任务而设计的。非负矩阵分解(NMF)方法,如SPOTlight和NMFreg,以及基于凸优化的方法,如CytoSPACE,也被用于反卷积空间转录组学数据。其他方法包括EnDecon(集成学习)、CellTrek(随机森林)、STRIDE(主题建模)和最初为单细胞注释分析开发的方法,如Seurat。

随着额外的数据维度,如成像和空间距离,新的空间数据反卷积方法正在出现。例如,Tangram可以利用组织学成像数据(如果有的话)进行空间转录组反卷积。此外,还有使用潜在Dirichlet分配模型的STdeconvolve和基于NMF的SPICEMIX等无参考方法。与最近甲基化数据反卷积的趋势类似,新的半无参考的空间转录组学方法,如Celloscope,允许合并每种细胞类型的基因标记的先验知识,而不需要外部单细胞数据集。

最近有一些关于空间转录组反卷积的基准研究。在常用的调查方法中,基于参考单细胞数据的方法往往比无参考单细胞数据的方法做得更好。相关文献越多,反卷积越准确。目前的共识是cell2location、RCTD和stereoscope是普遍较好的方法,其次是spatialDWLS。然而,其他推荐的方法各不相同,许多现有的反卷积方法在基准研究中仍未经过测试。基准测试结果的不一致是由多种原因造成的,包括不同的参考数据集、测试数据集、金标准和评估指标。

 Comparison among different spatial transcriptomics benchmark studies
Comparison among different spatial transcriptomics benchmark studies

Challenge 4: benchmarking design and implementation

即评估分析方法的参考指标。

关于高质量参考数据生成的建议

  • 高质量的单细胞数据:在最近发表的《人类肺细胞图谱》 中,作者整合了来自 49 个数据集的 486 个捐赠者的 240 万个细胞数据,这需要广泛收集数据、开发数据整合基准方法,以及结合计算和人工方法来优化细胞注释。未来的研究也需要类似的大量工作,以确保参考数据的质量和真实性。

关于计算方法新方向的建议

随着单细胞基因组学的不断进步,使用单细胞参考的计算方法可能会在提高去卷积的准确性和稳健性方面显示出优势。大多数基于转录组学和DNA甲基化的去卷积方法使用传统的统计方法来解决去卷积的线性混合模型。鉴于有大量可用的大规模 omics 数据(如 scRNA-seq 生成的数据),可以考虑采用更稳健的方法,如基于神经网络的模型。

  • 空间转录组组学的特点:在去卷积spot时需要考虑空间邻域效应;空间转录组学数据中会有更多噪声。

文章在Challenges and perspectives in computational deconvolution of genomics data(nature methods,2024年2月)

生活很好,有你更好

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 作者,Evil Genius
  • 破译细胞类型异质性对于系统地理解组织稳态及其在疾病中的失调至关重要。计算反卷积是从各种组学数据中估计细胞型丰度的有效方法。
  • 参考文献
  • 任何复杂组织的生物学都直接依赖于细胞,细胞是生物功能的基本单位。据估计,人体内有200多种不同类型的细胞。实际上,多细胞生物中的所有组织都是异质的,由多种细胞类型组成。因此,细胞类型异质性在许多生物医学领域都是至关重要的。例如,细胞类型异质性在癌症治疗中受到越来越多的关注。肿瘤微环境的状态,包括细胞类型、比例及其与肿瘤细胞的相互作用,对治疗效果、转移和生存均有显著影响。因此,破译细胞类型异质性对于系统地理解健康状态下的体内平衡和疾病状态下的失调至关重要。
  • 破译每种组织的实验方法既昂贵又耗时,而且仅限于某些类型的细胞,而且即使在检测到的细胞类型中也会受到杂质的影响。为了克服这些问题,被称为“细胞型去卷积”的替代计算过程已经成为基因组学领域的一个重要研究方向。去卷积旨在估计异质混合样本中不同细胞类型比例的计算技术。在数学上,计算去卷积的问题可以表述为E = S × C。E 是大量组织级特征表示矩阵,可通过将表示细胞类型特异性特征的参考矩阵 S 乘以细胞类型比例矩阵 C 来建模。这种广义矩阵分解过程可以通过确定性线性模型、概率模型或深度学习方法来求解。许多基因组学数据类型受益于这样的计算进步,如基因表达、表观遗传学和空间组学。
  • 尽管不同组学的基本计算原理相似,但数据类型重点关注计算去卷积方法的三个主要组学应用:bulk组织基因表达、DNA 甲基化、空间转录组学(ST)数据。
  • Challenge 1: reference data quality
  • Challenge 2: ground truth data generation
  • 3、Challenge 3: limitations of computational methodologies
  • 一、Transcriptomics-based deconvolution methods(bulkRNA)
  • 二、DNA methylation-based deconvolution methods
  • 三、Spatial transcriptomics-based deconvolution methods
  • Challenge 4: benchmarking design and implementation
  • 关于高质量参考数据生成的建议
  • 关于计算方法新方向的建议
  • 文章在Challenges and perspectives in computational deconvolution of genomics data(nature methods,2024年2月)
  • 生活很好,有你更好
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档