反褶积严重依赖于参考矩阵S形式的单个细胞类型特征信息的可用性和准确性,其中行表示特征id(基因或DNA甲基化位点),列表示细胞类型。这个参考矩阵通常作为反卷积方法的输入,以及需要从中推断细胞类型组成的数据集一起提供。理想的参考应包含感兴趣的样本中存在的所有细胞类型,包括在细胞类型之间具有较大变化的标记特征,数量相对较高且平衡。
由于细胞类型固有的复杂性、标记的非特异性以及分离它们的技术难度,通过实验或计算生成此类参考矩阵具有挑战性。同一组织的reference之间的不一致是另一个常见问题,尤其是基因表达数据。
细胞类型比例的bulk转录组学和DNA甲基化数据可以通过实验或计算生成。在它们之间,实验方法无疑更接近于实际的真相;然而,从实体组织标本中生成此类数据的程序具有挑战性。例如评估bulk转录组,需要同时测bulk 和scRNA,然后推断方法的准确性。
CIBERSORT 和 CIBERSORTx 通常得到推荐,其次是 MuSiC 和 EPIC。
早期的计算去卷积方法通常是针对芯片平台生成的数据而设计的,基于参考的方法MethylResolver、CIBERSORT等,还有refreeewas、BayesCCE和TOAST等无参考的方法,以及refreecellmix等半无参考的方法。针对基于测序的DNA甲基化数据,已经发表了多种去卷积方法,包括MethylPurify、Bayesian epiallele detection、PRISM、csmFinder + coMethy、ClubCpG和DXM。
空间转录组学技术能够在组织结构和空间组织的背景下分析转录组信息。在各种空间转录组学平台中,基于下一代的方法通常不具备每个spot的单细胞分辨率。因此,反卷积对于这些技术的下游细胞类型比例依赖分析是必要的。与非空间转录组反卷积方法类似,许多空间转录组反卷积方法依赖于来自相同或不同组织的scRNA-seq参考。空间转录组反卷积的基本方法各不相同。CARD、C-SIDE、RCTD、SpatialDecon、stereoscope等方法均基于回归建模。DestVI、CellDART、DSTG、Tangram、SD2、spSeudoMap和AntiSplodge等方法使用深度学习模型进行反卷积。基于最优传输的方法,如SpaOTsc和NovoSpaRc,也可以用于反卷积目的,尽管这些方法不是专门为解决这一任务而设计的。非负矩阵分解(NMF)方法,如SPOTlight和NMFreg,以及基于凸优化的方法,如CytoSPACE,也被用于反卷积空间转录组学数据。其他方法包括EnDecon(集成学习)、CellTrek(随机森林)、STRIDE(主题建模)和最初为单细胞注释分析开发的方法,如Seurat。
随着额外的数据维度,如成像和空间距离,新的空间数据反卷积方法正在出现。例如,Tangram可以利用组织学成像数据(如果有的话)进行空间转录组反卷积。此外,还有使用潜在Dirichlet分配模型的STdeconvolve和基于NMF的SPICEMIX等无参考方法。与最近甲基化数据反卷积的趋势类似,新的半无参考的空间转录组学方法,如Celloscope,允许合并每种细胞类型的基因标记的先验知识,而不需要外部单细胞数据集。
最近有一些关于空间转录组反卷积的基准研究。在常用的调查方法中,基于参考单细胞数据的方法往往比无参考单细胞数据的方法做得更好。相关文献越多,反卷积越准确。目前的共识是cell2location、RCTD和stereoscope是普遍较好的方法,其次是spatialDWLS。然而,其他推荐的方法各不相同,许多现有的反卷积方法在基准研究中仍未经过测试。基准测试结果的不一致是由多种原因造成的,包括不同的参考数据集、测试数据集、金标准和评估指标。
即评估分析方法的参考指标。
随着单细胞基因组学的不断进步,使用单细胞参考的计算方法可能会在提高去卷积的准确性和稳健性方面显示出优势。大多数基于转录组学和DNA甲基化的去卷积方法使用传统的统计方法来解决去卷积的线性混合模型。鉴于有大量可用的大规模 omics 数据(如 scRNA-seq 生成的数据),可以考虑采用更稳健的方法,如基于神经网络的模型。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。