首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >仅使用SingleR做单细胞亚群的生物学注释都拒稿吧!

仅使用SingleR做单细胞亚群的生物学注释都拒稿吧!

作者头像
生信技能树
发布2024-11-29 16:11:25
发布2024-11-29 16:11:25
2100
举报
文章被收录于专栏:生信技能树生信技能树

通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:

  • immune (CD45+,PTPRC),
  • epithelial/cancer (EpCAM+,EPCAM),
  • stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)

参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。

前面我们已经介绍了心肝脾肺肾等多个器官的上皮细胞的细分亚群, 以及免疫细胞里面的髓系和B细胞细分亚群:

虽然说到第二层次的降维聚类分群的时候,大家会有很多疑惑。但是肿瘤领域的单细胞转录组的第一层次降维聚类分群应该是很清晰的了,太多的文章给出来了大家汇总好的各个单细胞亚群的特异性基因列表,如下所示:

代码语言:javascript
复制
# 创建一个包含不同细胞类型及其对应标记基因的列表
Bcells <- c("PTPRC", "MS4A1", "CD79A", "CD19" )
Dendritic <- c("PTPRC", "IL3RA", "IRF7", "IRF8", "GZMB", "CD4", "CLEC4C", "PTGDS", "JCHAIN", "PLAC8", "PLD4", "TCF4", "BCL11A", "GPR183", "CCDC50", "LILRA4", "TSPAN13", "CLIC3", "MPEG1")
Endothelial <- c("CLEC14A", "PECAM1", "VWF", "CAV1", "EMCN", "CDH5", "MCAM", "IL3RA", "IGFBP7", "COL4A1", "COL4A2", "COL15A1", "SPARCL1", "A2M", "HSPG2", "PLVAP", "AQP1", "ENG", "RAMP2", "GNG11", "EGFL7", "CLDN5", "INSR")
Fibroblast <- c("COL1A1", "COL3A1", "WT1", "ACTA2", "CAV1", "COL1A2", "DCN", "SPARC", "COL6A1", "CCDC80", "LUM", "COL6A2", "COL6A3", "CALD1", "RARRES2", "MGP", "CTHRC1", "AEBP1", "POSTN", "COL5A2", "FBLN1", "TAGLN", "C1S", "C1R", "NNMT", "MMP2", "IGFBP5", "TIMP1", "FN1", "IGFBP7", "C3", "COL5A1", "LGALS1")
Myeloid <- c("PTPRC", "CD14", "FCER1G", "FCGR3A", "LYZ", "CTSS", "CD33", "CD68", "CD163", "ITGAX", "ITGAM", "CD4", "MRC1", "VSIG4", "SPP1", "APOE", "C1QA", "C1QB", "C1QC", "APOC1", "FTL", "S100A9", "TYROBP", "AIF1", "CD74", "PSAP", "CTSB")
Epi <- c("WFDC2", "CD24", "CLDN3", "KRT7", "KRT8", "KRT17", "KRT18", "KRT19", "EPCAM", "WT1", "CLDN4", "MSLN", "FOLR1", "MUC1")
Plasma <- c("PTPRC", "IGKC", "IGHG1", "CD79A", "IGHG2", "IGLC2", "IGLC3", "IGHG3", "IGHG4", "JCHAIN", "MZB1", "XBP1")
Tcells <- c("PTPRC", "CD2", "CD3D", "TRAC", "GZMA", "NKG7", "CD3E", "CD3G", "CD4", "TCF7", "CD8A", "PRF1", "GZMB", "CCL5", "CCL4", "IL32", "CD52")
Mast <- c("PTPRC", "KIT", "CPA3", "CTSG", "MS4A2", "TPSAB1", "TPSB2", "HPGD", "HPGDS", "GATA2")
SMC=c('NOTCH3','RGS5','NDUFA4L2','MYH11','COX4I2','PLN')
cycle=c('RRM2','MKI67','BIRC5','UBE2C','TOP2A','AURKB')

只需要把上面的基因列表拿去大家自己的肿瘤相关单细胞转录组降维聚类分群结果里面可视化,就可以很清晰的分辨出来不同生物学名字。比如这个2024的单细胞数据挖掘文章里面的卵巢癌单细胞《Single-cell sequencing reveals PTX3 involvement in ovarian cancer metastasis》,如下所示20万个细胞很容易给出来第一层次降维聚类分群的生物学名字:

20万个细胞很容易给出来第一层次降维聚类分群的生物学名字

但是仍然是有很多人不去学习这些亚群背后的生物学意义

学习这些单细胞亚群的层次结构确实是需要一点时间,比如我做肿瘤的就不太想去看视网膜相关的分群,也不想看脑区域神经元相关的,再比如心血管细胞类型包括心肌细胞、成纤维细胞、内皮细胞、平滑肌细胞(SMC)、周细胞、免疫细胞、神经元和神经胶质细胞以及脂肪细胞。

但是,如果大家都要发肿瘤相关单细胞数据挖掘文章, 还不用心学习就有点说不过去了,比如这个新鲜出炉的口腔癌的单细胞数据挖掘文章:《Identification and analysis of a cell communication prognostic signature for oral squamous cell carcinoma at bulk and single-cell levels》,第一层次降维聚类分群就是简单的跑了一下SingleR做单细胞亚群的生物学注释,然后就没有然后了。。。。

简单的跑了一下SingleR做单细胞亚群的生物学注释

图丑爆了就先不说,感觉是最后定下来了单细胞亚群的生物学注释很明显就不符合逻辑的啊,口腔癌的肿瘤样品里面为什么有皮肤角质细胞呢,完全可以一起命名为上皮细胞,然后取上皮细胞子集去走inferCNV看拷贝数变异,走NMF看肿瘤个体异质性啊。还有就是里面的CMP是什么鬼呢?里面的tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞啊。

tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 但是仍然是有很多人不去学习这些亚群背后的生物学意义
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档