文章标题: Single-cell transcriptome sequencing reveals aberrantly activated inter-tumor cell signaling pathways in the development of clear cell renal cell carcinoma 发表时间:2024-01-08 发表杂志:Journal of Translational Medicine 影响因子:8.448 在线阅读链接:https://translational-medicine.biomedcentral.com/articles/10.1186/s12967-023-04818-9
背景:异常的细胞内或细胞间信号通路是导致癌症发展和恶化的重要机制。然而,与透明细胞肾细胞癌(clear cell renal cell carcinoma:ccRCC)发展相关的细胞间通讯目前尚不清楚。本研究的目的是检查 ccRCC 发展过程中异常的肿瘤细胞间通信信号。
方法:对 6 个 ccRCC 和 6 个正常肾组织的 scRNA-seq 数据进行了分析。该分析包括亚聚类、CNV分析、单细胞轨迹分析、细胞间通讯分析和转录因子分析。此外,作者使用多重免疫荧光对临床样本进行了验证测试。
结果:这项研究在ccRCC样本的肿瘤簇中鉴定了11个异常激活的细胞间信号通路。其中,MIF和SPP1这两个主要的信号分子主要由癌症干细胞的一个亚群分泌。该亚群表现出癌症干细胞标志物 POU5F1 和 CD44 (POU5F1 hi CD44 hi E.T) 的高表达水平,转录因子 POU5F1 调节 SPP1 的表达。进一步的研究表明,SPP1 与靶细胞表面的整合素受体结合,并通过激活潜在的信号机制(如 ILK 和 JAK/STAT)促进 ccRCC 的发生和进展。
本文中使用 6 个 ccRCC( ccRCC原本有7个,去掉了一个质量低的样本) 和 6 个正常肾组织的 scRNA-seq 数据。从文献的方法部分,我们可以得知使用的单细胞数据是GEO数据库中的GSE159115数据集,链接为:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE159115。然而GSE159115数据集下面有14个样本,所以需要进行样本筛选。我们下载Series Matrix File去获得样本信息。

在R中进行处理,可以看到在data_need中是13个样本,与文献描述一致,至于文献中删除了哪个低质量的ccRCC样本,有兴趣的小伙伴可以自行实战哦,记得检查一下数据质量。
library("data.table")
library("stringr")
rm(list=ls())
data <- fread("GSE159115_series_matrix.txt.gz",header=F,fill=T)
# 得到所需要的信息行
k1 <-str_detect(data$V1,"Sample_characteristics_ch1")
k2 <- data$V1 == "ID_REF"
data2<- data[k1 | k2,]
data3 <- t(data2)
# k1 中是ccRCC样本(7个),k2中是正常样本(6个)
k1 <- str_detect(data3[,3],"Clear")
k2 <- str_detect(data3[,2],"Benign")
# 其中第二列是样本ID
data_need <- data3[k1 | k2,][,c(2,5)]
rownames(data_need) = NULL
data_need
# [,1] [,2]
#[1,] "tissue: Tumor" "GSM4819725"
#[2,] "tissue: Tumor" "GSM4819726"
#[3,] "tissue: Benign Adjacent" "GSM4819727"
#[4,] "tissue: Tumor" "GSM4819728"
#[5,] "tissue: Benign Adjacent" "GSM4819729"
#[6,] "tissue: Benign Adjacent Cortex" "GSM4819730"
#[7,] "tissue: Benign Adjacent Medulla" "GSM4819731"
#[8,] "tissue: Tumor" "GSM4819733"
#[9,] "tissue: Benign Adjacent" "GSM4819734"
#[10,] "tissue: Tumor" "GSM4819735"
#[11,] "tissue: Benign Adjacent" "GSM4819736"
#[12,] "tissue: Tumor" "GSM4819737"
#[13,] "tissue: Tumor" "GSM4819738"
数据集提供的是h5格式的文件。
GSM4819725_SI_18854_filtered_gene_bc_matrices_h5.h5 8.1 Mb
GSM4819726_SI_18856_filtered_gene_bc_matrices_h5.h5 3.8 Mb
GSM4819727_SI_18855_filtered_gene_bc_matrices_h5.h5 6.2 Mb
GSM4819728_SI_19704_filtered_gene_bc_matrices_h5.h5 3.2 Mb
GSM4819729_SI_19703_filtered_gene_bc_matrices_h5.h5 12.7 Mb
GSM4819730_SI_21255_filtered_gene_bc_matrices_h5.h5 2.5 Mb
GSM4819731_SI_21256_filtered_gene_bc_matrices_h5.h5 2.0 Mb
GSM4819732_SI_21561_filtered_gene_bc_matrices_h5.h5 13.0 Mb
GSM4819733_SI_22369_filtered_gene_bc_matrices_h5.h5 2.6 Mb
GSM4819734_SI_22368_filtered_gene_bc_matrices_h5.h5 4.9 Mb
GSM4819735_SI_22605_filtered_gene_bc_matrices_h5.h5 6.8 Mb
GSM4819736_SI_22604_filtered_gene_bc_matrices_h5.h5 9.5 Mb
GSM4819737_SI_23459_filtered_gene_bc_matrices_h5.h5 25.6 Mb
GSM4819738_SI_23843_filtered_gene_bc_matrices_h5.h5 14.2 M
关于读取不同格式的单细胞转录组数据的方法可参考我们之前的推文哦:【读取不同格式的单细胞转录组数据及遇到问题的解决办法】
肾细胞癌(RCC)是泌尿系统内最致命的肿瘤,透明细胞肾细胞癌(ccRCC)是最普遍的组织学亚型。异常的细胞间通讯可导致不受控制的细胞增殖,可能导致肿瘤发生和恶化。大多数RCC起源于肾小管上皮细胞。目前,对RCC驱动因素的研究主要依赖于基因组改变、表观遗传学、普通转录组学和蛋白质组学特征。随着单细胞转录组测序(scRNA-seq)的不断进步,我们有机会深入了解肿瘤微环境(TME)内复杂的细胞相互作用。scRNA-seq使我们能够彻底检查肿瘤细胞和正常细胞之间的差异,跟踪细胞生长和分化的路径,并阐明细胞之间的通信网络。
细胞间通讯涉及通过介质将信息从一个细胞传递到另一个细胞以引起反应。正常的细胞间通讯对于保持多细胞生物的正常组织功能至关重要。TME细胞之间的信号传递主要通过细胞间的直接接触或旁分泌信号分子(如细胞因子、趋化因子、生长因子和蛋白水解酶)的作用发生。TME中的细胞通过受体和配体进行交流,在癌症中形成一个复杂的信号网络,该网络与多种行为密切相关,包括癌细胞增殖和免疫逃逸。破坏或干扰细胞间通讯中的恶性信号转导是未来癌症治疗策略的关键靶点。鉴于目前的研究状态和细胞间通讯信号在肿瘤中的重要作用,本文的研究重点是在ccRCC发展过程中肿瘤细胞间信号通路。
构建了一个包含 15,816 个高质量单细胞和 23,541 个基因的图谱,并将这些细胞分为 21 个不同的簇(图 1A)。

根据经典细胞标记基因的表达注释细胞簇(图1B),并最终将21个细胞簇分为9种不同的细胞类型(图1C)。在第 0、3、5、6 和 12 簇中,肿瘤细胞和上皮细胞之间的标记基因表达存在重叠,导致 ccRCC 组织中肿瘤细胞和上皮细胞的不准确区分(图 1B 中的上皮和肿瘤)。因此该文献暂时将 ccRCC 样本中的簇 0、3、5、6 和 12 标记为“上皮/肿瘤”。相反,肾组织中的簇 0、3、5、6 和 12 被证实为上皮细胞(图 1C)【图1C的最下方】。
根据注释结果,ccRCC样本的“上皮/肿瘤”组成比例为4252(33.91%),而正常肾组织样本的上皮细胞组成比例为1604(48.96%),共计5856个细胞(图1D)。差异表达的前 5 个基因代表了 9 种不同细胞类型的转录谱(图 1E)。


为了准确区分ccRCC组织中的“上皮/肿瘤”,文中使用四种方法对ccRCC组织中的4252个“上皮/肿瘤”细胞和正常肾脏组织中的1604个上皮细胞进行了深入分析,共计5856个细胞。最初采用亚群聚类分析将 5856 个细胞分为 15 个不同的亚群(图 2A)。
在ccRCC样本中鉴定了9个细胞簇,在正常样本中鉴定了10个细胞簇。值得注意的是,在两种类型的样本中都观察到簇 2、5、11 和 12,表明这些细胞具有可比的转录特征。相比之下,簇 3、4、6、10、13 和 14 是正常样本独有的,而簇 0、1、7、8 和 9 是 ccRCC 样本独有的(图 2B)。因此,文中注释了簇 2、5、11 和 12 以及来自正常样本的簇 3、4、6、10、13 和 14 作为上皮细胞。

随后,基于经典的ccRCC标记基因,文中发现簇0、1、2、5、7、8、9、11和12的CA9(carbonic anhydrase 9)和NDUFA4L2(NADH dehydrogenase (ubiquinone) 1 alpha subcomplex, 4-like 2)基因表达水平显著升高(图2C-E)。相反,其他簇(3、4、6、10、13 和 14)显示出明显的上皮细胞标志物表达,并且缺乏肿瘤特异性标志物,因此也表明这些簇是上皮细胞(图 2F)。

高水平的CNV与癌症的发展密切相关,可用于根据CNV识别可能的恶性细胞。使用来自正常肾组织的 1,604 个上皮细胞作为参考,我们发现 ccRCC 样本的簇 0、1、2、5、7、8、9、11 和 12 中的 CNV 水平显着升高(图 2G、H)。因此,来自 ccRCC 样本的簇 2、5、11 和 12 以及簇 0、1、7、8 和 9 被注释为肿瘤细胞。

单细胞轨迹分析验证注释结果
最后,文中使用scRNA-seq轨迹分析进一步验证了注释结果。首先构建了 15 个细胞簇的分化轨迹,并确定了 5 种不同的细胞状态(图 3A、B)。通过由细胞命运(cell fate)1 和细胞命运(cell fate)2 组成的发育轨迹可以观察到将上皮细胞转化为恶性细胞的过程(图 3C)。由6个细胞簇(3、4、6、10、13、14)组成的分化轨迹主要代表上皮细胞分化的轨迹和细胞状态1、5。由其余9个细胞簇组成的分化轨迹主要代表肿瘤细胞分化轨迹和细胞状态2,3,4(图.3D)。观察到 CA9 和 NDUFA4L2 在从上皮细胞到恶性细胞分化的一致轨迹上动态表达变化(图 3E、F)。

此外,在肿瘤细胞中,观察到与细胞增殖(TMSB10、IGFBP3)、迁移(CCL2)、信号转导(DUSP1)和其他行为相关的基因的激活(图3G)。由于 ccRCC 的肿瘤簇 2、5、11 和 12 保留了上皮细胞的转录特征,文中将其定义为上皮肿瘤细胞 (E.T) 并将它们标记为 C2-E.T,C5-E.T,C11-E.T 和 C12-E.T(图 3H)。就单个细胞的转录特征而言,这些E.T细胞表现出介于上皮细胞和恶性细胞之间的中间转录状态。起源于上皮细胞的癌症在发展的早期阶段保留了其上皮细胞特征。作者推测,这些E.T簇可能在肿瘤发展的早期阶段发挥关键作用,保留了与肿瘤发生相关的异常信息。

利用 CellChat R 软件包构建了 15 个簇的细胞间通讯图谱,包括来自正常样本和 ccRCC 样本的总共 5856 个细胞。首先,我们确定了 15 个细胞簇中对输出和输入信号贡献显著的前 14 条信号通路。在这些途径中,根据其贡献值排名前 5 位的是 MIF、ANGPTL、SPP1、MK 和 VISFATIN(图 4A)。与上皮细胞相比,肿瘤细胞的细胞间通讯网络表现出显着更高的相互作用次数和相互作用强度(图4B)。VEGF靶向治疗是晚期RCC的一线治疗。我们通过前 5 个信号通路以及 VEGF 信号通路确定了簇之间的复杂相互作用(图 4C)。

接着,通过计算每个小区组的几个网络中心性分数,确定了这六个信令网络中的关键发送者、接收者、中介和影响者(图 4D)。

此外,作者发现MIF-(CD74 + CXCR4)和MIF-(CD74 + CD44)是MIF信号通路贡献最大的配体-受体对(L-R对)。受体CXCR4和CD74在肿瘤细胞中的表达显著增加,表明肿瘤中MIF信号通路被激活(图4E)。在 SPP1 和 ANGPTL 信号通路中发现了 L-R 对,并确定相关基因在肿瘤细胞中显着升高(图 4F、G)。综上所述,这部分结果构建了15个细胞簇之间细胞间通讯的一般图谱。

正常上皮细胞之间的细胞间通讯对于维持生理功能至关重要。作者在六个关键的上皮细胞簇中鉴定了两种主要的生理性细胞间信号通路,SPP1 和 AVP(图 5A)。这些细胞簇之间的通讯主要由L-R对SPP1-(ITGAV + ITGB1)和AVP-AVPR1A介导(图5B,C)。特异性信号分子(SPP1、AVP)由细胞簇分泌,而表达相应受体的簇(ITGAV + ITGB1、ACPR1A)则作为靶细胞(图5D)。这些信号分子与靶细胞表面受体的相互作用建立了不同细胞簇之间的通讯通路。

接下来,作者从 ccRCC 样本的 9 个肿瘤簇中鉴定了 11 个异常激活的细胞间信号通路。在 C2-E.T簇 中观察到 MIF、SPP1 和 HGF 信号转导最强,而在C12-E.T簇中观察到ANGPTL和MK信号最强(图6A)。将11条信号通路分为不同的功能组:GROUP1代表炎症相关信号,GROUP2代表血管生成信号,GROUP3代表细胞增殖信号,GROUP4代表与细胞分化和存活相关的信号(图6B)。
作者专注于研究 TOP4 信号通路(MIF、ANGPTL、SPP1 和 VISFATIN),它们对细胞簇之间的细胞间信号转导贡献最大。对于MIF信号通路,MIF信号的主要发送方是C2-E.T 簇,而最关键的信号接收器是 C7-Tumor 簇。MIF信号的传输主要通过LR对MIF-(CD74 + CXCR4)和MIF-(CD74 + CD44)进行。除了CD44,它只在C2-E.T和C7肿瘤细胞簇中表达,所有受体和配体基因在这9个细胞簇中广泛表达(图6C)。我们使用相同的分析方法检查了 ANGPTL、SPP1 和 VISFATIN 信号通路(图 6D-F)。值得注意的是,C2-E.T 细胞簇也是 SPP1 信号的最主要发送者,而这些信号的主要影响者和接收者是 C1-肿瘤簇(图 6E 中的热图)。

细胞之间的通讯对于执行复杂的生物学功能至关重要,不同细胞群和信号通路之间的协调使这些功能成为可能。作者确定了分泌细胞的三种传出通信模式和靶细胞的四种传入通信模式,以协调信号传导。例如,在 C7 和 C8 肿瘤簇中,传出模式 1 协调 MK、EGF、PTN、GDF 和 EDN 等信号。在 C8 和 C9 肿瘤簇中,传入模式 1 协调 MIF、ANGPTL、MK 和 PTN 等信号(图 6G)。综上所述,肿瘤细胞簇相互作用的细胞间通讯信号更加丰富和复杂。

利用 SCENIC R 软件包 (v1.3.1) 分析了 ccRCC 样本中来自 9 个肿瘤簇的 4252 个细胞来鉴定 TF(转录因子)。在 C2-E.T簇中,作者鉴定了5种高转录活性TF(HNF4G、POU5F1、ARID3A、SOX4和IRF7)(图7A)。TF调控网络分析进一步揭示了15个靶向SPP1-(ITGAV + ITGB1)L-R对的TFs,其中POU5F1被确定为SPP1的关键调控因子(图7B)。随后,作者使用 AUCell 量化了 POU5F1 的活性,并在 C2-E.T簇 中观察到富集的 AUC 峰(图7C)。C2-E.T簇同时表现出POU5F1和CD44的高表达,这两个基因是癌症干细胞(CSCs)的公认标志物,表明C2-E.T簇中存在CSCs属性。因此,C2-E.T 簇被指定为 POU5F1 hi CD44 hi E.T 亚群。与上皮细胞相比,POU5F1在肿瘤细胞中的表达显著更高(图7D)。

最后,在ccRCC临床样本中观察到SPP1、POU5F1和CD44的强荧光信号,证实了上述现象在蛋白表达水平上(图7E)。鉴定了 CSC 的一个亚群,以及该亚群分泌的 SPP1 信号分子的潜在转录调控机制。

在细胞分泌后,SPP1信号分子与靶细胞表面的整合素受体(αβ1,由ITGAV和ITGB1编码)结合,促进细胞外信号传递到细胞内环境中。信号的转导导致靶细胞极性、基因表达、细胞存活和增殖。为了研究SPP1信号转导对肿瘤细胞的作用,作者分析了来自ccRCC样本的4252个肿瘤细胞和来自正常样本的1604个上皮细胞。整合素介导的信号转导通常需要激活粘附激酶,如黏着斑激酶(FAK)、SRC家族激酶和整合素连接激酶(ILK)。与上皮细胞相比,观察到肿瘤簇中ILK的表达显着升高(图8A-C)。ILK作为一种促增殖蛋白激酶,是整合素介导的细胞内信号转导的中心枢纽,激活下游通路,如PI3K/AKT、Wnt/β-catenin、MAPK等。观察到 JAK1 和 STAT3 在肿瘤细胞中显着过表达,它们是 JAK/STAT 通路的关键成员(图 8D-F)。
随后,作者研究了与癌细胞生物学行为相关的标记基因,并鉴定了12个在肿瘤细胞簇中富集的标记基因(图8G)。这些标记基因代表癌症的多种恶性表型,包括肿瘤发生(EGFR、MYC)、细胞侵袭(ITGB1 和 VIM)和血管生成 (VEGFA) 等。此外,这12个标记基因在肿瘤细胞中显著高表达(图8H,I)。

多重免疫荧光染色进一步显示 ccRCC 样品中 ILK、JAK1 和 STAT3 的表达升高(图 8J)。这些结果表明,SPP1信号通路可能通过激活靶细胞中的ILK、JAK/STAT等细胞内信号来促进恶性表型的发展。
