前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Nature | 如何讲肿瘤可塑性表型的故事,提供原始数据和代码

Nature | 如何讲肿瘤可塑性表型的故事,提供原始数据和代码

作者头像
生信菜鸟团
发布2025-03-06 21:42:41
发布2025-03-06 21:42:41
1000
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:Progressive plasticity during colorectal cancer metastasis
  • 中文标题:可塑性是癌症进展的标志,使细胞在转移过程中适应多种微环境
  • 发表日期:30 October 2024
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:Andrew Moorman | Karuna Ganesh
  • 文章链接:https://www.nature.com/articles/s41586-024-08150-0
  • 代码:https://github.com/dpeerlab/progressive-plasticity-crc-metastasis.git

Abstract

Para_01
  1. 随着癌症的发展,它们变得越来越具有侵袭性——转移性肿瘤对一线疗法的反应不如原发肿瘤,它们获得了对后续疗法的耐药性,并最终导致死亡。
  2. 突变在来自同一患者的原发性和转移性肿瘤之间大部分是保守的,这表明非遗传表型可塑性在癌症进展和疗法耐药性中起着重要作用。
  3. 然而,我们缺乏对转移细胞状态及其转换机制的理解。
  4. 在这里,在一组来自同一患者正常结肠、原发性和转移性结直肠癌的生物样本三联体中,我们展示了虽然原发肿瘤主要采用LGR5+肠道干细胞样状态,但转移瘤表现出进行性的可塑性。
  5. 癌细胞失去了肠道细胞的身份,并重新编程成一个高度保守的胎儿祖细胞状态,然后经历非经典分化为不同的鳞状和神经内分泌样状态,这一过程在转移过程中以及通过化疗而加剧,并与较差的患者生存率相关。
  6. 使用匹配的患者来源类器官,我们证明了转移细胞比其肠道谱系限制的原发肿瘤细胞在响应微环境信号时表现出更大的细胞自主多谱系分化潜能。
  7. 我们确定PROX1作为胎儿祖细胞状态下非肠道谱系的抑制因子,并且显示PROX1下调许可非经典重编程。

Main

Para_01
  1. 随着转移灶手术切除不常见,肿瘤进展过程中癌症细胞状态转换在患者中的情况仍然没有得到充分解决。
  2. 结直肠癌(CRC)提供了独特的机会来研究表型转换,其中匹配的原发肿瘤、正常结肠和转移灶(通常来自肝脏)的同时切除是标准护理。
  3. 虽然结直肠癌主要起源于LGR5+肠干细胞(ISCs)6,7,但在侵袭前沿的转移启动细胞进入了一种LGR5low(参考文献8,9),L1CAM+(参考文献10)的肿瘤再生状态。
  4. 然而,尽管从L1CAM+祖细胞发展而来的大转移瘤在临床上具有极其重要的意义,它们的表型状态、轨迹和依赖关系仍然没有得到充分描述。
Para_02
  1. 为了研究患者的转移进展,我们前瞻性地收集了来自31名接受同步半结肠切除术和转移切除术患者的匹配三联体样本,包括未经治疗的患者和接受术前化疗的患者。这些样本包括正常结肠、原发性结直肠癌和转移组织。
  2. 通过单细胞RNA测序(scRNA-seq)、多重免疫荧光和从匹配三联体中生成上皮类器官,我们发现CRC进展涉及三个不同的、有序的细胞状态转换:
  3. (1)从正常结肠中的分化肠道状态到富集在原发肿瘤中的LGR5+ISC样状态;
  4. (2)发育重编程到与上皮损伤相关的高度可塑性的胎儿样祖细胞状态;
  5. (3)表达非肠道谱系基因程序,包括鳞状和神经内分泌,这些基因程序在转移灶中富集。
  6. 来自分析的三联体的类器官显示,与同一患者的原发肿瘤细胞相比,转移细胞在体外具有更大的细胞内在可塑性,使它们能够在体内适应结肠和肝脏的不同微环境。
  7. 我们发现转录抑制因子PROX1在多个患者中与胎儿祖细胞状态协调诱导,并且其功能是抑制非肠道谱系基因。
  8. 在肿瘤进展过程中PROX1依赖的谱系限制丧失许可分化进入非典型谱系。
  9. 综上所述,我们的数据支持一种两阶段的转移可塑性模型,其中转移促进高度可塑的细胞状态,这些状态可以通过肿瘤微环境的线索诱导沿着多种轨迹分化。
Para_03
  1. 我们收集了来自31名接受同步切除结直肠肿瘤和转移瘤手术的微卫星稳定错配修复功能正常(MSS/pMMR)结直肠癌患者的原发性CRC、相邻正常结肠和转移组织(腹膜、肺、胸壁和29个肝标本)。
  2. 其中9名患者未接受治疗,而22名患者在手术前接受了基于5-氟尿嘧啶的化疗。
  3. 我们进行了单细胞RNA测序(31名患者中的83个样本),从用于单细胞RNA测序的单细胞悬液中衍生出类器官(15名患者中的29个样本),并在有组织的情况下进行了多重免疫荧光检测(21名患者中的72个样本)。
  4. 六名患者还从第二次异时性转移切除术中收集了额外的组织。
  5. 我们的单细胞RNA测序数据经过数据处理后捕获了47,437个高质量的上皮细胞谱(方法部分)。
  6. 我们对上皮细胞进行聚类,使用InferCNV区分癌细胞与正常细胞,并识别出预期的肠道细胞类型(扩展数据图2)。

Fig. 1: Non-canonical transcriptional programs in CRC are associated with metastasis and poor outcomes.

- 图片说明- 研究设计。从31名患者中收集了匹配的生物样本三联体,包括正常结肠、原发性结直肠癌(CRC)和转移灶,新鲜处理用于单细胞转录组学和类器官生成,并用甲醛固定和石蜡包埋用于多重免疫荧光分析。类器官用于体外功能研究或通过异位异种移植到盲肠或肝脏。- 所有CRC肿瘤细胞中的热点20模块。热图包含2,003个具有显著自相关(错误发现率<0.01)的高度可变基因,分为4个经典和6个非经典CRC衍生基因模块(方法和补充表4)。Dev.,发育。- 治疗(红点)和未经治疗(绿点)患者的转移瘤中模块比例分布;模块标签基于给定细胞中该基因模块的>0.75分位数评分(方法)。垂直线将经典肠道(右侧)与其他(左侧)细胞类型分开。- 每个患者样本中转移瘤与原发性衍生肿瘤模块比例的对数比。基于非经典(d)或经典(e)模块的积累。转移瘤显著富集表达非经典模块的细胞,而原发性肿瘤则富集表达经典模块的细胞(P=0.001,单侧秩和检验;方法)。- 模块富集与肿瘤复发(f)和供体患者生存状态(g)之间的关联。在两个独立的临床队列中展示了108名直肠腺癌(LARC32)患者和445名结肠腺癌(TCGA31)患者的关联情况。使用每个患者的批量转录组数据的ssGSEA计算富集评分(方法)。根据曼-惠特尼U检验统计量绘制每个基因模块,横轴表示远端复发,纵轴表示10年内新肿瘤事件或生存。- Abs.,吸收肠道;endo.,内胚层发育;inj.,损伤修复;int.,肠道;neuro.,神经内分泌;osteo.,成骨细胞;sec.,分泌肠道;squa.,鳞状。

Decreased ISC program in CRC metastases

Para_01
  1. 未经治疗的患者三联体提供了独特的机会来描述肿瘤进展到转移而没有治疗的混淆影响。因此,我们将初始分析限制在九名未经治疗的患者身上,共计13,935个细胞(扩展数据图3a)。
  2. 对这些未经治疗样本中的肿瘤上皮细胞进行主成分分析(PCA)显示,最强的变异轴(第一主成分PC)与ISC特征相对应(错误发现率FDR q < 0.04;补充表2),这与初级肿瘤含有较高比例的LGR5表达细胞的观察结果一致13,14。
  3. 使用基于我们未经治疗的正常结肠数据的新构建的ISC特征(扩展数据图3b、c和补充表2),我们发现肿瘤相对于分化的小肠细胞表达了高水平的ISC特征;然而,PC1代表了一种独特的基因程序趋势,在癌细胞中相对于ISC进一步增加,包括WNT信号通路基因(LGR5、EPHB2、ASCL2、TCF7)、胚胎发育基因(BMP7、SOX4、CYP2W1)和应激反应基因(UPR1、MTORC1)(扩展数据图3d-f和补充表3)。
Para_02
  1. 正常细胞表现出预期的严格细胞类型特异性基因表达(扩展数据图3g和补充表3),而未经治疗的癌细胞在同一细胞中共表达吸收性和分泌性肠细胞类型的程序以及ISC特异性基因(扩展数据图3g–j)。
  2. 这种显著的谱系多能性表明生理肠道层次结构的失调以及CRC中肿瘤特异性程序的获得15,这与在其他癌症中的观察结果一致11,16。
  3. 将我们的分析扩展到全部31名患者和47,437个细胞的队列中,结果显示,与小鼠CRC转移中描述的ISC依赖性8,17相反,人类转移瘤中的ISC程序表达水平低于原发肿瘤——特别是在化疗治疗的肿瘤中(扩展数据图4)。
  4. 综上所述,我们的患者数据显示,未经治疗的CRC肿瘤富含具有原始发育和混合谱系特征的ISC样程序,而在转移性肿瘤中ISC程序减少。

Non-canonical programs in metastases

Para_01
  1. 癌细胞中的弱细胞类型内基因相关结构(扩展数据图3g)反映了显著的失调,阻碍了标准注释方法,并促使我们寻找共表达基因(基因程序)的模块。
  2. 我们认为共表达的基因表达反映了生物功能所需的协调基因调控18,19,并且癌症中的表达高度依赖于上下文——因患者、局部环境和其他因素而异。
  3. 因此,我们使用Hotspot20来搜索仅在代表显著细胞状态的细胞亚群中具有共表达的基因模块。
  4. 与识别整个数据集中特征之间全局关系的度量(如皮尔逊相关性)不同21,22,Hotspot发现了在表型流形的局部细胞邻域内具有显著自相关的基因模块。
  5. 这些模块在患者间共享,并适应癌症中的基因多效性。
Para_02
  1. 热点识别了所有肿瘤中的上皮细胞中的37个基因程序,我们手动进行了整理、注释,并根据生物一致性将其分组为十个模块,这些模块在多个患者中共享(图1b,方法,扩展数据图5a-d和补充表4)。
  2. 局部模块对参数值的变化和数据降采样具有很高的鲁棒性,它们是特定于上下文的,因此会被标准分析所忽略(补充图2)。
Para_03
  1. 我们确定了四个模块对应于经典的肠道状态,包括ISC样(LGR5, ASCL2),分化吸收型(FABP2, KRT20)和分泌型(TFF3, TFF1)状态。
  2. 此外,六个非经典模块包含紧密共调控的基因,对应于非肠道分化细胞状态(图1b)。
  3. 一个模块共同表达L1CAM和EMP1,这两种基因已被独立证明标记低表达LGR5的CRC转移起始细胞9,10,以及与再生和治疗抵抗相关的其他基因,包括TACSTD2(编码TROP2)23,24、CD7025和OSMR26。
  4. 这些观察支持了一种离散的转移起始细胞群体的出现,具有肿瘤再生特性,与晚期人类癌症中的稳态ISC不同。
  5. 两个模块与这个损伤修复模块紧密聚集在一起,其中一个表达经典的上皮间质转化(EMT)标志物(CDH2, VIM),另一个表达内胚层发育基因(WNT5B, BMP4)。
  6. 值得注意的是,三个模块表达与分化非肠道细胞状态相关的基因,代表鳞状样(KRT5, ELF5)、神经内分泌样(NEUROD1, CHGB)和成骨样(MSX1, DLX5)谱系。
  7. 虽然正常结肠中含有一些肠内分泌细胞,但基因表达差异(例如,缺乏肠道转录因子CDX1和CDX2)和在癌细胞中的流行程度表明存在一种独特的肿瘤神经内分泌群体。
Para_04
  1. 非规范化的分化鳞状样和神经内分泌样模块存在于我们队列中的许多患者中,尽管程度不同(图1c)。
  2. 大多数细胞表达多种模块——通常是肿瘤ISC样、损伤修复、EMT和内胚层模块的组合——而更分化的模块如吸收性肠,则倾向于在一个细胞中独特地表达(扩展数据图5e-j)。
  3. 失去肠道特性并获得非规范化分化特性的细胞的显著性促使我们从空间上可视化这些细胞,并验证非规范化标记蛋白水平的表达。
  4. 对74个组织切片的多重免疫荧光分析(扩展数据图6a-f)显示,虽然原发肿瘤表现出异常的隐窝结构,但它们保留了定义肠道谱系的转录因子CDX27的表达。
  5. 此外,与同步切除的原发肿瘤相比,分化的肠道标记物CK20和ISC标记物OLFM4在转移灶中下调,而损伤修复标记物TROP2上调(扩展数据图6a,c-e)。

Non-canonical states associate with poor outcomes

Para_01
  1. 在匹配的肿瘤对中,我们发现转移瘤中含有显著更多的非规范表达细胞,比同时切除的原发肿瘤更多(P = 0.001,秩和检验;图1d、e)。
  2. 在一个独立的五名患者的队列中,这些患者先前的研究28提供了匹配的原发肿瘤和肝转移瘤样本,我们也检测到了广泛的非规范模块表达(在三名患者中的每一人至少47%的细胞表达了鳞状或神经内分泌模块)(扩展数据图6g),并且在转移性肿瘤中也观察到类似的非规范模块表达细胞的富集(P = 0.008,秩和检验)。
  3. 重要的是,我们在未经治疗的患者肿瘤中观察到了类似神经内分泌和鳞状样基因表达(图1c),这表明疗法不是进入非规范状态的前提条件。
  4. 与我们的单细胞数据一致,我们在多个转移性肿瘤切片中观察到了神经内分泌标记物CHGA和鳞状标记物CK5的蛋白表达(扩展数据图6a、b)。
  5. 非规范模块表达与转移和先前的化疗相关,并对应于结直肠癌共识分子亚型4(CMS4),该亚型与不良预后相关,而规范模块则对应于CMS2或CMS329(扩展数据图5e-h和6h、i)。
  6. 总之,我们的数据显示,在结直肠癌转移过程中,存在一种规范肠道谱系身份的逐渐丧失和非规范基因表达的获得。
Para_02
  1. 为了确定非规范模块表达是否可以作为临床结果的生物标志物,我们对两个独立的治疗前原发肿瘤的bulk RNA-seq数据集进行了单样本基因集富集分析(ssGSEA):包含445名I-IV期结肠腺癌患者的癌症基因组图谱(TCGA)队列和包含108名局部晚期(II-III期)直肠癌患者(LARC)的MSK队列。
  2. 非规范模块的表达与两个队列中的不良预后相关,包括手术后的肿瘤复发和生存期少于10年(图1f、g和扩展数据图6j、k)。
  3. 多变量回归分析,校正临床混杂因素,进一步验证了吸收性肠道模块表达与TCGA队列中疾病无进展生存率和总生存率增加的相关性,以及内胚层模块表达与相反结果的相关性(补充图3)。
  4. 我们的分析总体上表明,在未经治疗的原发肿瘤中可能存在表达非规范模块的亚群,并且在转移过程中这些模块会得到富集,它们与负面的临床结果相关联。

Stereotyped cell-state transitions in CRC

Para_01
  1. 为了阐明经典的到非经典的转变,我们使用了跨越转移进展的匹配样本,从患者KG146开始,其肿瘤细胞包含最广泛的表型状态(图2a)。
  2. 我们发现,在这些数据中代表最大变异轴的扩散成分(DC),即DC1,对应于一种经典的到非经典的过程——从分化的肠系谱到一个ISC状态,非经典的内胚层发育,最后是转移中的分化神经内分泌样和鳞状样状态(图2a,b)。
  3. 另外三个具有足够数量非经典状态细胞进行稳健分析的患者,其细胞状态的进展与KG146沿着顶部的DC显示相似(扩展数据图7a)。

Fig. 2: A conserved fetal progenitor intermediate bridges canonical and non-canonical states in CRC.

- 图片说明- 力导向布局展示了来自患者KG146(1,279个细胞)肝转移(met.)的细胞多样性,包括经典的和非经典的细胞状态。每个细胞根据其最大模块得分着色。- 在所有来自患者KG146的肿瘤细胞中观察到的DC1上的基因模块得分趋势(方法)。顶部:每行显示从第20百分位值(白色)到最大值(最高饱和度)沿DC1的模块得分。胎儿特征表达在非经典峰值之前达到顶峰。- 封闭箭头和开放箭头分别对应胎儿和主要终末非经典模块得分的第75百分位数。- 底部:肿瘤细胞沿DC1的位置。- 人胎儿结肠细胞的均匀流形逼近和投影(UMAP)嵌入。按发表的注释根据细胞类型着色,显示了孕早期(受精后6-11周)和孕中期(受精后12-17周)的细胞。- TA,过渡扩增细胞。- d-f,四个具有最多非经典细胞的患者(KG146、KG182、KG150和KG183)样本中表达>0.75分位得分的细胞比例(或核心胎儿特征,品红色矩形);d),我们队列中的所有样本(e)和ref. 28队列中的样本(f)。- 共享模块表达揭示了患者和队列之间从经典到非经典命运的一致性进展。

Para_02
  1. 内胚层发育模块处于典型状态和非典型状态之间这一点引起了我们的注意,因为暂时逆转到更发育原始的状态与再生以及肿瘤生物学有关。
  2. 大多数关于胎儿去分化的先前研究基于小鼠研究;因此,为了系统地表征人类内胚层状态,我们使用了来自人类细胞图谱的胎儿发育数据集。
  3. 在孕早期,结肠上皮细胞呈现出类似胎儿祖细胞的状态,而到了孕中期,可以清楚地辨别出肠道干细胞和分化的小肠状态(图2c)。
  4. 我们鉴定了113个在孕早期祖细胞相对于孕中期成熟结肠细胞差异表达的基因,并共同定义了一个人类肠道胎儿特征,该特征与小鼠特征有很大不同(扩展数据图7b、c)。
  5. 将我们的胎儿祖细胞特征绘制在肿瘤进展轴上,发现它标记了典型和非典型分化状态之间的明确中间状态(图2b)。
Para_03
  1. 许多胎儿特征基因在患者KG146、KG182、KG150和KG183的肿瘤中高度上调(补充表5)。
  2. 一组包含14个基因的核心集合,包括WNT基因(TCF7、PTK7),被四名患者共同分享,并且在转移灶中显著富集(P=0.0004,秩和检验)。
  3. 这表明这些基因促进了向非典型命运的转变(扩展数据图7d、e)。
  4. 它们与现有的去分化特征签名重叠不多,后者更偏向于肠道特征,并且主要是从小鼠中推导出来的(扩展数据图7b、c)。
Para_04
  1. 每个包含足够非典型细胞以评估进展的肿瘤都表现出从分化的肠状态到肿瘤干细胞样状态、胎儿祖细胞状态,最后是分化非典型状态的逐步进展(图2a、b和扩展数据图7a)。
  2. 为了分析队列中剩余患者的进展情况,我们推断,如果大量细胞共表达两个热点模块,则表明两种细胞状态之间存在伪有序,并且存在状态之间的转换。
  3. 对所有模块对的共现性分析揭示了我们队列中所有患者以及独立参考集ref. 28中的相同逐步进展(图2d-f)。
  4. 因此,我们的数据显示癌症进展涉及发育逆转,表现为在早期结肠祖细胞中观察到的原始去分化状态,伴随着显著的肠道谱系身份丧失和WNT相关早期发育程序的上调。
  5. 在LARC和TCGA队列中,治疗前原发肿瘤中胎儿祖细胞特征的高表达与无病生存期减少有关(扩展数据图7g,h)。
  6. 尽管在患者内部和跨患者存在肿瘤间和肿瘤内异质性,胎儿祖细胞状态似乎作为汇聚的肿瘤再生中间体发挥作用,连接了与不良临床结局相关的典型状态和侵袭性非典型状态。
Para_05
  1. Palantir轨迹推断分别应用于患者KG146、KG182和KG150,将胎儿特征置于鳞状和神经内分泌分支之间(方法,扩展数据图8a、b和补充表5),并提出了可能的驱动基因。
  2. WNT信号通路基因在这两个分支中均上调,而鳞状分化与YAP和IL-2信号通路相关,神经内分泌分化则与TGFβ信号通路相关,包括TGFB1和TGFBR1的上调以及TGFβ抑制剂SMAD7的下调(扩展数据图8c)。

Determinants of non-canonical states

Para_01
  1. 为了确定非规范性分化是由癌症细胞自主变化驱动的,还是由结肠和转移微环境之间的差异引起的,我们生成了匹配的类器官模型,这些模型保留了来自相应患者肿瘤的突变(扩展数据图9a)。
  2. 为了控制微环境的影响,我们在标准的人类肠道干细胞(HISC)培养基中培养类器官,该培养基含有维持干细胞生态位的因子(图3a)。
  3. 我们首先关注从患者KG146原发肿瘤(OKG146P)和肝脏转移(OKG146Li)衍生的类器官,因为原发肿瘤主要包含规范状态,而转移则涵盖了从规范到非规范的完整谱系(图2b和扩展数据图9b、c)。

Fig. 3: Organoid models reveal distinct contributions of tumour and microenvironment to metastatic plasticity.

- 图片说明- 亮场显微镜显示单细胞接种(每40µl基质胶2000个细胞)7天后,从原发直肠肿瘤衍生(OKG146P)和肝脏转移衍生(OKG146Li)类器官在HISC培养基中生长的形态。- 标尺:500μm。- b, 每个细胞的状态分配概率,通过Markov吸收概率(方法部分)计算得到,用于在HISC(左)和IGFF(右)培养基中生长的OKG146P和OKG146Li类器官。- 线条表示分布在第5和第95百分位数之间的密度轮廓,点表示单个细胞。- Diff. int., 分化肠道状态。- c, 在NSG小鼠中,从OKG146P(原发肿瘤)和OKG146Li(转移灶)系注射200,000个细胞后的每周离体生物发光成像测量归一化的平均辐射度。- d, 在NSG小鼠中,从OKG146P(原发肿瘤)和OKG146Li(转移灶)系注射500,000个细胞后的每周离体生物发光成像测量归一化的平均辐射度。- 数据表示为n = 6(OKG146P)和n = 7(OKG146Li)小鼠的平均值±标准误差(c),以及n = 5(OKG146P)和n = 4(OKG146Li)小鼠的平均值±标准误差(d)。- 对于c和d,使用双侧Mann-Whitney秩和检验进行统计分析;比较终点信号时,P = 0.2246(c)和P = 0.0143(d)。源数据

Para_02
  1. 使用一种相互最近邻的方法来将肿瘤的表型状态映射到其衍生的类器官上,我们发现OKG146P保留了主要的ISC样表型,而OKG146Li则采用ISC样和内胚层祖细胞状态,并且观察到的体内非典型基因表达较少(图3b和扩展数据图9b-d)。
  2. 因此,我们测试了ISC培养基中的生长因子是否可能抑制非典型分化,发现确实去除它们会导致OKG146Li细胞失去肠道特征并获得非典型表达,而OKG146P细胞保留了肠道上皮基因表达——尽管分化的肠道标记物水平较高(图3b和扩展数据图9d)。
  3. 来自另外两名患者(OKG182CW2、OKG183Li2)的肝脏转移瘤,在从HISC切换到不含肠道生长因子(IGFF)的培养基后,同样降低了ISC标记物LGR5的表达,并增加了非典型和典型分化标记物的表达(扩展数据图9e,f)。
  4. 因此,在体内表现出更多非典型基因表达的肿瘤衍生的类器官中的癌细胞具有更大的细胞自主性可塑性,并能响应环境信号上调多种非典型谱系的基因。
Para_03
  1. 为了确定不同的内在适应结肠和肝脏微环境的能力是否在体内保留,我们将类器官异种移植到了NOD scid gamma(NSG)小鼠的盲肠(肠道微环境)中。
  2. 原发性和转移性衍生的类器官以相似的速度生长成了原位盲肠肿瘤(图3c),但OKG146P类器官在肝内注射后没有生长,而OKG146Li类器官则很容易适应了肝脏微环境(图3d)。
  3. 源自更典型的KG136肿瘤的类器官的肝内异种移植物也表现出类似的结果(扩展数据图9g,h)。
  4. 多重免疫荧光显示,OKG146Li衍生的异种移植物保留了分化为所有典型和非典型状态的能力(扩展数据图9i),这与患者的肝脏转移灶相似(扩展数据图6a,b)。
Para_04
  1. 为了研究治疗与非规范基因表达之间的关系,我们用一线化疗药物伊立替康对其半数抑制浓度剂量处理原发性和转移性器官oid 7天,发现非规范模块和胎儿特征的表达增加(扩展数据图10)。因此,无论是转移还是化疗——这两种上皮损伤形式都会破坏邻近上皮细胞之间的接触——都与具有多谱系肿瘤再生潜能的高度可塑性细胞状态相关联。

Discussion

Para_01
  1. 我们的独特资源是来自正常结肠、原发性和转移性CRC的生物样本三联体,使我们能够表征个体患者中可塑性的获得和向转移的发展。
  2. 尽管患者样本之间存在显著异质性,我们确定了一种广泛保守的细胞状态顺序——肠道状态首先在原发肿瘤中去分化为LGR5+ ISC样状态,并且侵袭性癌细胞进入一种受伤状态,表现为高表达L1CAM/EMP1,这与先前与转移起始细胞相关的状态有关9,10。
  3. 然后细胞过渡到一种高度保守的胎儿祖细胞状态,具有重新编程到鳞状样、神经内分泌样和其他状态的潜力,这些状态在人类CRC转移中高度富集。
  4. 我们的类器官实验表明,上皮细胞间接触的丧失首先诱导了一种高度可塑、多潜能的状态,在转移中富集,然后肿瘤微环境因素驱动向多种肠道和非肠道谱系的分化。
  5. 我们在转移瘤中发现的更大的细胞自主可塑性为转移与适应和逃避治疗的能力之间的紧密联系提供了机制解释。
Para_02
  1. 非规范状态特征与两个独立的未经治疗的原发性结直肠癌(CRC)队列中的不良预后相关。
  2. 因此,在原发肿瘤中会出现能够进入非规范状态的细胞,并且这些细胞可能在肿瘤进展过程中或通过治疗进一步诱导或选择出来。
  3. 我们发现非规范基因特征可以作为未来疾病复发和不良生存的预后生物标志物,这可用于识别最有可能从针对非规范状态的术前或术后辅助治疗中获益的患者,以防止大转移瘤的发生。
Para_03
  1. 原发性肿瘤细胞比其更具可塑性的转移性对应细胞更可能保持肠谱系,部分原因是由于 PROX1 的抑制作用。
  2. 我们的数据与一种模型一致,该模型描述了 PROX1 功能在经典分化到去分化再到非经典分化的连续过程中,根据环境依赖性而变化(图 4a、b)。
  3. 在早期肿瘤发生过程中,PROX1 作为肿瘤促进因子发挥作用,PROX1 水平的增加通过抑制经典分化来强化类似ISC的状态47。
  4. 随着侵袭前沿的肿瘤细胞进展为损伤修复和胎儿样状态,PROX1 抑制非经典分化,使细胞能够响应生态位因素重新分化为经典的肠道命运(伴随 PROX1 表达下调)。
  5. 相反,转移定植可能会选择那些已经发展出对 PROX1 抑制不敏感的细胞。
Para_04
  1. 我们在患者转移灶中识别出的非规范状态在结直肠癌转移的小鼠模型中未被捕捉到,这可能反映了在更长的时间尺度上生长,在患者体内通过更多的细胞分裂达到更大的尺寸。
  2. 我们的数据进一步表明,上皮损伤可以诱导非规范分化(扩展数据图10)。
  3. 患者的转移灶可能经历增殖和免疫编辑的循环,导致多次损伤-修复周期和临床休眠,这使非规范分化得以发生或选择性发生,直到最终形成大转移瘤。
  4. 大多数临床癌症基因组学研究集中在原发肿瘤上,尽管新的抗癌疗法几乎总是首先在晚期转移性疾病患者中进行测试。
  5. 我们在转移灶中发现的不同细胞状态的富集突显了从原发肿瘤推断的局限性,并强调了研究转移组织和患者转移灶衍生的体外模型的必要性,以便阐明治疗反应和可塑性机制。
Para_05
  1. 表型可塑性对癌症治疗构成了重大挑战,但识别出跨越多个患者的保守细胞状态和轨迹表明了未来有机会针对可塑性,可以通过靶向肿瘤再生损伤修复或胎儿样状态,或者通过阻断使动态进入抗性状态成为可能的分子机制。
  2. 尽管识别仅对癌细胞重编程且对正常组织稳态不重要的机制仍然是一个重要挑战,但我们在此提供了一张路线图,以理解和最终针对晚期癌症中的进行性可塑性。

Methods

Patient biospecimen procurement and processing

患者生物样本的采集和处理

Tissue collection

组织收集

Para_01
  1. 在MSKCC接受同步结直肠切除和转移灶切除的患者通过病历审查被识别出来,并且那些签署了MSK IRB协议06-107、12-245、14-244和22-404进行生物样本收集的术前知情同意书的患者被选为此研究的对象。
  2. 没有使用任何统计方法来预先确定样本量。
  3. 新鲜切除的手术组织在超出临床诊断需求的情况下被处理成单细胞悬液用于scRNA-seq分析,在有足够的组织可供使用的情况下,还被处理以生成类器官。
  4. 部分组织也被固定在甲醛中并包埋在石蜡中。
  5. 组织通常在手术切除后1小时内进行处理。
  6. 通过数据库搜索和病历审查,识别了用于免疫染色的存档甲醛固定、石蜡包埋(FFPE)临床组织块。
  7. 组织处理和组织病理学数据分析由一位胃肠病理学专家(J.S.)监督。
  8. 如果成功收集到正常结肠、原发性结直肠癌(CRC)和转移性结直肠癌三者的组织对,患者将通过MSK的MSK Darwin52系统纵向跟踪他们的临床过程,从任何后续程序中收集超出诊断需求的肿瘤组织。
Patient metadata

患者元数据

Para_01
  1. 临床数据,包括基线人口统计学数据和先前治疗(补充表1和补充图1),是通过董事会认证的医学肿瘤学家(M.L.和K.G.)对患者电子医疗记录的手动审查获得的,并作为机构审查委员会批准的协议(MSK IRB,14-244和22-404)的一部分收集。
  2. 每个治疗事件的时间是从诊断日期开始计算的,以便进行跨患者的比较。
  3. 研究数据是使用REDCap电子数据捕获工具收集和管理的,该工具托管在MSKCC的安全中央服务器上。
  4. 31名患者中有17名在手术时有多处转移病灶,并且手术后仍有超过50%的肿瘤部位残留。
  5. 31名患者中有17名患有早期发作的结直肠癌(诊断年龄小于50岁)。
  6. 针对肿瘤/正常组织的临床MSK-IMPACT靶向外显子测序是在31名患者中的27名患者身上进行的,并揭示了预期的突变(扩展数据图1b)。
  7. 与转移性结直肠癌中不足5%的比例(错配修复缺陷/微卫星不稳定性高)一致,我们队列中只有1名患者具有微卫星不稳定性不确定的肿瘤。
  8. 临床数据收集截止到2022年9月30日。
Tissue processing

组织处理

Para_01
  1. 我们收集了50-300毫克新鲜切除的外科组织,并将其置于5毫升的IGFF类器官培养基(Advanced DMEM/F12(AdDF12;赛默飞世尔科技),GlutaMAX(2 mM,赛默飞世尔科技),HEPES(10 mM,赛默飞世尔科技),N-乙酰-L-半胱氨酸(1 mM,西格玛奥德里奇),含维生素A的B27补充剂(赛默飞世尔科技))中,该培养基额外补充了primocin(100 μg ml−1,英维诺根),plasmocin(50 μg ml−1,英维诺根),青霉素-链霉素(100 μg ml−1,赛默飞世尔科技),两性霉素B(2.5 μg ml−1,凯特维亚),制霉菌素(250 U ml−1,密理博西格玛)。对于原发性和转移性肿瘤,使用无菌镊子将标本放入15厘米的培养皿中,并用上述抗生素混合物补充的DPBS(赛默飞世尔科技)清洗三次,然后用锋利的无菌刀片进行最小切割,以便使用预先湿润的25毫升血清移液管转移肿瘤碎片。
  2. For primary and metastatic tumours, specimens were placed into a 15 cm Petri dish using sterile forceps and washed three times with DPBS (Thermo Fisher Scientific) supplemented with the above-described antibiotic cocktail, and minimally chopped with sharp sterile blades to enable transfer of tumour fragments using a pre-wet 25 ml serological pipette.
Para_02
  1. 肿瘤碎片被转移到一个预先填充了5毫升IGFF培养基的gentleMACS类型C管(Miltenyi),该培养基添加了抗生素、DNase I(100 U ml−1,Millipore Sigma)和一种商业化的组织消化酶混合物(肿瘤解离试剂盒,Miltenyi)。
  2. 根据制造商的37C_h_TDK_1协议,使用gentleMACS八通道解离器对肿瘤进行消化,最多持续30分钟。
  3. 考虑到组织样本在细胞活力、免疫浸润、血液含量、坏死和钙化方面的异质性,每10分钟通过倒置显微镜评估一次肿瘤碎片的消化状态。
  4. 如果至少50%的肿瘤材料看起来已经分解成1到10个细胞的簇,则在不到30分钟时中断消化过程。
  5. 接下来,将细胞簇溶液通过100微米的细胞过滤器过滤,并用含有抗生素的DPBS清洗三次,每次离心步骤在室温下以100g的力离心3分钟。
  6. 最终的细胞悬液通过100微米的细胞过滤器过滤,清洗并在4摄氏度下以500g的力离心5分钟。
Para_03
  1. 非肿瘤组织被转移到一个预填充了25毫升解离/螯合缓冲液(8 mM EDTA,0.5 mM DTT,DNase I(100 U ml−1,Millipore Sigma))的50毫升试管中。
  2. 粘膜片段在4°C下温和旋转孵育,最长不超过30分钟。
  3. 每10分钟通过倒置显微镜评估一次组织片段的解离状态。
  4. 如果至少30%的粘膜材料看起来已经分解成包含1到5个结肠隐窝的簇,则在30分钟前中断解离。
  5. 接下来,通过1毫米细胞过滤器(PluriSelect)过滤隐窝溶液,将单个隐窝或小隐窝簇与未解离的大块粘膜组织分离。
  6. 使用等体积补充了抗生素的DPBS淬灭解离。
  7. 此时,将1毫米过滤器翻转并倒置到一个新的50毫升试管中。
  8. 最多向倒置的过滤器中闪入25毫升补充了抗生素的DPBS,以回收未解离的粘膜组织。
  9. 手动摇动粘膜组织碎片的悬浮液大约5次后,根据上述方法重新尝试收集结肠隐窝的簇。
  10. 根据过滤和手动振荡步骤的迭代,最多收集三个额外的隐窝悬浮液组分。
  11. 隐窝悬浮液用补充了抗生素的DPBS洗涤三次,每次离心步骤在室温下以100g离心3分钟。
  12. 根据倒置显微镜下的目视检查,选择一个或多个隐窝悬浮液进行后续处理,根据隐窝的大小和完整性。
  13. 如果单独的悬浮液被认为隐窝含量低,则可以选择分开处理或合并在一起处理。
Para_04
  1. 对于肿瘤组织和正常组织,如果在倒置显微镜下可见血液痕迹,则根据细胞团的大小重新悬浮在1-5毫升ACK裂解缓冲液(Lonza)中,并在室温下孵育5分钟。
  2. 随后使用三倍体积的含有抗生素的DPBS进行淬灭,然后再次洗涤以去除ACK残留。
  3. 得到的细胞团进一步处理用于单细胞RNA测序、类器官生成或两者兼有。
  4. 组织处理协议经过广泛且反复优化,以最大限度地回收高质量(低线粒体和核糖体含量)的可存活单细胞悬液,用于下游分析。
scRNA-seq

单细胞RNA测序

Para_01
  1. 细胞悬液通过40 μm细胞过滤器过滤,并在FACS缓冲液(10 mM HEPES,0.1 mM EDTA,0.1%FBS)中与DAPI(1 μg ml−1,Thermo Fisher Scientific)和calcein AM(Invitrogen)一起冰上孵育5分钟。
  2. 使用130 μm喷嘴(SH800S SONY分选仪)对存活的(calcein阳性)细胞进行分选,并收集到含有0.04%牛血清白蛋白(BSA)的DPBS中。
  3. scRNA-seq在Chromium仪器(10x Genomics)上进行,按照3′ RNA v3.1用户手册操作。
  4. 简而言之,FACS分选的细胞用含有0.04%BSA的DPBS洗涤一次,并重新悬浮至最终浓度为每微升700-1,300个细胞。
  5. 通过0.2%(w/v)Trypan Blue染色(Countess II)确认细胞活力高于80%。
  6. 细胞被捕获在液滴中,并进行逆转录和细胞条形码处理;然后破乳并将cDNA纯化,使用Dynabeads MyOne SILANE,随后根据手册说明进行PCR扩增。
  7. 每个样本的目标是多达10,000个细胞。
  8. 最终文库在Illumina NovaSeq S4平台上测序(R1,28个循环;i7,8个循环;R2,90个循环)。
Organoid generation and culture

类器官的生成和培养

Para_01
  1. 原发性和转移性CRC以及正常结肠类器官系按照先前所述方法建立10,43,54。
  2. 按照上述方法处理的细胞在4°C下以600g离心5分钟,然后重新悬浮在每40μl基质胶中含有2,000个细胞的溶液中。
  3. 在37°C下基质胶凝固后,向孔板中加入含有Y-27632的HISC培养基。
  4. 类器官每7-10天传代一次,并在三次传代后被认为是建立的。
  5. 对于非肿瘤类器官培养,HISC培养基中补充了人R-spondin 1(1 μg ml−1;Peprotech)和NGS-WNT(0.5 M,ImmunePrecise N000)。
  6. 培养基每3-4天更换一次。
  7. 类器官系被扩增并且早期传代的库存小瓶在液氮中冷冻保存。
Para_02
  1. 为了验证,类器官通过MSK-IMPACT53进行了目标外显子测序,并且关键的致癌基因组改变由OncoKB55确定(详见下文)。
  2. 来自原始肿瘤的诊断组织被测序以确认这些改变在每个衍生的类器官系中得到了保留。
  3. 在建立类器官和每次实验前都会基于短串联重复序列进行验证,并且定期检测支原体污染(使用Lonza的MycoALERT PLUS检测试剂盒)。
MSK-IMPACT

MSK-IMPACT

Para_01
  1. 使用MSK-IMPACT53进行了肿瘤和类器官靶向外显子测序。
  2. OncoKB精准肿瘤学知识库被用来区分致癌改变(假定驱动因素)和意义未知的变异(假定乘客)。OncoKB是由MSK专家维护的一个经过FDA认可的人类遗传变异数据库。
  3. 只有那些被OncoKB标记为致癌、可能致癌或预测为致癌的体细胞改变才被纳入分析。
  4. MSK-IMPACT数据分析管道可以在GitHub上获取(https://github.com/rhshah/IMPACT-Pipeline)。
  5. 基因组改变通过使用OncoKB注释工具(https://github.com/oncokb/oncokb-annotator)用OncoKB的信息进行注释。
FACETS

FACETS

Para_01
  1. 实体肿瘤中的拷贝数改变是通过使用FACETS(基于肿瘤测序的等位基因特异性拷贝数估算分数)算法从MSK-IMPACT计算得出的,该算法提供了基因和染色体臂层面的等位基因特异性拷贝数估算。
  2. FACETS还用于生成纯度校正的分割文件,以检测全基因组复制事件,推断体细胞突变的克隆性,评估臂级拷贝数变化,并生成突变等位基因拷贝数估算。

Computational data analysis

计算数据分析

scRNA-seq data pre-processing

scRNA-seq数据预处理

Alignment of sequencing reads

测序读段的比对

Para_01
  1. 所有单细胞RNA测序数据集均按如下步骤进行预处理:来自患者样本的FASTQ文件使用SEQC(v.2.7.0)管道处理,采用hg38人类基因组参考,使用默认参数和平台设置为10x Genomics v3 3′单细胞RNA测序试剂盒。
  2. SEQC(v.2.7.0)管道执行读取解复用、比对以及独特分子标识符(UMI)和细胞条形码校正,生成一个初步的细胞通过独特转录本计数矩阵。
  3. 默认情况下,该管道将基于(1)每个细胞的总转录本数量(细胞文库大小);(2)每个分子的平均读取数量(细胞覆盖度);(3)线粒体RNA含量;以及(4)独特基因数与文库大小的比例(细胞文库复杂性)来移除假定的空液滴和低质量细胞。
  4. 然而,由于结直肠上皮对解离的敏感性,我们观察到许多样本中细胞应激、凋亡和液滴污染的指标增加,包括高线粒体和环境RNA表达,这可能会掩盖从有意义的生物基因表达中得出的统计推断。
  5. 因此,典型的基于识别每个液滴的转录本数量急剧下降的自定义细胞过滤方法(即导致环境RNA水平‘平台期’的偏差),可能会影响提取有意义的生物学信息。
  6. 因此,我们试图系统地评估和纠正环境RNA表达,并使用CellBender(v.0.1.0)筛选真实的单细胞,如下面所述。

CellBender to subtract ambient RNA

CellBender用于扣除背景RNA

Para_01
  1. CellBender (v.0.1.0) 是一种用于从单细胞RNA测序数据中去除环境RNA的非监督方法。
  2. 它首先从未经滤波的细胞-基因计数矩阵中推断出环境RNA的水平和每个基因和液滴的条形码交换率。
  3. 然后,使用这个概率模型来生成去噪(即,已校正环境RNA)的计数矩阵,以及每个液滴包含细胞的概率,这可以用于调用真实细胞。
  4. 我们在每个由SEQC (v.2.7.0)生成的样本的未经滤波的计数矩阵上运行了CellBender (v.0.1.0),参数设置如下:(1) 将预期的细胞数量设为每个10x Chromium通道加载的细胞数(通常是5,000至10,000个细胞);(2) 将用于估计环境背景RNA的总液滴数设为30,000;(3) 将训练周期设为100。
  5. 我们使用CellBender (v.0.1.0)生成的去噪计数矩阵进行了所有后续分析。

Removal of low-quality cells

去除低质量细胞

Para_01
  1. 基于CellBender校正的表达计数,我们试图识别并从下游分析中过滤掉低质量细胞。
  2. 由于我们的研究集中在上皮细胞上,这种细胞类型比其他细胞类型对单细胞解离更为敏感,因此我们在滴定质量方面特别注意,进行了三个过滤步骤:
Para_02
  1. 移除所有后验概率包含细胞 ≤0.5 的液滴,使用 CellBender(版本 0.1.0)。这种宽松的过滤确保没有生物学相关的细胞被移除,但代价是保留了一些技术特性较差的细胞。
  2. 移除总计数 <200、表达基因总数 <200 或文库组成 >50% 线粒体 RNA 的液滴。
  3. 进行迭代式的聚类和过滤,以移除低质量或凋亡的细胞,这些细胞聚集在一起形成无结构的‘垃圾’簇。
  4. 我们通过将所有患者样本类型(非肿瘤、原发肿瘤和转移瘤)的计数矩阵合并,使用 PhenoGraph11(k=20)对细胞进行聚类,并研究每个簇内高表达基因的协方差结构来执行此过滤。
  5. 我们认为,在经历凋亡的细胞中,高表达基因并不是共同调控的,同样在含有环境 RNA 的液滴中也是如此,这促使我们移除缺乏有意义协方差结构的液滴。
  6. 我们重复了聚类和过滤的过程,直到只有位于结构化簇中的细胞剩余,之后将所有数据集合并。
Para_03
  1. 通过上述所有标准的细胞被保留用于下游分析。
scRNA-seq data analysis

scRNA测序数据分析

Data normalization and dimensionality reduction

数据标准化和降维

Para_01
  1. 原始计数矩阵被标准化到中位库大小,并用e为底数和0.1为伪计数进行对数变换。
  2. 然后,我们使用Scanpy(v.1.9.1)中的highly_variable_genes函数选择高度可变基因(HVGs),flavour设置为seurat_v3(我们选择了bins = 40)。
  3. 我们在每个bin中保留了前50个基因,总共2,000个HVGs。
  4. 此外,对于除胎儿结肠数据集外的所有数据集,我们包括了已知与正常结肠细胞类型相关的基因(41个基因)以及与炎症性疾病、结肠损伤和REST及EMT调控相关的细胞状态相关基因(56个基因)(基因的完整列表见补充表7)。
  5. 接下来,我们将包括2,097个基因的HVGs和手动添加的基因统称为HVGs。
  6. 接下来,我们仅使用HVGs对对数标准化矩阵进行了主成分分析(PCA),并保留了解释75%方差的主成分数量(112个主成分)。
  7. 对于所有数据集,我们也选择了解释75%方差的主成分数量。

Data visualization

数据可视化

Para_01
  1. 对于所有二维嵌入,我们使用了Scanpy(v.1.9.1)的neighbors函数基于欧几里得距离和k=30来计算基于主成分的k近邻图。
  2. 为了可视化全局CRC细胞图谱(扩展数据图2b、e、h、i),非肿瘤上皮细胞(扩展数据图2f)以及人类胎儿肠道细胞图谱(图2c),我们使用了Scanpy(v.1.9.1)中的UMAP实现,min_dist设置为0.3-0.5,init_pos设置为paga。
  3. 为了可视化包括所有未经治疗的上皮细胞(扩展数据图3a、c)、所有肿瘤细胞(扩展数据图5e-j)以及患者KG146细胞(图2a和扩展数据图9b、c)在内的上皮细胞亚群,我们使用了力导向布局,这提供了更直观的细胞状态转换和亚群之间局部关系的表示,使用了Scanpy(v.1.9.1)的ForceAtlas2布局和init_pos设置为paga。
  4. Python包matplotlib(v.3.6.0)用于生成所有图表。

Gene expression denoising and imputation

基因表达去噪和填补

Para_01
  1. 我们应用了MAGIC(v.3.0.0)插补(v.3.0.0插补)来处理归一化、对数转换后的计数矩阵,以去除由于dropout导致的转录本缺失和噪声。
  2. 插补使用了保守参数(t = 3,ka = 5,k = 15)进行。
  3. 插补值用于可视化基因表达或基因特征表达(描述于正文中以及使用处的图例中),同时用于分析未经治疗的患者肿瘤中的混合谱系基因相关性(参见‘正常肠道和未经治疗的肿瘤中基因相关性’部分)。

Gene signature scores

基因特征评分

Para_01
  1. 为了生成我们研究中的所有基因特征评分,我们使用了Scanpy(v.1.9.1)的score_genes函数,该函数计算感兴趣基因的平均表达量减去随机的、表达匹配的参考基因集的平均表达量。
  2. 为了考虑特征内基因之间的表达水平差异,我们将z标准化的表达数据作为此函数的输入。
Cell annotation

细胞注释

Partitioning cells into epithelial, stromal and immune compartments

将细胞分割为上皮、间质和免疫区域

Para_01
  1. 我们使用PhenoGraph(v.1.5.7)和Louvain算法(k = 45)对所有细胞的数据集进行了聚类,基于上述获得的主成分。
  2. 为了确保k值选择的稳健性,我们在20到100之间以5为增量重复了PhenoGraph(v.1.5.7)聚类,并计算了每对聚类之间的调整兰德指数。
  3. 我们选择了k = 45,该值在小范围内生成了一个大于0.9的兰德指数,表明细胞分配到聚类的改变很少,因此对k值的选择是稳健的。
Para_02
  1. 我们接下来根据标记基因表达将聚类划分为上皮、间质和免疫区室(扩展数据图3a、b)。
  2. 具体来说,我们使用了Scanpy(v.1.9.1)60中的score_genes函数来评分来自参考文献61中的区室特异性基因特征的表达,类似于该研究中使用的策略(每个区室的特征如补充表7所示)。
  3. 每个聚类被分配给得分最高的区室。

Analysis of the epithelial compartment

上皮组织区的分析

Para_01
  1. 我们过滤了上皮细胞区室以排除任何剩余的低质量细胞,通过去除对数转换后的文库大小分布、基因表达数量对数转换后分布以及线粒体RNA占比分布中的最低模式,最终得到67,534个上皮细胞。
  2. 由于不同区室对解离和样本制备的敏感性不同,以及不同区室之间固有的生物学差异,例如肿瘤细胞的文库大小通常远大于免疫细胞或基质细胞,我们选择为每个区室分别设定阈值。
Para_02
  1. 在上皮区室内,我们重新计算了高可变基因(2,097个HVGs),重新执行了主成分分析(210个PCs,解释了75%的方差)并对细胞进行了PhenoGraph聚类(v.1.5.7)(k = 30),去除了包含来自患者KG103、KG105和KG66的细胞的四个剩余异常簇。
  2. 这些簇的特点是库大小非常低;基因协方差矩阵中几乎没有块状结构,主要包含线粒体和铁死亡相关基因;并且来自患者非肿瘤、原发和转移样本的细胞之间存在强烈的重叠。
  3. 与我们的scRNA-seq数据一致,我们观察到这些患者的非肿瘤样本的组织学图像中有非常异常的黏膜,注意到与先前疾病状况有关的关联,这可能解释了样品质量差的原因。
  4. 综合这些观察结果表明,这些簇很可能代表了高度应激或正在死亡、与疾病相关的细胞,对我们研究没有信息价值。
  5. 去除它们后,剩下47,437个细胞;上皮区室的所有下游分析都是在这部分细胞上进行的。

Tumour cell identification using single-cell CNA calls

使用单细胞CNA呼叫识别肿瘤细胞

Para_01
  1. 我们通过以下标准在上皮腔室(扩展数据图3c-e)中识别了癌细胞:(1)与源自非肿瘤结肠样本的细胞相比,存在拷贝数改变(CNAs)的证据;(2)与非肿瘤上皮细胞有明显的聚类区别。
Para_02
  1. 我们使用 infercnvpy(版本 0.4.0),这是一个用 Python 实现的 InferCNV12,通过滑动窗口分析 200 个基因,采用了默认参数,在单细胞水平上识别了拷贝数变异。
  2. 参考二倍体的平均表达量是利用所有可用的正常肿瘤邻近样本确定的。
  3. 我们在推断拷贝数矩阵上进行了 Leiden 聚类,并将包含小于 25% 正常肿瘤邻近细胞且平均拷贝数变异评分高于二倍体平均值一个标准差以上的细胞群定义为癌细胞群。
  4. 因此,来自没有拷贝数变异的肿瘤样本的 3,102 个细胞被重新分类为非肿瘤上皮细胞(我们在下面的章节中对这些细胞进行了细胞类型注释),而来自具有拷贝数变异的肿瘤样本的 26,145 个细胞仍被归类为肿瘤细胞。
  5. 对于具有靶向 DNA 面板测序数据的患者样本,我们还使用 FACETS 管道独立地生成了拷贝数变异估计。
  6. 在许多情况下,FACETS 得出的患者拷贝数变异估计与使用 InferCNV 为同一患者计算的最丰富的单细胞拷贝数变异谱一致(一个例子见扩展数据图 3c、d)。

Cell type annotation in the non-tumour epithelial compartment

非肿瘤上皮区域中的细胞类型注释

Para_01
  1. 为了注释上皮细胞类型,我们保留了从相邻正常样本中收集的正常上皮细胞亚群(21,297个细胞)以及那些被鉴定为肿瘤样本中的正常的细胞,计算了所得对数归一化计数矩阵的主成分表示(249个PC),并在获得的PC上使用PhenoGraph(v.1.5.7)通过Leiden选项和k=15对细胞进行聚类。
  2. 我们确保了对k的选择具有鲁棒性,如上述描述。
  3. 这一过程产生了48个细胞簇,这些簇根据两个标准被注释为细胞类型:(1)平均z标准化表达与主要结肠上皮细胞类型的标志性基因表达的相似性(扩展数据图3g);以及(2)基于每个簇与其余簇相比差异表达基因(DEGs)的文献中相关细胞类型基因集的GSEA(补充表2),使用R包MAST(v.1.16.0)62计算。
  4. GSEA使用Python包gseapy(v.0.14.0)63进行,进行了10,000次排列,并使用默认参数。
  5. 根据这两个标准,我们手动将这些簇注释为ISC(2,580个细胞)、吸收前体(6,874个细胞)、肠上皮细胞(2,115个细胞)、BEST4+肠上皮细胞(1,367个细胞)、分泌前体(5,573个细胞)、杯状细胞(1,751个细胞)、簇状细胞(848个细胞)和肠内分泌细胞(189个细胞)(扩展数据图3f-j)。
Comparison of normal ISCs and treatment-naive tumours

正常ISCs和未经治疗的肿瘤的比较

Creation of an ISC-specific gene signature

创建特定于ISC的基因特征

Para_01
  1. 为了确定ISC特异性标记基因,我们对ISC细胞与所有其他非肿瘤细胞进行了差异表达分析,使用MAST(v.1.16.0)对非肿瘤上皮细胞的归一化、对数转换后的计数矩阵进行分析,并根据每个基因的−log[P]×log[折叠变化]值计算了基因排名(补充表2)。
  2. 最终的ISC基因特征由排名前100位的差异表达基因组成(所有包含的基因P<0.01;补充表2)。
  3. 我们使用Scanpy(v.1.9.1)中的score_genes函数对这些基因的z标准化表达量计算了基因特征评分(图3c)。

PCA and annotation of PC1

PCA和PC1的注释

Para_01
  1. 我们选取了包含所有未经处理的正常和肿瘤上皮细胞的单细胞数据集的一个子集(13,935个细胞),并对对数标准化后的表达矩阵进行了PCA分析。
  2. 我们重点关注第一个主成分(PC1),它解释了数据集中13.5%的方差(相比之下,PC2解释了8.96%的方差)。
  3. 为了注释PC1,我们根据基因在PC1上的特征载荷对所有基因进行排序,排除了载荷值为零的基因,因为它们无法被排序。
  4. 使用这种排序方法,我们利用Python包gseapy(版本0.14.0)中的prerank函数,结合文献中相关细胞类型基因集(补充表3)以及默认参数,进行了GSEA分析(图3d)。

DEG and GSEA analysis between untreated tumour and ISC cells

未处理的肿瘤细胞与ISC细胞之间的DEG和GSEA分析

Para_01
  1. 我们使用 MAST(v.1.16.0)对 ISC 细胞与所有未经处理的肿瘤细胞进行了差异表达分析,并使用文献中的相关细胞类型基因集(补充表 3)以及所有 Hallmark66 和 KEGG67 基因集(扩展数据图 3f)进行了 GSEA 分析。
  2. GSEA 使用 Python 包 gseapy(v.0.14.0)的 prerank 函数进行,设置了 10,000 次置换和默认参数(补充表 3)。

Identification of ISC phenotypic admixture in treatment-naive tumours

治疗初未接受治疗肿瘤中ISC表型混合的识别

Para_01
  1. 为了评估在集群层面观察到的细胞类型转换(扩展数据图 3e)是否也存在于单个细胞中,我们使用 MAST(v.1.16.0)62 来计算非肿瘤上皮数据集中富集于 ISC、肠上皮细胞和杯状细胞中的差异表达基因;根据 -log[P] × log[折叠变化] 值对每个差异表达基因进行排序;并使用前 300 个基因作为谱系标记(补充表 3)。对于肠上皮细胞和杯状细胞,差异表达基因分析仅限于分化细胞类型(即,不包括前体细胞类型)。这使得同一谱系的前体细胞类型和分化细胞类型之间共享的基因可以通过差异表达基因分析恢复。例如,在晚期吸收前体细胞中肠上皮细胞标记物 SLC26A3 的表达降低了它在肠上皮细胞与所有其他细胞相比时的观察差异表达,尽管肠上皮细胞中有丰富的 SLC26A3 表达。
  2. 当吸收前体细胞包含在差异表达基因分析中时,即使肠上皮细胞中有丰富的 SLC26A3 表达,SLC26A3 在晚期吸收前体细胞中的表达降低了它在肠上皮细胞与所有其他细胞相比时的观察差异表达。
Para_02
  1. 由于肿瘤细胞并不完全模拟正常分化细胞类型的表现型,我们将上述300个细胞谱系标志物限制为也在超过20%的原发肿瘤或转移瘤细胞中大量表达的基因。
  2. 我们认为一个谱系标志物在一个细胞中大量表达,如果该细胞中的归一化表达量大于或等于该标志物所代表的谱系表达量的下四分位数。
  3. 为了确保标志物的特异性,我们还去除了在其他谱系中也大量表达的任何基因。
  4. 最后,我们确定了剩余的谱系标志物中在每种正常细胞和未经治疗的肿瘤细胞中大量表达的比例。
  5. 每种细胞类型和肿瘤类型的分布使用Python Seaborn(v.0.11.2)中的sns.kdeplot函数可视化(扩展数据图3h-j)。

Gene correlations in normal intestine and untreated tumour

正常肠道和未经治疗肿瘤中的基因关联

Para_01
  1. 为了理解冲突细胞类型标记物的共表达(扩展数据图3h-j)是否与肿瘤中细胞类型特异性基因调控的丧失有关,我们首先根据上述方法计算了ISCs、肠上皮细胞和杯状细胞的所有排名靠前的差异表达基因对之间的皮尔逊相关性(总共300个基因),使用了(1)所有非肿瘤上皮细胞和(2)所有未经治疗的肿瘤细胞的插补表达矩阵(扩展数据图3g)。为了考虑肿瘤中基因调控的异质性,首先分别针对每个患者的肿瘤计算相关性,从而得到12个相关矩阵,并进行平均。通过这种方式,观察到的强相关性对应于那些在多个患者肿瘤中表现出强烈正相关或负相关的基因对,表明与非肿瘤环境相比,基因失调具有一致性。
  2. To account for heterogeneity in gene regulation across tumours, correlations were first computed for each patient tumour separately, resulting in 12 correlation matrices, and averaged.
Identification of Hotspot gene modules in CRC tumour data

CRC肿瘤数据中热点基因模块的识别

Para_01
  1. 我们使用了Hotspot(v.0.9.1)20,这是一种在给定用户提供的局部细胞间相似性度量的情况下识别单细胞数据集中特定上下文基因模块的算法,用于识别患者肿瘤数据集中共享的特定上下文基因模块。
  2. Hotspot评估了细胞-细胞相似性(k近邻(k-NN)图)内局部细胞邻域中基因之间的成对局部相关性,识别具有高局部自相关的基因。
  3. 重要的是,检测显著局部自相关的方式适合于scRNA-seq,并且能够抵御诸如单个细胞中的基因丢失等问题。
  4. 计算得到的基因-基因亲和矩阵被聚类以输出一组基因模块。
  5. 与假定单细胞数据集中特征之间的关系在单一数据集内保持一致的全局相关性度量(如皮尔逊相关)不同,Hotspot的局部相关性度量是在k-NN图中的局部细胞邻域中计算的。
Para_02
  1. 非负矩阵分解已被用于识别癌症基因程序,但它是一种线性方法,需要对整个数据集进行一致且完整的分解,并且它可能对批次和其他变化敏感。
  2. 相比之下,Hotspot 基于基因间的协方差,这更好地代表了共同功能方面一起工作的基因组,并且对批次效应具有鲁棒性(因此很可能对肿瘤之间的变异也更稳健)。
  3. 重要的是,Hotspot 基因模块基于可以定位到细胞亚群的协方差或在流形区域上表现出潜在非线性分级表达的协方差。
  4. 特别是在癌症中,适应不同患者肿瘤环境的异质性细胞状态,例如转移位点,很可能会对应于基因协方差的差异。
  5. Hotspot 也非常适合处理基因多效性和稀有群体,这些因素在肿瘤环境中扮演着重要角色。
  6. 因此,我们选择了 Hotspot 来表征我们数据集中肿瘤间和肿瘤内的表型异质性的来源,以及全局的、定义流形的基因模块。
Para_03
  1. 为了应用Hotspot,我们首先将数据仅包括肿瘤细胞(26,145个细胞),并使用了它们的前2,097个HVG(参见上面的‘数据归一化和降维’部分)。
  2. 归一化后,我们进行了主成分分析,并保留了足够的主成分来解释75%的方差(233个主成分)。
  3. 然后,通过运行Hotspot使用深度调整的负二项分布(danb)观察模型和30个邻居,识别了与主成分潜在空间显著自相关的特征子集。
  4. danb模型由背景零分布组成,表达计数是基于该分布进行归一化的,并用于避免由于细胞文库大小的局部自相关而将基因标记为显著。
Para_04
  1. 我们保留了2,003个FDR小于0.01的基因用于计算局部相关性和下游聚类(见下文)。
  2. 我们使用Hotspot中的create_modules函数(默认参数,除了minimum_gene_threshold设置为20和core only设置为False)来获得一个初步的共变基因模块集(37个)(基因到模块的分配显示在补充表4中)。

Hotspot module clustering

热点模块聚类

Para_01
  1. 热点聚类通过一种凝聚层次聚类程序将基因-基因局部相关矩阵聚类成模块,在每一步中,合并两个具有最高成对z分数相关性的基因/模块。
  2. 一旦一个合并后的模块包含的基因数量超过最小阈值,它就会被标记并且不能再与其他已标记的模块合并。
  3. 当未合并模块之间的最高成对z分数低于最小值时,该过程结束;此时,所有未标记的基因都不属于任何模块。
Para_02
  1. 实际上,我们发现将最小基因阈值设得过大导致太多基因未被分配,并且形成了由于基因数量过多而难以解释的模块。
  2. 而阈值设置得太小又未能合并一些相互关联、生物上相似的模块。
  3. 我们选择了一个较低的阈值,即每个模块至少包含20个基因,以偏向于更易于管理、规模较小的模块。
  4. 然后,在确保这些基因也相互关联后,我们手动将具有相似生物学解释的模块进行分组。
  5. 这个过程将在下面详细描述。

Hotspot module grouping and annotation

热点模块分组与标注

Para_01
  1. 所有原始的37个热点模块根据已知的肠细胞和非肠细胞类型的规范标记进行了人工注释(图1b和扩展数据图5b、c中显示了注释基因的一部分,所有注释基因如补充表4所示)。
  2. 使用gseapy(v.0.14.0)和Gene Ontology Biological Process基因集进行的基因集过度表示分析为我们的初始注释提供了支持证据,或者为难以注释的模块指出了可能需要调查的方向(最终模块注释的模块注释和过度表示分析如补充表4所示)。
Para_02
  1. 我们专注于其中的23个模块(1,201个基因),这些模块代表有意义的生物基因程序,而没有进一步探索另外14个模块(722个基因),这些模块被注释为细胞周期/增殖(2个模块),细胞应激(4个模块),白细胞(3个模块)或纤毛(1个模块),或者无法解释(4个模块)。
  2. 然后,我们在(1)对组内所有模块达成相同的生物学解释,以及(2)确保分组模块之间基因的局部相关性平均较高后(扩展数据图5a、b),手动将19个模块分为了6组。
  3. 这六个分组模块和四个单模块最终形成了十个基因模块(扩展数据图5a、b和补充表4)。
Para_03
  1. 一旦使用上述策略对模块进行注释和分组,我们将它们分类为两个不同的类别: [ol]- (1) Canonical: modules describing canonical intestinal cell types and processes such as epithelial differentiation, mucus production and small-molecule transport, which are critical for maintaining normal intestinal function. - (2) Non-canonical: modules describing processes not typically seen in healthy intestine, such as keratinization, inflammatory response and wound healing.

Hotspot gene module scores

热点基因模块评分

Para_01
  1. 热点模块评分是使用Hotspot的calculate_module_scores函数计算出来的。简而言之,Hotspot使用以下步骤对每个模块的每个细胞进行评分:对于模块中的所有基因,首先使用danb空模型将其表达计数平均中心化,然后通过它们最近邻的加权平均值进行平滑处理。
  2. 背景空模型考虑了细胞文库大小的差异;因此,基于空模型的中心化确保了相关性不会受到文库大小差异的影响。接着,对得到的中心化计数执行PCA,并将第一主成分值用作每个细胞的模块评分。
  3. 我们使用Hotspot模块评分来可视化和总结细胞群组(例如,集群)内的模块表达模式,并将基因模块与现有基因集的基因特征评分以及样本元数据相关联。
Para_02
  1. 为了绘制细胞群中给定模块的高分表达,我们使用了scanpy的dotplot函数(扩展数据图5b、c)。
  2. 为了将细胞分配为给定Hotspot模块的高分细胞,我们将所有Hotspot模块得分在细胞间进行了z标准化处理,然后要求高分细胞非常特异性地表达一个给定的Hotspot模块而不表达其他任何模块。
  3. 为了确保这一点,我们要求高分细胞必须满足以下条件:(1) 得分高于其平均模块得分1个标准差以上;(2) 得分低于其他所有模块平均得分1个标准差以上(细胞被分配到扩展数据图5b中关注的23个未分组模块中的一个,以及扩展数据图5c中关注的10个分组模块中的一个)。
  4. 我们发现,与本节中用于识别高分模块细胞的百分位数得分相比,这些标准更为严格。

Robustness of Hotspot modules

热点模块的鲁棒性

Para_01
  1. 我们评估了热点分析对输入特征使用的高变基因数量的稳健性,基于基因自相关的一致性和获得模块的一致性。
  2. 我们还评估了热点模块对细胞重采样的稳健性。
Para_02
  1. 基因自相关性与高可变基因数量的一致性:我们评估了输入的细胞间相似性矩阵是否忠实地捕捉了数据结构(通过高度可变基因)。
  2. 给定一个输入基因集,Hotspot 移除沿 k-NN 图谱上自相关性低的基因,确保只选择那些沿流形变化且信息量大的基因用于模块检测。
  3. 为了确定通过这一标准的基因是否对所选高可变基因的数量具有鲁棒性,我们在增量为 500 基因的情况下重新计算了包含 1,000 到 5,000 高可变基因的模块,并保持所有其他参数不变。
  4. 对于每一种组合,我们计算了每个基因在输入 2,000 高可变基因(本研究中使用的数值)时的局部自相关性差异,并将其可视化为箱线图(补充图 2)。
  5. 这些差异在所有高可变基因对的 Hotspot 运行中都是最小的(最大差异为 0.07),这表明细胞相似性图无论选择多少高可变基因都能保留其结构。
Para_03
  1. 为了验证构成每个模块的基因集对特征数量的稳健性,我们生成了1,500至2,500个HVG(高可变基因)增量为50个基因的Hotspot模块,最小基因阈值设置为20,并且core_only设置为false。
  2. 然后,我们计算了每组Hotspot模块的模块得分与使用2,000个HVG获得的模块集之间的皮尔逊相关系数,正如本研究中所使用的那样。
  3. 对于每个使用2,000个HVG获得的原始Hotspot模块,我们报告了用于本研究的模块与其最佳匹配模块的相关性——即在本研究中与原始模块相关性最高的模块(补充图2)。
  4. 总体而言,每组识别出的基因特征都确定了一部分与我们基于最大相关性的最终模块集接近对应的模块。
Para_04
  1. 为了确定热点基因模块是否依赖于作为输入的确切细胞,我们采用了类似引导法的方法。
  2. 我们随机多次重新采样我们的肿瘤数据集,每次去除1%到10%的细胞(以1%递增),或者去除10%,15%或20%的细胞。
  3. 对于每次重新采样,我们计算了新的主成分和新的k-最近邻图,并使用与主要分析相同的基因和相同参数重新运行热点分析。
  4. 然后,我们将每次热点分析与原始分析的相似性评估为局部相关性的最大差异(即,比较矩阵中最高和最低局部相关值之间的差异)(补充图2)。
  5. 我们采用这种方法是因为不能从k-最近邻图中重复抽样细胞。
Para_05
  1. 热点结果与全局相关性的关系:尽管热点基因-基因相关性仅在细胞亚群上进行评估,但这些亚群被高度限制在k-NN图的邻域结构内,这是数据的一个强有力的结构特征,使得热点不太可能找到虚假模块。
  2. 然而,我们预计这些模块也会导致可检测到的全球皮尔逊相关性水平。
  3. 为了视觉比较,我们在对数标准化表达矩阵上绘制了成对皮尔逊基因相关性与z分数化的成对热点局部相关性(补充图2),揭示了通过全局相关性检测到的弱且嘈杂的全球信号的排名在很大程度上与热点灵敏地检测到的稳健信号一致。
  4. 同样,在分组模块内的所有成对相关性平均值也显示相关性和全局相关性在定性上是相似的(补充图2)。

Distribution of module expression among samples

样本中模块表达的分布

Para_01
  1. 为了确定每个患者中高表达十个热点模块的细胞分布,我们首先如果一个细胞对于某个模块的表达评分超过该模块的0.75分位数,则将其标记为具有该基因模块。
  2. 然后,我们绘制了每个肿瘤样本中所有模块标记细胞的累积分数(图1c),或者绘制了每名患者汇集的原发和转移样本中所有模块标记细胞的累积分数(扩展数据图6g)。
  3. 累积分数可以超过1,因为一个细胞可能表现出多个模块的高表达。
Para_02
  1. 我们还可视化了非规范或规范模块的流行程度(图1d,e),这是转移性肿瘤与患者匹配的原发肿瘤中标记细胞比例的对数比率。
  2. 规范和非规范模块分类在‘热点模块分组和注释’部分中有描述。
  3. 虽然细胞可以表现出多种规范或多种非规范模块的高表达,但我们发现它们并不经常同时高度表达规范和非规范模块(补充图2);因此,我们根据它们哪个分类得分最高来标记细胞为非规范或规范(例如,一个最大模块得分为鳞状的细胞被标记为非规范)。
Para_03
  1. 我们使用以下策略计算了这些图中的显著性值:对于每个细胞的二元标记(例如,非规范或非非规范),我们在每个患者内部随机置换标签1000次。
  2. 对于每次随机置换,我们计算了转移瘤中阳性细胞(例如,非规范)与原发肿瘤中阳性细胞的对数比率,如上所述。
  3. 然后,我们将原始对数比率与随机置换组合后的对数比率进行秩和检验。
  4. 备择假设是我们的样本分布大于零假设(例如,转移瘤的比例更高)。
Interpatient entropy of gene modules

基因模块的患者间熵

Para_01
  1. 我们使用熵来评估每个Hotspot模块的患者特异性,采用以下步骤:(1)在我们的肿瘤数据集中每名患者随机抽取357个细胞以替换的方式确保患者间细胞分布均匀。
  2. (2)对于每个模块,确定得分高于平均分以上一个标准差的高分细胞子集。
  3. (3)使用SciPy(v.1.9.1)函数scipy.stats.entropy计算每个模块中高分细胞子集中患者标签的香农熵。
  4. 为了计算香农熵,我们首先在所有上皮细胞的多尺度空间嵌入上构建了一个k-NN图,其中k=60;多尺度空间是通过Palantir(v.1.2)在前19个DC(根据DC特征值的拐点选择)上计算出来的。
  5. 步骤1至3重复了100次后,使用Python Seaborn(v.0.11.2)中的kdeplot函数可视化熵分布(扩展数据图5d)。
Association of gene modules with clinical covariates in bulk RNA-seq data

在bulk RNA测序数据中,基因模块与临床协变量的相关性分析

Para_01
  1. 为了测试每个热点模块与bulk群体中的临床协变量之间的关联,我们(1)对来自CRC患者原发肿瘤的两个bulk RNA-seq数据集LARC和TCGA-COAD进行了单样本GSEA分析,使用我们热点模块中的基因作为输入基因集;(2)对于每个数据集,测试了患者临床特征与其肿瘤样本富集分数之间的关联。

ssGSEA analysis

ssGSEA分析

Para_01
  1. 对于LARC,我们分析了108个具有RNA测序数据的肿瘤样本。
  2. 如果基因在超过50%的样本中有超过每百万计数1次,则保留该基因。
  3. 使用edgeR v.3.40.2包进行trimmed mean of M-values归一化和FPKM转换,使用org.Hs.eg.db v.3.16.0包进行基因注释。
  4. 映射到多个Ensembl ID的基因被移除。
  5. 然后,我们使用hacksig v.0.1.2 R包和所有热点模块进行了ssGSEA分析。
  6. 在该队列中,0.4%的患者存活状态为生存且总体生存(OS)随访时间小于12个月(0%的患者OS随访时间小于6个月);1.7%的患者没有远处复发且无病生存期(DFS)随访时间小于12个月(0%的患者DFS随访时间小于6个月)。
Para_02
  1. 对于癌症基因组图谱(TCGA),我们下载并分析了来自TCGA-COAD研究的445个肿瘤样本的RNA测序数据。
  2. 使用TCGAbiolinks(v.2.26.0)获取了RNA原始计数。
  3. 去除了在所有样本中计数为0的基因,以及那些具有多个相关基因符号或没有基因符号的基因。
  4. 使用DESeq2(v.1.38.3)包进行了VST变换。
  5. 随后,利用R包GSVA(v.1.46.0)进行了ssGSEA分析。
  6. 在这个队列中,13%的患者存活状态为生存且OS随访时间小于12个月(其中7%的OS随访时间小于6个月);0.9%的患者没有新的肿瘤事件且DFS随访时间小于12个月(其中0.7%的DFS随访时间小于6个月)。

Associations with clinical covariates

与临床协变量的关联

Para_01
  1. 我们根据收集整体RNA测序数据的患者的状态将富集评分分为两组,并使用Mann-Whitney U检验比较了这两组之间每个热点模块的富集评分(图1f、g和扩展数据图6h-j)。

Survival analyses in TCGA-COAD cohort

TCGA-COAD队列中的生存分析

Para_01
  1. 对于每个热点模块,我们从TCGA-COAD队列中收集了两组样本:(1)富集程度高的样本,其ssGSEA富集评分高于所有样本平均富集评分一个标准差以上,和(2)富集程度低的样本,其富集评分低于所有样本平均富集评分一个标准差以下。
  2. 然后,我们使用Python中的lifelines(v.0.27.4)包对这些组之间的DFS进行了log-rank检验。
  3. 我们为所有具有显著结果(P < 0.05)的模块生成了生存曲线(扩展数据图6k)。
  4. 多变量逻辑回归模型用于评估DFS、OS与模块表达之间的关联。
  5. 根据每个签名的ssGSEA评分高于或低于平均值0.75个标准差,每个样本被注释为高或低。
  6. 没有签名注释的样本被排除在分析之外。
  7. Cox比例风险检验用于DFS的多变量分析。
  8. 我们为所有具有显著结果(P < 0.05)的模块生成了森林图(补充图3)。
  9. R包survival(v.3.6-4)和survminer(v.0.4.9)用于生存分析。
Delineation of canonical to non-canonical tumour axes across patients

描绘患者之间的典型到非典型肿瘤轴线

Para_01
  1. 为了描述癌症进展的趋势,我们分析了四个患者的数据,这些患者具有足够数量的非规范状态细胞,以便进行可靠的特征描述,即KG146(3,351个细胞),KG182(935个细胞),KG183(1,203个细胞)和KG150(2,574个细胞)。
  2. 我们对每个患者单独进行了重新处理,以最忠实地捕捉每个患者内部的趋势;每个患者的原发肿瘤、同步转移瘤和异时转移瘤样本的数据被合并,并按照‘数据归一化和降维’部分所述的方法进行处理。
  3. 我们使用了DC分析,该方法能够识别数据中最大的非线性变化轴,并已被证明能有效地捕捉单细胞RNA测序数据中的细胞状态转换75。
  4. 每个患者的DC独立计算,以便分别计算每个患者潜在的肿瘤进展路径,并避免人为地将大样本患者的趋势强加给小样本患者。
Para_02
  1. 我们为每位患者计算了扩散映射(k = 30个最近邻),并根据排名组件特征值的特征值间隙保留了一部分扩散组件(KG146, 4个;KG182, 6个;KG183, 8个;KG150, 4个DCs)。最强的DCs似乎定义了一个从典型到非典型命运的连续体。因此,我们通过给定DC与所有非典型模块和所有典型模块之间的平均斯皮尔曼相关系数的差异对每位患者的DC进行了排序;两个平均值之间的最大差异定义了一个从典型到非典型转换的轴(图2b和扩展数据图7a)。对于KG146、KG182和KG150,选择了第一个DC,而KG183选择了第四个DC。在4名患者中有3名患者中,第一个DC作为典型到非典型转变的一致且独立的选择支持了这条轴是数据中最强烈信号之一的重要性。我们注意到KG183的非典型细胞较少,这可能解释了为什么这个转变不是该患者的首要DC。我们利用样本的渐进性质(正常到原发再到转移)来推理,由于正常只包含典型细胞,而转移包含最大的非典型细胞比例,这个轴确实代表了细胞状态的进展。
  2. ,

Visualization of module trends

模块趋势可视化

Para_01
  1. 我们使用广义加性模型(GAMs)和立方样条作为平滑函数,如同在Palantir(v.1.2)42中一样,来分析模块评分沿DC轴的趋势(图2b和扩展数据图7a)。
  2. GAMs增加了稳健性,并减少了对密度差异的敏感性,而立方样条在捕捉非线性关系方面是有效的。
  3. 我们通过在DC值(x轴)和模块评分值(y轴或颜色强度)上使用回归模型来拟合模块评分趋势。
  4. 通过将数据沿DC分为500个大小相等的区间,并使用回归拟合预测每个区间的模块评分,得到平滑的趋势。
  5. 我们将模块评分趋势从第20百分位值(白色)可视化到最大值(最高饱和度)(图2b和扩展数据图7a)。
Derivation of a human fetal colon progenitor gene signature

人类胎儿结肠祖细胞基因特征的推导

Para_01
  1. 我们使用了一个包含从6.1到17周的人类胚胎解剖样本的单细胞RNA测序数据的胎儿肠道细胞图谱,该图谱捕捉了人类肠细胞从胎儿祖细胞状态到分化隐窝的发育过程40。
  2. 我们从作者那里下载了一个包含所有胎儿供体上皮细胞的原始H5AD文件,并将我们的分析限制在来自第一和第二孕期样本的大肠的8,408个细胞上。

Data reprocessing and DEG analysis

数据重新处理和差异表达基因分析

Para_01
  1. 由于大肠细胞代表了胎儿肠道细胞图谱的一小部分(52,184个总细胞中的8,408个),我们将数据集进行了分区和重新处理,以便专注于这些细胞的分析。
  2. 我们使用scanpy运行了HVG选择(2,000个HVGs)、PCA(167个PCs解释了75%的方差)和UMAP投影(min_dist = 0.5),正如‘数据归一化和降维’和‘数据可视化’部分所述。
  3. UMAP投影显示第11.1周样本与其他所有样本分离。
  4. 这个样本中的细胞被特征化为热休克基因DNAJB1、HSP90AA1、HSPE1、HSPA8和HSPA1A,这些基因位于前10个差异表达基因(通过与所有其他样本比较的MAST分析)中,表明存在细胞应激,因此将其移除,最终得到7,984个细胞。
  5. 在剩余的数据集中,我们保留了作者原有的细胞类型注释,但将肠内分泌亚型(M/X、D、β、L、N、K、I和肠嗜铬细胞)合并为一组。
Para_02
  1. 我们发现,第一孕期样本主要由祖细胞组成;近端祖细胞、远端祖细胞和干细胞占所有细胞的88%。
  2. 相比之下,第二孕期样本仅由成熟的结肠粘膜细胞类型组成,并表现出LGR5、TFF3、SLC26A3、NEUROD1和POU2F3的强烈表达(分别对应于ISCs、杯状细胞、成熟的肠上皮细胞、内分泌细胞和簇细胞)。
  3. 因此,我们认为第一孕期和第二孕期样本之间的分离捕捉到了祖细胞样细胞类型与结肠隐窝之间的区别。
Para_03
  1. 为了确定仅与第一孕期细胞群体相关的标记基因,我们使用 MAST(版本1.16.0)对标准化和对数转换后的计数矩阵进行了第一孕期与第二孕期细胞之间的差异表达分析,并鉴定了173个差异表达基因(log[FC] > 2且调整后的P值< 1 × 10^-5)。
  2. 早期细胞更具有增殖性,因此我们从第一孕期基因列表中去除了与细胞周期或增殖相关的基因。
  3. 具体来说,我们计算了所有第一孕期差异表达基因与属于Reactome‘细胞周期,有丝分裂’和‘细胞周期,G1-G1/S期’基因集以及Hallmark‘细胞周期,G2M检查点’基因集中的445个基因之间的皮尔逊相关性(共445个基因)。
  4. 对于至少一个属于这些基因集的基因,我们去除了相关性大于0.25的60个基因。
  5. 我们的胎儿基因特征包括剩余的113个基因(补充表5)。
  6. Earlier cells are more proliferative, so we removed genes related to cell cycle or proliferation from our first-trimester gene list.

Comparison with existing dedifferentiation signatures

与现有的去分化特征的比较

Para_01
  1. 我们将我们的113个基因的胎儿特征与先前发表的去分化特征进行了比较23,34,38,39。
  2. 对于每一对特征,我们计算了Jaccard指数(两个特征之间共享的基因数除以两个特征中的基因总数),表明现有的特征明显不同于我们的胎儿特征,并且缺乏共识(扩展数据图7b)。
  3. 我们还确定了14个核心胎儿特征基因中有多少存在于每个去分化特征中,以该特征中的总基因数进行标准化。
Para_02
  1. 对于上述第一孕期数据集中的三个主要祖细胞群和第二孕期数据集中描述的五个主要群体,我们计算了各种特征的平均得分(参见‘基因特征评分’部分),发现我们的胎儿特征在第一孕期群体中明显富集而在第二孕期群体中减少,而其他特征缺乏一致的富集趋势(扩展数据图7c)。
  2. Extended Data Fig. 7c

Mapping fetal signature along tumour progression axis

沿肿瘤进展轴映射胎儿特征

Para_01
  1. 我们使用scanpy函数score_genes和我们胎儿特征中的113个基因列表,为每位患者(KG146、KG182、KG183和KG150)计算了基因集得分。
  2. 我们确定了在我们的胎儿特征中哪些基因与胎儿特征得分趋势沿主要扩散成分相关(皮尔逊r>0.5),如下面‘识别与胎儿状态相关的转录因子’部分所述(扩展数据图7d)。
  3. 在胎儿特征的113个基因中,至少在一个患者的基因中有88个基因强烈相关;在至少两个患者的基因中有59个基因相关;在至少三个患者的基因中有37个基因相关,每个患者都有大量基因相关(KG146中有56个,KG182中有51个,KG150中有29个,KG183中有62个)。
  4. 此外,有14个基因在四位患者的每一位中都与特征得分强烈相关,构成了候选的核心特征,这些候选基因驱动患者肿瘤中的胎儿状态逆转。
  5. 我们使用这14个核心基因计算了一个基因集得分,并且像‘样本间模块表达分布’部分所述一样计算了其在样本中的分布显著性值(扩展数据图7e)。
  6. 我们使用这14个核心基因计算了一个基因集得分,并且像‘样本间模块表达分布’部分所述一样计算了其在样本中的分布显著性值(扩展数据图7e)。

Kaplan–Meier analyses of fetal signature in bulk data

胎儿特征在整体数据中的Kaplan-Meier分析

Para_01
  1. 我们根据‘ssGSEA分析’部分所述的方法计算了LARC和TCGA-COAD队列中所有样本的ssGSEA富集评分,使用我们的胎儿基因特征作为输入。
  2. 对于每个队列,我们随后收集了(1)具有高于所有样本平均富集评分1个标准差以上的高富集样本;以及(2)低于所有样本平均富集评分1个标准差以下的低富集样本。
  3. 我们使用Python的lifelines包(版本0.27.4)对这些组之间的DFS进行了log-rank检验(扩展数据图7g,h)。
Pseudo-ordering of cell states by module overlap

按模块重叠程度伪排序细胞状态

Para_01
  1. 尽管扩散成分分析以可重复且无偏的方式将患者细胞沿着从规范到非规范命运的转变排序,但在肿瘤中非规范状态细胞较少的患者中效果较差。
  2. 作为替代方法,我们考虑这样的观察:在大多数细胞状态轨迹中,如果基因模块定义了一对连续的细胞状态,则这些基因模块往往在同一细胞中共同表达。
  3. 利用这一逻辑,大量细胞共同表达两个不同的基因模块的存在可以用来建议这些状态的伪排序以及它们之间的转变。
  4. Hotspot的一个关键特性是,一个细胞可以共同表达多个模块(图1b和补充图2),这使得可以检查占据混合状态的细胞。
  5. 为了确保我们只考虑稳健的模块表达,我们将一个细胞分配给一个模块,如果它表达了该模块基因的75百分位以上。
  6. 对于所有Hotspot模块对,我们计算了在同一细胞中共表达的模块比例,并由于某些细胞状态在任一患者中的稀疏性,我们在患者之间进行了汇总。
  7. 这种分析揭示了一种进展(块对角线),这与对四个具有非规范状态的患者(KG146、KG182、KG183和KG150)进行的DC分析一致,并且在这四个患者之间保持一致(图2d)。
  8. 移除这四个患者后的全队列(图2e)以及来自独立数据集的五名患者的分析(图2f)也一致。
Replication in an independent CRC scRNA-seq dataset

在独立的CRC单细胞RNA测序数据集中复制

Para_01
  1. 该来自参考文献28的单细胞RNA测序数据集包含了五名接受多轮化疗患者的匹配原发肿瘤和肝脏转移样本。
  2. 我们下载了GEO访问号GSM7058755(结直肠癌,非免疫细胞),其中包含了来自这些患者的所有肿瘤和基质细胞。
  3. 我们首先过滤掉了超过40%的线粒体UMI或少于1,000个UMI的所有细胞,剩下23,341个细胞。
  4. 我们对数据进行了归一化处理,并使用与我们在‘单细胞RNA测序数据分析’和‘细胞注释’部分中描述的方法相同的分类方法来识别上皮细胞;简而言之,每个PhenoGraph(v.1.5.7)(k=30)细胞簇根据所有细胞对于广泛的基质和上皮基因面板的平均得分最高者进行分类。
  5. 只有这些经过过滤的上皮细胞被用于下游分析。
Para_02
  1. 热点模块分析在我们的数据集和参考文献28的数据集之间存在两种差异。
  2. 首先,在我们的数据集中,基因模块得分是通过用于运行热点检测的k-最近邻图(见‘热点基因模块得分’部分)计算得出的,而参考文献28的数据集则需要其自身的k-最近邻图,这使得结果无法进行比较。
  3. 相反,我们使用scanpy函数score_genes和每个热点模块的基因列表来计算基因集得分。
  4. 其次,在我们的数据集中,我们使用了0.75分位数得分阈值来量化每名患者细胞中热点模块的丰度(图1b)。
  5. 由于这些是相对阈值,重复分析参考文献28中的数据将无法考虑到与我们肿瘤数据集相比,模块基因在参考文献28中的表达水平可能更低的可能性。
  6. 出于这个原因,我们选择构建特定反映我们数据集中表达水平的阈值,在该数据集中我们知道这些模块被表达。
  7. 为此,我们将两个数据集合并,并重新标准化(中位数文库大小标准化和对数尺度表达)到相同的表达水平。
  8. 基因集得分是在合并和重新标准化的数据集上使用score_genes函数计算的,而0.75分位数截止值仅基于我们数据集中的细胞,以便阈值能反映我们数据集中的表达水平并适用于参考文献28的数据。
  9. 这些阈值用于扩展数据图6g。
Palantir pseudotime and branch calculations

Palantir伪时间及分支计算

Para_01
  1. 这四位患者的肿瘤包含最多具有非规范命运的细胞(KG146、KG182、KG150 和 KG183)涵盖了进展的所有阶段,并且所有患者都同时包含鳞状和神经内分泌状态。
  2. 我们使用 Palantir(v.1.2)来研究这两种命运以及导致这些命运转变的相关基因。
  3. 作为输入,Palantir 需要一个初始状态,而作为输出,它计算终端命运并提供一个细胞命运图,该图分配每个细胞分化为每种终端命运的概率。
  4. Palantir 还输出了从初始状态到每个终端状态的细胞伪时间排列,因此通过结合每个细胞的伪时间和命运概率,它可以提供通向每个终端命运的分支基因趋势(根据命运概率加权每个细胞对基因趋势的贡献)。
  5. 由于该患者中的非规范细胞数量不足,我们将 KG183 排除在外,分别运行了 Palantir 在患者 KG146、KG182 和 KG150 的肿瘤数据集上。
  6. 我们选择具有最高推定表达的 LGR5 细胞作为初始状态,因为它们在结直肠癌研究中被鉴定为起源细胞。
  7. 值得注意的是,已经证明 Palantir 对起始细胞的确切选择是稳健的。
  8. 使用 500 个路标点和基于特征间隙的 DC 数量(KG146 为 6,KG182 为 4,KG150 为 8)运行 Palantir,在所有三位患者中,从 LGR5+ 状态到两种 CDX2–(非肠道)终端细胞的独立分支轨迹。
  9. 我们忽略了 KG146 和 KG150 中的另外三个分支,这些分支可能代表规范状态轨迹,因为终端细胞表达 CDX2 并包括分化的肠道标记物,如 FABP1 和 TFF3。
Para_02
  1. 为了注释两个非规范终端状态,我们收集了在健康细胞或非CRC癌症中观察到的已知鳞状和神经内分泌细胞标记物,并计算了它们推断表达与非肠分支概率之间的皮尔逊相关性(扩展数据图8a,b)。
  2. 在计算相关性时,我们排除了所有给定分支概率小于0.5的细胞,以避免该分支外的细胞状态干扰。
  3. 这一分析确定了每个患者中与神经内分泌样和鳞状样状态相关的分支(KG146的一个代表性例子见扩展数据图8a)。
  4. 为进一步支持我们的注释,我们计算了每个患者中的非肠分支概率与在三名患者中观察到的所有基因的推断表达之间的皮尔逊相关性。
  5. 我们发现,在KG146、KG182和KG150三个鳞状分支中按平均相关性排序的前五种基因与鳞状上皮和角质化有关(DMRTA1、NECTIN4、DLX3、CXCL14、LYPD3),而在三个神经内分泌分支中按平均相关性排序的前五种基因中有四种与胶质细胞和神经细胞有关(TRPM3、ITPR2、PLPPR1、PPFIA2)(补充表5)。
Para_03
  1. Palantir 基因趋势如‘可视化模块趋势’部分所述进行了可视化,使用广义可加模型拟合基因表达沿 Palantir 计算的伪时间。
  2. 所有单个基因的表达趋势都是基于 MAGIC 插补的数据计算的(参见‘基因去噪和插补’部分),每个表达箱的标准差由拟合残差的标准差表示。
Cell state classifications in KG146 patient tumours

KG146患者肿瘤中的细胞状态分类

Para_01
  1. 为了注释KG146肿瘤细胞,我们首先通过确定解释75%方差的主要成分(119个主要成分)并使用PhenoGraph(v.1.5.7)(k=30)来识别六个簇,分析了原发肿瘤数据(880个细胞)。
  2. 对于肝脏转移瘤(1,279个细胞,200个主要成分),重复这一过程产生了九个簇。
  3. 我们将所有Hotspot基因模块得分从完整的肿瘤数据集中直接转移到KG146肿瘤细胞,并计算了每个簇的平均Hotspot基因模块得分。
  4. 根据与相应标签相关的特定基因模块的高分,我们将这些簇注释为ISC样、吸收样、分泌样、胎儿、损伤修复、神经内分泌样和鳞状样。
  5. 具体来说,在原发肿瘤数据中,这导致了四个ISC样簇、一个胎儿/损伤修复簇和一个分泌样簇。
  6. 而在肝脏转移数据中,则有两个ISC样簇、一个吸收样簇、一个分泌样簇、两个胎儿/损伤修复簇、一个神经内分泌簇和两个鳞状簇。
  7. 在两个数据集里,我们进一步基于ISC样细胞的独特表达,如增殖标记物MKI67和PCNA,将其中一个ISC样簇重新分类为TA/增殖样。
Para_02
  1. 我们使用 scanpy dotplot 函数根据 PhenoGraph (v.1.5.7) 聚类(列)和 Hotspot 模块得分(行)绘制了细胞群组图,聚类分配是通过每个样本中的 k=30 生成的(扩展数据图 9d)。
Normalizing and scoring gene sets in organoid data

在类器官数据中标准化和评分基因集

Para_01
  1. 为了确保模块和胎儿特征分数(扩展数据图9d和10a,c,d)在不同数据集之间具有可比性,我们将原始HISC、IGFF和伊立替康处理的类器官以及KG146患者肿瘤数据集合并,并按照"数据归一化和降维"部分所述方法对合并后的数据进行了归一化。
  2. 然后,我们对对数归一化后的基因表达矩阵中的每个细胞进行z-score标准化,并使用scanpy中的score_genes函数基于每个模块的基因列表和胎儿特征基因列表计算基因集得分。
  3. shPROX1类器官数据集按照"数据归一化和降维"部分所述的方法独立于该数据集进行了归一化。
Mapping organoid data to patient tumour

将类器官数据映射到患者肿瘤

Para_01
  1. 为了将每个类器官样本中的细胞映射到来自完整KG146患者数据集的表型上最接近的肿瘤细胞状态,我们开发了一种基于流形的分类器,该分类器结合了Harmony77框架和PhenoGraph11来在数据集之间转移标签。
  2. Harmony77框架用于使用通过互近邻增强的亲和矩阵连接单细胞RNA测序数据。
  3. 我们对每个类器官样本以及相关的匹配原发或转移患者样本进行了相同的分析,包括原始样本(图3b),伊立替康处理样本(扩展数据图5b)和shPROX1样本(图4a)。
  4. 该过程涉及三个不同的步骤——特征选择、共同嵌入和分类。
  5. 所得的numpy矩阵被串联起来以获得一个‘增强’的细胞-细胞亲和矩阵,该矩阵主要由三部分组成:(1)体内细胞之间的相似性;(2)体外细胞之间的相似性;(3)体外与体内细胞之间的相似性。

Feature selection

特征选择

Para_01
  1. 我们鉴定了 KG146 患者肿瘤数据集中每个注释细胞状态的前 100 个差异表达基因,总共得到了 800 个基因。
  2. 然后我们将得到的列表进行了划分,保留了对数折叠变化(log[FC])大于 3 并且经过 Benjamini–Hochberg 校正后的 P 值小于 0.001 的高度显著基因子集,最终得到了总计 753 个基因。
  3. 这些基因被用于主成分分析 (PCA) 并用于后续步骤中的邻近图生成。

Co-embedding

共嵌入

Para_01
  1. 正如预期的那样,由于体内和体外数据之间的差异,我们使用了标准的共嵌入方法(包括联合PCA和UMAP),观察到两个数据集之间存在极端的批次效应,使得相似细胞之间的标签转移无效。
  2. 因此,我们遵循之前概述的方法45来连接数据集。
  3. 我们首先分别在每个数据集中计算最近邻图(使用k=30的Scanpy邻居函数),然后使用Harmony77计算样本之间的互近邻(MNNs)。
  4. 重要的是,我们使用余弦距离度量来量化样本间细胞的距离,因为这种度量对技术性伪影不那么敏感,并且更好地反映了体内和体外样本中保守的生物状态78。
  5. 我们选择更多的互近邻数(k=60),因为它更能抵抗MNN图中的稀疏性。
Para_02
  1. 接下来,通过使用自适应高斯核(默认参数)将样本内的最近邻图和样本间MNN图分别转换为样本内的亲和矩阵和样本间的亲和矩阵,如Harmony77中所实现的那样。
  2. 由此得到的矩阵被连接起来,形成一个增强的细胞-细胞亲和矩阵,该矩阵主要包含三个部分:(1)体内细胞之间的相似性;(2)体外细胞之间的相似性;以及(3)体外细胞与体内细胞之间的相似性。
  3. 这个矩阵被输入到PhenoGraph(v.1.5.7)分类中(见下文),用于从参考数据集(KG146)传播标签到未标记的数据集(类器官),并生成患者数据集和类器官数据集的UMAP共嵌入。

Classification

分类

Para_01
  1. 最后,我们将步骤2中增强的亲和矩阵传递给PhenoGraph(v.1.5.7)分类函数11,默认参数不变。
  2. 该函数将亲和矩阵转换为行归一化的马尔可夫矩阵,并计算从体外样本中的未标记细胞开始的随机游走到达体内样本中标记细胞类别的概率。
  3. 最终,每个未标记的细胞被赋予具有最大概率的细胞状态标签。
Para_02
  1. 鉴于体外和体内样本之间存在较大差异,我们希望使用更粗略的细胞分型来总结我们的分类。
  2. 因此,为了总结我们的类器官样本分类,我们将不同细胞状态的概率汇总为三个概括类别;ISC样,将ISC/TA合并为TA/增殖态,将分化肠道中的吸收样和分泌样合并,以及将胎儿/损伤修复、神经内分泌和鳞状细胞合并为非典型。
  3. 这些分组可以解释为一个细胞属于所组合的多个细胞状态之一的可能性。
  4. 每个结果类别的概率使用python-ternary (v.1.0.8)软件包绘制成图(图3b和扩展数据图10b)。
Identification of fetal-state-associated transcription factors

胎儿状态相关转录因子的识别

Para_01
  1. 我们旨在生成一份排名列表,列出与非典型患者肿瘤中胎儿祖细胞状态相关且具有保守性的转录因子。
  2. 从包含1,665个人类转录因子的列表开始,我们将潜在目标限制为那些在所有四个患者数据集中(1)总UMI数超过10的转录因子(剩下1,099个转录因子);
  3. (2)在所有四个患者数据集中的任一细胞中至少有5个UMI(剩下527个转录因子);
  4. 以及(3)在所有四个患者数据集中至少有50个表达该转录因子的细胞(剩下508个转录因子)。
  5. 这一筛选过程旨在去除可能不易靶向的稀疏表达的转录因子,并将我们的分析限制在那些与胎儿特征更可靠相关的转录因子上。
Para_02
  1. 接下来,我们使用Palantir计算所有转录因子和胎儿祖细胞特征评分沿典型到非典型DC的表达趋势(参见‘界定患者中的典型到非典型肿瘤轴’部分)。
  2. 由于我们感兴趣的是驱动从典型到胎儿细胞状态转变的转录因子,我们关注那些在每个患者的DC中进入非典型状态前达到峰值表达的因子。
  3. 对于患者KG146、KG182、KG150和KG183,我们首先确定了沿其DC的胎儿祖细胞特征评分首次最大值的位置(如扩展数据图7a中的虚线所示)。
  4. 最大值被定义为趋势的一阶导数的第一个拐点(即,当导数首次从正变为负时)。
  5. KG150和KG183的趋势缺乏一阶导数的拐点,因此我们对这些患者使用了最大值的位置。
  6. 然后,我们仅使用患者DC中位于特征评分峰值之前的细胞位置来计算每个转录因子与胎儿祖细胞基因特征评分之间的皮尔逊相关系数。
  7. 这为每个转录因子产生了总共四个相关系数值,每个患者一个。
  8. 我们只关注在患者KG146中最小相关系数r为0.5的转录因子(剩下14个转录因子),以及在所有四个患者中最小相关系数r为0.2的转录因子(剩下5个转录因子)。
Para_03
  1. 我们通过计算伊立替康处理条件和未处理条件之间的对数转换倍数变化来确定其余六个转录因子在HISC培养的类器官中的治疗反应。
  2. 对数转换倍数变化仅使用被分类为非规范细胞的单细胞数据进行计算(参见"将类器官数据映射到患者肿瘤"部分)(扩展数据图11b)。

Multiplexed immunofluorescence

多路免疫荧光

Multiplexed tissue staining and imaging

多重组织染色和成像

Para_01
  1. 为了最大限度地捕捉肿瘤的所有区域,包括侵袭前沿,用于临床诊断的全部临床病理切片被用于成像(而不是通常用于组织芯片的芯吸活检)。
  2. 使用Leica Bond RX自动研究染色仪和DAB检测标准免疫组化染色优化了主要抗体染色条件(Leica Bond聚合物精制检测,DS9800)。
  3. 通过使用4微米FFPE组织切片和连续抗体滴定,确定了最佳抗体浓度,随后过渡到七色多重分析,并保持等效性。
  4. 在七色多重分析中,在一轮酪胺沉积后进行的一次循环后,进行了最佳主要抗体剥离条件的操作,然后是热诱导剥离(见下文)以及随后的显色开发(Leica Bond聚合物调节检测,DS9800),并通过光学显微镜对显色产物进行目视检查(T.J.H.)。
  5. 多重分析抗体和条件在补充表8中有所描述。
Seven-colour imaging assay

七色成像分析

Para_01
  1. FFPE 4微米组织切片在63°C下垂直放置烘烤2.5小时,随后在Leica Bond RX上进行脱蜡处理,接着使用Leica Bond ER2进行30分钟的抗原回收,然后进行六轮连续染色,每轮包括30分钟的封闭和一抗孵育(Akoya抗体稀释液/封闭液ARD1001EA),除了HER2需要1小时的孵育时间。
  2. 从每张组织切片中,我们平均捕获了大约九个视野(FOVs),每个视野面积为1.34平方毫米。
Para_02
  1. 对于铬粒蛋白A和OLFM4,使用辣根过氧化物酶(HRP)偶联聚合物(Akoya Opal聚合物HRP Ms + Rb ARH1001EA;1:5,孵育10分钟)进行了检测。
  2. 所有其他主要抗体的检测是使用山羊抗兔Poly HRP二级抗体(Invitrogen,B40962;1:100,孵育10分钟)进行的。
  3. 使用荧光酪胺信号扩增法和Opal染料520、540、570、620、650和690(Akoya,FP1487001KT,FP1494001KT,FP1488001KT,FP1495001KT,FP1496001KT,FP1497001KT)检测了与HRP偶联的二级抗体聚合物。
  4. 共价酪胺反应后,使用Akoya AR9缓冲液(AR900250ML)和Leica Bond ER2(90% AR9和10% ER2)在100°C下加热20分钟去除初级-次级抗体复合物,以便进行下一个循环(HER2(1 μg ml−1,CST,D8F12),CDX2(0.46 μg ml−1,CST,D11D10),TP63(0.15 μg ml−1,CST,D9L7L),PLCG2(0.2 μg ml−1,CST,E5U4T)和铬粒蛋白A(2.705 μg ml−1,Abcam,EP1030Y)的剥离周期为1次;SOX2(1.26 μg ml−1,Abcam,SP76),CK20(0.208 μg ml−1,CST,D9Z1Z),VIM(0.0375 μg ml−1,CST,D21H3),TROP2(3.29 μg ml−1,Abcam,SP294),CK5(0.142 μg ml−1,CST,E2T4B)和OLFM4(0.27 μg ml−1,CST,D1E4M)的剥离周期为2次;Ki-67(1:100,Biocare,SP6)的剥离周期为2.5次。
  5. 经过六轮连续染色后,用Hoechst(Invitrogen,33342)对切片进行染色以可视化细胞核,并用ProLong Gold抗褪色固定介质(Invitrogen,P36930)封片。
Multispectral imaging and spectral unmixing

多光谱成像和光谱解混

Para_01
  1. 七色多重染色切片使用Vectra多光谱成像系统版本3(Akoya)进行成像。
  2. 扫描是在×20(最终放大倍数为×200)下进行的。
  3. 用于多光谱成像的滤光片立方体包括DAPI、FITC、Cy3、Texas Red和Cy5。
  4. 使用Vectra图像分析软件(Akoya)创建了一个包含本研究中荧光团发射光谱峰值的光谱库。
  5. 利用单染色切片的多光谱图像,该光谱库被用来将每个多光谱立方体分离成单独的组成部分(光谱解混),从而允许使用Inform v.2.4图像分析软件识别七个感兴趣的标记通道。
Twelve-colour imaging assay

十二色成像分析

Para_01
  1. FFPE 4 µm组织切片在垂直载玻片方向上于62°C烘烤了1小时,随后进行了脱蜡预染色(Leica,Bond Dewax Solution,AR9222)和100°C下35分钟的Bond ER2(Leica,AR9640)抗原回收。
  2. 将Lunaphore COMET成像芯片(MK03)放置在根据与苏木精和伊红染色图像上选定区域对齐的获取区域内,然后装载到COMET设备中,并进行第一个自动荧光图像采集周期,接着是九个周期的染色、成像和洗脱。
  3. 每个周期包含一种兔源一级抗体和/或一种鼠源一级抗体(HER2(1 μg ml−1,CST,D8F12);CDX2(0.46 μg ml−1,CST,D11D10);PROX1(1.5 μg ml−1,CST,D2J6J);Ki-67(1 μg ml−1,Abcam,EPR3610);结蛋白(0.33 μg ml−1,Thermo Fisher Scientific,V9);PLCG2(1 μg ml−1,CST,E5U4T);CHGA(0.13 μg ml−1,CST,5H7);CK5(0.213 μg ml−1,CST,E2T4B);SYNC(2 μg ml−1,Thermo Fisher Scientific,Poly);CK20(0.21 μg ml−1,CST,D9Z1Z);GPC1(6.47 μg ml−1,Abcam,EPR22580-72)),并通过Alexa Flour偶联的种属特异性二级抗体(Invitrogen,10 µg ml−1;补充表8)检测。
  4. COMET自动执行循环染色、成像和洗脱。
  5. 每个标记物在该面板中的最佳浓度、在面板中的位置以及孵育时间(每个标记物每周期4分钟,但HER2为8分钟)被优化以与其相应的单次二氨基联苯胺免疫组化染色一致。
  6. MSK病理学家(T.H.)根据在Leica BondRX染色机上使用BOND聚合物精制检测试剂盒(Leica,DS9800)进行的DAB染色结果确定了每个标记物的最佳免疫组化染色。
  7. 所有抗体均预先稀释用于COMET分析(Intercept抗体稀释液,LI-COR,927-65001)。
  8. 每次染色周期后,使用洗脱缓冲液溶液(Lunaphore,BU07-L)洗脱一级和二级抗体。
  9. 对于每个样本,在Lunaphore载玻片盖玻片芯片下以20倍放大倍率成像一个82.5平方毫米的兴趣区域,并且一旦完成所有周期,自动生成完整的通道堆叠OME.tif文件。
Single-cell segmentation

单细胞分割

Para_01
  1. 我们使用 Mesmer (v.0.12)81,一种深度学习细胞分割算法,在所有 COMET 和 Vectra 图像中识别细胞边界。
  2. Mesmer (v.0.12) 的输入是一张单独的细胞核染色图像和一张单独的细胞膜或细胞质染色图像,用于定义每个细胞核和细胞的范围。
  3. 我们在所有 COMET 和 Vectra 图像中使用 DAPI 作为细胞核标记。
  4. 为了创建一个将定义多种细胞类型的边界的图像,我们将几个细胞类型特异性膜或细胞质标记通道组合成一张图像,通过最小-最大缩放每个通道(使用 sklearn.preprocessing (v.1.4.2) 包中的 MinMaxScaler 函数,并采用默认参数),然后求和。
  5. 对于 COMET,我们结合了 CK20、HER2、CK5、SYNC(正常和肿瘤上皮细胞)以及 VIM(间质细胞)。
  6. 对于 Vectra 面板 1,我们使用了 HER2、SOX2、CK20、CDX2 和 CHGA(肿瘤细胞)以及 VIM(间质细胞)。
  7. 对于 Vectra 面板 2,我们使用了 TP63、OLFM4、TROP2 和 CK5(肿瘤细胞)以及 PLCG2(间质细胞)。
Para_02
  1. 我们使用 Mesmer (v.0.12) 版本对这些图像进行处理,并使用默认参数预测细胞边界。
  2. 然后我们使用 Python skimage (v.0.23.2) 包中的 regionprops 函数(默认参数)计算每个细胞边界的细胞大小、离心率和质心。
  3. 在运行 Mesmer (v.0.12) 时,我们首先将 COMET 图像缩小一半,以便它们可以适应系统内存(128 GB 内存)。
  4. 对于细胞大小和 DAPI 表达,我们发现 Mesmer (v.0.12) 分割出的细胞分布呈双峰分布,较低的模式主要包含空区域而不是真实的细胞。
  5. 因此,我们将所有预测的细胞边界过滤掉,这些边界低于 30 平方像素的细胞大小阈值(根据分布估算)和 log2 归一化的 DAPI 强度 11(COMET),1(Vectra 面板 1)和 1(Vectra 面板 2)(根据分布估算)。
  6. 这导致 COMET 数据集中有 6,852,690 个细胞分布在 18 个视野中,Vectra 面板 1 数据集中有 6,090,968 个细胞分布在 664 个视野中;以及 Vectra 面板 2 数据集中有 5,213,051 个细胞分布在 602 个视野中。
Normalization, background removal and thresholding

归一化、背景去除和阈值处理

Para_01
  1. 原始的每个细胞标记物表达水平首先通过将每个细胞边界内的所有像素亮度值相加来确定。
  2. 为了确保我们的下游分析不受细胞大小的影响,我们随后将每个通道的每个细胞表达量除以由regionprops函数确定的细胞边界大小,如上所述。
  3. 归一化后,所有细胞被汇总到同一成像技术和面板(Vectra面板1、Vectra面板2和COMET)的细胞-表达矩阵中,用于下游分析,并用患者和样本级别的元数据进行注释。

CK5 background in Vectra panel 2

Vectra面板2中的CK5背景

Para_01
  1. 为了应对CK5染色中的高水平背景,一位经验丰富的医生手动标注了602个视野中的167个,以表明它们是否有高水平的背景信号。
  2. 为了识别剩余435个视野中的高背景图像,我们首先在标记为低背景的视野(大约0.0068)中找到了背景CK5信号的最高水平(视野内所有细胞表达的第10百分位)。
  3. 然后,我们将所有背景CK5信号大于0.0068且未被标注的视野分类为高背景。
  4. 因此,在后来的分析中使用了327个背景较低的未标注视野,而108个背景较高的视野被移除。
  5. 总的来说,在涉及Vectra面板2的所有图中,我们使用了456个背景CK5表达水平较低的视野。

Thresholding for tumour markers in Vectra panels 1 and 2

Vectra面板1和2中肿瘤标志物的阈值设定

Para_01
  1. 为了将细胞称为‘阳性’针对每个面板中的肿瘤标志物,我们计算了从0.0到1.0之间以小增量表达的所有细胞的分位数值,并找到了这些值的拐点(通常在所有标志物之间介于0.8和0.9之间)。
  2. 这种方法使我们能够避免对所有标志物使用单一的分位数阈值,因为这将是不合理的,标志物在样本中的表达分布是不同的。
  3. 我们方法背后的直觉是,当分位数值开始快速增加时的拐点反映了群体从阴性转变为阳性的变化。
  4. 这也可被视为一种无需拟合估计分布到数据的方法来找到分布的拐点。
  5. 我们通过比较手动标注医生在部分图像中标记的肿瘤区域中的肿瘤标志物表达来验证我们的标签。
  6. 然后我们选取所有被标记为阳性细胞的标志物,并重复拐点分析以识别具有高标志物表达的细胞子集,我们将该子集报告为上述‘单细胞分割’部分中列出的所有具有任何肿瘤标志物阳性细胞的百分比;我们以这种方式量化面板1中的CK20和面板2中的OLFM4、TROP2和CK5(扩展数据图3f和5a-d)。
PROX1+ and CDX2+ cell identification in COMET

在COMET中识别PROX1+和CDX2+细胞

Para_01
  1. 对于每个COMET图像,有经验的医生根据组织学手动界定了正常上皮和肿瘤组织对应的区域,并且我们仅保留了属于这些掩膜区域的细胞用于下游分析。
  2. 我们加入了这个初步过滤步骤,目的是(1)去除大部分间质细胞,从而减少下游的计算成本;以及(2)使用组织学证据区分肿瘤细胞与正常上皮,因为这从标记物表达中无法实现(例如,由于基底样肿瘤细胞中存在间质标记基因的表达)。
  3. 因为我们仅使用COMET数据来比较CDX2+肠细胞和PROX1+胎儿样细胞,所以我们首先将分析限制在表达PROX1或CDX2高于背景严格水平(每个图像未掩膜区域表达的第99百分位数分别计算)的细胞。
  4. 然后,我们去除了6个样本中少于1% PROX1表达细胞的样本,剩下7个样本。
  5. 对于这些样本中的每一个,如果它们的一个或两个基因的表达大于平均值的0.5个标准差以上,我们进一步将其标记为CDX2+、PROX1+或双阳性。

Organoid experimental methods

类器官实验方法

Organoid and cell culture

类器官和细胞培养

Para_01
  1. 类器官使用含有3 mM EDTA的DPBS从Matrigel中收集,并在必要时用TrypLE(赛默飞世尔科技)在37°C下处理5-10分钟,然后通过40 μm细胞过滤器生成单细胞。
  2. 细胞以每40 μl Matrigel 2,000个细胞的密度接种,并在37°C下孵育30分钟直至形成稳定的滴。
  3. 类器官在HISC(高级DMEM/F12(AdDF12;赛默飞世尔科技),GlutaMAX(2 mM,赛默飞世尔科技),HEPES(10 mM,赛默飞世尔科技),N-乙酰-L-半胱氨酸(1 mM,西格玛奥德里奇),含维生素A的B27补充剂(赛默飞世尔科技),primocin(100 μg ml−1,英维诺根),EGF(50 ng ml−1,培罗泰克),Noggin(100 ng ml−1,培罗泰克),A8301(500 nM,西格玛奥德里奇),FGF2(50 ng ml−1,培罗泰克),IGF-I(100 ng ml−1,培罗泰克))或IGFF(不含EGF、Noggin、A-8301、FGF2、IGF-I的HISC)培养基中培养,并补充Y-27632。
  4. 培养基每3-4天更换一次。
  5. 类器官在第7天收集用于下游分析。
  6. 在必要时,小型完整的类器官(传代后2-3天)用250 nM伊立替康加入HISC培养基中处理7天,然后收集用于下游分析。
  7. 慢病毒生产和类器官转导按先前描述的方法进行82。
  8. 简言之,HEK293T细胞(ATCC)在含有10% FBS、GlutaMAX(2 mM,赛默飞世尔科技)和青霉素-链霉素(100 IU ml−1,0.1 mg ml−1,赛默飞世尔科技)的DMEM中培养。
  9. 所有细胞检测均为支原体阴性。
  10. 对于scRNA-seq,类器官使用含有3 mM EDTA的DPBS从Matrigel中收集,在室温下用Accutase(西格玛奥德里奇)处理30-45分钟分解为单细胞,用IGFF培养基洗涤并按上述方法处理。
Inducible knockdown

诱导性敲降

Para_01
  1. 为了进行四环素诱导的PROX1敲低实验,合成了新的97个碱基mirE shRNA序列(IDT Ultramers),并通过引物miRE-Xho-fw(5′-TGAACTCGAGAAGGTATATTGCTGTTGACAGTGAGCG-3′)和miRE-EcoOligo-rev(5′-TCTCGAATTCTAGCCCCTTGAAGTCCGAGGCAGTAGGC-3′)进行了PCR扩增,如先前所述83。
  2. 这些序列(shPROX1-1: TGCTGTTGACAGTGAGCGCGAGGACCAAGATGTCATCTCATAGTGAAGCCACAGATGTATGAGATGACATCTTGGTCCTCATGCCTACTGCCTCGGA;shPROX1-2: TGCTGTTGACAGTGAGCGCCCCCGAGAAAGTTACAGAGAATAGTGAAGCCACAGATGTATTCTCTGTAACTTTCTCGGGGATGCCTACTGCCTCGGA)被克隆到LT3GEPIR骨架83(Addgene,111177)中,并用于生成慢病毒颗粒,以转导到类器官中,如先前所述82。
  3. 作为对照,使用了含有针对Renilla 306荧光素酶的shRNA序列的原始质粒(shRen.713)。
  4. 通过补充了2 μg ml−1嘌呤霉素的HISC培养基选择转导后的类器官7天。
  5. 对于诱导敲低实验,将类器官解离成单细胞,在40 μl基质胶中以每孔2,000个细胞的密度接种,并在HISC或IGFF培养基中维持,除非另有说明,否则补充了2 μg ml−1多西环素(Thermo Fisher Scientific),共维持7天,之后进行下游分析。
  6. 对于类器官起始和生长分析,将含有诱导型PROX1或对照shRNA的类器官在补充了2 μg ml−1多西环素的HISC培养基中培养7天后,解离成单细胞,用DAPI(1 μg ml−1,Thermo Fisher Scientific)染色,并通过流式细胞仪分选活细胞(DAPI−)和GFP+细胞,以选择表达shRNA构建体的健康细胞。
  7. 然后将这些细胞以每15 μl基质胶750个细胞的密度接种于HISC培养基中,不添加Y-27632,并补充了2 μg ml−1多西环素,7天后进行成像(BioTek)。
Western blotting

Western blotting

Para_01
  1. 大约从基质胶中用3 mM EDTA的DPBS回收了4,000个类器官(3-4百万个细胞),然后进行了洗涤、离心(200g,5分钟,4°C)并在冰上用含有PPI(1:100,西格玛奥德里奇,04693132001)和苯扎赛布(1:100,赛默飞世尔科技,70-664-3)的1×RIPA缓冲液裂解30分钟。
  2. 使用皮尔斯BCA测定法(赛默飞世尔科技,23227)确定蛋白质浓度。
  3. 每个样品分离出10微克蛋白质,在双三羟甲基氨基甲烷聚丙烯酰胺凝胶(赛默飞世尔科技,NW04120BOX)上通过SDS-PAGE进行分离,转移到活化的PVDF膜(密理博,IPFL00010)上,并在3% BSA-TBST溶液中封闭30分钟。
  4. 膜在4°C下与以下抗体一起孵育过夜:小鼠抗β-肌动蛋白(1:1,000,赛默飞世尔科技,AM4302)和兔抗PROX1(1:1,000,阿贝马,ab199359),随后在室温下用488抗小鼠和680抗兔二抗(1:5,000,丽科生物科学,1小时)孵育,然后进行成像(Odyssey CLx)。
  5. 使用ImageJ(v.1.53t)84对Western印迹进行了定量。
Organoid whole-mount immunofluorescence

类器官全山免疫荧光

Para_01
  1. 整个类器官被放置在含有10% Matrigel和HISC培养基的腔室载玻片(可拆卸孔)上(赛默飞世尔科技,177380),并在37°C下孵育1小时。
  2. 然后,类器官在PME溶液中的4%多聚甲醛中固定10分钟,用免疫荧光缓冲液(0.2%吐温-20和0.2%Triton X-100溶于DPBS)洗涤两次。
  3. 接着,在室温下使用含0.5% Triton X-100的DPBS渗透处理10分钟。
  4. 然后在10%正常山羊血清(赛默飞世尔科技,50062Z)中封闭30分钟。
  5. 随后,在4°C下使用含有1:500稀释的兔抗PROX1抗体(阿贝姆,ab199359)在10%正常山羊血清中过夜孵育。
  6. 类器官在室温下与1:400稀释的594标记的兔抗体(英潍捷基,A11012)孵育1小时。
  7. 然后用免疫荧光缓冲液洗涤三次,再用冷DPBS洗涤一次。
  8. 移除孔板后,样品使用含有DAPI的介质进行封片(诺普斯生物技术,H-1200-NB)。
  9. 成像在蔡司Axio Imager 2带Apotome结构化照明显微镜上进行。
  10. 使用CellProfiler软件(v.4.2.5)对PROX1表达进行量化。
RT–qPCR

实时定量聚合酶链反应

Para_01
  1. 总RNA使用RNeasy Mini试剂盒(Qiagen)从类器官中提取。
  2. 使用Transcriptor First-Strand cDNA合成试剂盒(Roche),用3-4 μg的总RNA制备cDNA。
  3. qPCR使用TaqMan基因表达测定引物(Thermo Fisher Scientific;PROX1, Hs00896293_m1;GAPDH, Hs02758991_g1;ELF5, Hs01063022_m1;KRT23, Hs00210096_m1;TFF3, Hs00902278_m1;FABP1, Hs00155026_m1;TRPS1, Hs00936363_m1;GNAI1, Hs01053355_m1;FGF20, Hs00173929_m1;NELL2, Hs00196254_m1;NRXN3, Hs01028186_m1;POMC, Hs01596743_m1;KRT20, Hs00300643_m1;GPC1, Hs00892476_m1;LGR5, Hs00173664_m1;TMEM132A, Hs01096434_m1;NEUROD1, Hs01922995_s1;CHGB, Hs01084631_m1)进行。
  4. 相对表达量使用ΔΔCt方法进行定量,并在QuantStudio 6和7 Pro实时PCR系统(Applied Biosystems)上通过GAPDH的表达进行标准化。
Orthotopic xenograft experiments

异种移植实验

Para_01
  1. 所有动物实验均按照纪念斯隆凯特琳癌症中心机构动物护理和使用委员会(IACUC)批准的方案进行。
  2. NSG(NOD.Cg-PrkdcscidIl2rgtm1Wjl/SzJ,005557)小鼠从杰克逊实验室获得,并在6周龄时移植。
  3. 小鼠在特定病原体自由(SPF)设施中饲养,遵循12小时光照-12小时黑暗循环,在受控温度和湿度条件下,自由获取标准饲料或补充了2500 ppm多西环素的辐照饲料和水。
  4. 对于正位盲肠和肝内注射,OKG146P、OKG146Li、OKG136P或OKG136Li类器官通过Gibson组装与pLenti-PGK-Akaluc(AkaLuc)或pLenti-PGK-tdTomato-Akaluc(TdT-AkaLuc)病毒(从pLenti-PGK-Venus-Akaluc(neo)亚克隆而来)以及HR180-LGR5-iCT质粒一起转导。
  5. 对于评估PROX1敲低的肝内注射,表达针对PROX1或Renilla对照shRNA的OKG146P和OKG136P品系通过pLenti-PGK-Akaluc(AkaLuc)转导。
  6. 对于盲肠注射,每种类器官品系的200,000个细胞与50%基质胶混合,在10μl HISC中注射到NSG小鼠的盲肠黏膜下层。
  7. 对于肝内注射,每种类器官品系的500,000个细胞与50%基质胶混合,在10μl HISC中注射到NSG小鼠的肝脏囊下。
  8. 每周在IVIS Spectrum Xenogen仪器(Caliper生命科学)上进行生物发光成像,并使用Living Image软件v.2.50进行分析。
  9. 实验组大小基于每笼五只小鼠确定,每组至少有五个年龄和性别匹配的小鼠。
  10. 相关情况下,动物被随机分配到实验组。
  11. 当肿瘤体积超过体重的10%以上,或者小鼠表现出任何呼吸困难或疾病迹象(如弓背姿势、不梳理毛发或体重减轻超过10-15%)时,达到实验终点。
  12. 这些限制在所有实验中都没有被超过。
  13. 动物在人道终点被安乐死,收集组织用于下游检测。
  14. 必要时,组织用4%多聚甲醛固定。
  15. 评分病理样本时,研究人员对小鼠分组不知情。
Statistics and reproducibility

统计和可重复性

Para_01
  1. 体外实验至少独立重复了三次,结果相似。

Reporting summary

报告摘要

Para_01
  1. 关于研究设计的更多信息,请参阅本文链接的Nature Portfolio报告摘要。
  2. ,

Data availability

Para_01
  1. 所有原始和处理后的测序和成像数据,包括基于细胞的表达矩阵,均可通过HTAN数据门户(http://humantumoratlas.org/publications/hta8_crc_moorman_2024)及其链接访问。
  2. 原始测序数据已存放在dbGaP(phs002371.v6.p1),并通过HTAN数据门户链接(https://data.humantumoratlas.org/data-access)。
  3. 本研究中使用了以下公开可用的数据集:人类时空肠道细胞图谱(https://www.gutcellatlas.org/#datasets)和CRC共识分子亚型中心数据(https://doi.org/10.7303/syn2623706)。
  4. 本文提供了源数据。

Code availability

Para_01
  1. 包含标记和代码以复制图表的Python笔记本可以在GitHub (https://github.com/dpeerlab/progressive-plasticity-crc-metastasis.git) 获取。

Change history

[ul]- 09 January 2025 A Correction to this paper has been published: https://doi.org/10.1038/s41586-024-08560-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Main
  • Decreased ISC program in CRC metastases
  • Non-canonical programs in metastases
  • Non-canonical states associate with poor outcomes
  • Stereotyped cell-state transitions in CRC
  • Determinants of non-canonical states
  • Discussion
  • Methods
    • Patient biospecimen procurement and processing
      • Tissue collection
      • Patient metadata
      • Tissue processing
      • scRNA-seq
      • Organoid generation and culture
      • MSK-IMPACT
      • FACETS
    • Computational data analysis
      • scRNA-seq data pre-processing
    • Alignment of sequencing reads
    • CellBender to subtract ambient RNA
    • Removal of low-quality cells
      • scRNA-seq data analysis
    • Data normalization and dimensionality reduction
    • Data visualization
    • Gene expression denoising and imputation
    • Gene signature scores
      • Cell annotation
    • Partitioning cells into epithelial, stromal and immune compartments
    • Analysis of the epithelial compartment
    • Tumour cell identification using single-cell CNA calls
    • Cell type annotation in the non-tumour epithelial compartment
      • Comparison of normal ISCs and treatment-naive tumours
    • Creation of an ISC-specific gene signature
    • PCA and annotation of PC1
    • DEG and GSEA analysis between untreated tumour and ISC cells
    • Identification of ISC phenotypic admixture in treatment-naive tumours
    • Gene correlations in normal intestine and untreated tumour
      • Identification of Hotspot gene modules in CRC tumour data
    • Hotspot module clustering
    • Hotspot module grouping and annotation
    • Hotspot gene module scores
    • Robustness of Hotspot modules
    • Distribution of module expression among samples
      • Interpatient entropy of gene modules
      • Association of gene modules with clinical covariates in bulk RNA-seq data
    • ssGSEA analysis
    • Associations with clinical covariates
    • Survival analyses in TCGA-COAD cohort
      • Delineation of canonical to non-canonical tumour axes across patients
    • Visualization of module trends
      • Derivation of a human fetal colon progenitor gene signature
    • Data reprocessing and DEG analysis
    • Comparison with existing dedifferentiation signatures
    • Mapping fetal signature along tumour progression axis
    • Kaplan–Meier analyses of fetal signature in bulk data
      • Pseudo-ordering of cell states by module overlap
      • Replication in an independent CRC scRNA-seq dataset
      • Palantir pseudotime and branch calculations
      • Cell state classifications in KG146 patient tumours
      • Normalizing and scoring gene sets in organoid data
      • Mapping organoid data to patient tumour
    • Feature selection
    • Co-embedding
    • Classification
      • Identification of fetal-state-associated transcription factors
    • Multiplexed immunofluorescence
      • Multiplexed tissue staining and imaging
      • Seven-colour imaging assay
      • Multispectral imaging and spectral unmixing
      • Twelve-colour imaging assay
      • Single-cell segmentation
      • Normalization, background removal and thresholding
    • CK5 background in Vectra panel 2
    • Thresholding for tumour markers in Vectra panels 1 and 2
      • PROX1+ and CDX2+ cell identification in COMET
    • Organoid experimental methods
      • Organoid and cell culture
      • Inducible knockdown
      • Western blotting
      • Organoid whole-mount immunofluorescence
      • RT–qPCR
      • Orthotopic xenograft experiments
      • Statistics and reproducibility
    • Reporting summary
  • Data availability
  • Code availability
  • Change history
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档