首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >提供超全面代码,看看顶刊 Nat Med 是如何用单细胞和空间转录组研究癌症的

提供超全面代码,看看顶刊 Nat Med 是如何用单细胞和空间转录组研究癌症的

作者头像
生信菜鸟团
发布2024-11-28 20:55:36
发布2024-11-28 20:55:36
5920
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题: A multi-modal single-cell and spatial expression map of metastatic breast cancer biopsies across clinicopathological features
  • 中文标题:转移性乳腺癌活检的多模式单细胞和空间表达图谱跨越临床病理特征
  • 发表日期:30 October 2024
  • 文章类型:Article
  • 所属期刊:Nature Medicine
  • 文章作者:Johanna Klughammer | Nikhil Wagle
  • 文章链接:https://www.nature.com/articles/s41591-024-03215-z

Abstract

Para_01
  1. 尽管转移性疾病是癌症相关死亡的主要原因,但由于技术和生物样本的限制,其肿瘤微环境仍未得到充分表征。
  2. 在这项研究中,我们汇集了来自60名转移性乳腺癌患者的67个肿瘤活检样本,这些样本跨越了多种临床病理特征和九个解剖部位,并附有详细的临床注释。
  3. 我们结合了所有活检的单细胞或单核RNA测序与四种空间表达测定(Slide-seq、MERFISH、ExSeq和CODEX)以及多达15个活检连续切片的H&E染色。
  4. 我们利用耦合测量提供了不同实验技术效用和整合的参考点,并用它们评估了细胞类型组成和表达以及空间表达特征在临床病理和方法多样性中的变异性。
  5. 最后,我们评估了巨噬细胞群体的空间表达和共定位特征,表征了上皮-间质转化的三种不同空间表型,并确定了与局部T细胞浸润或排斥相关的表达程序,展示了此类地图在临床上的相关发现潜力。

Main

Para_01
  1. 虽然恶性细胞是癌症的决定性特征,但肿瘤由恶性细胞和非恶性细胞组成,在复杂的生态系统中相互作用,影响疾病进展。
  2. 理解这些相互作用对临床转化具有潜在价值。
  3. 例如,尽管肿瘤浸润淋巴细胞(TILs)通常与良好的预后相关,但仍存在显著的异质性。
  4. 在原发性乳腺癌(BC)中,TILs 可预测新辅助化疗的反应,并在三阴性乳腺癌(TNBC)和人表皮生长因子受体 2 阳性(HER2+)乳腺癌中改善生存率,但在激素受体阳性(HR+)乳腺癌中的影响仍不清楚,可能取决于恶性细胞或 TILs 的不同状态。
Para_02
  1. 最近在单细胞和空间分析方面的进展使得能够以前所未有的分辨率研究组织生态系统。
  2. 然而,很少有研究集中在转移性疾病上,这可能是因为样本限制,包括可用性、大小和多样性。
  3. 此外,各种可用方法具有不同的设计参数,给用户在选择方法时带来了挑战。
  4. 作为人类肿瘤图谱网络(HTAN)的一部分,我们使用了单细胞和单核RNA测序(sc/snRNA-seq)以及四种不同的空间表达方法(CODEX、靶向ExSeq、MERFISH和Slide-seq)来分析一组患有转移性乳腺癌(MBC)患者的肿瘤活检样本,MBC是全球女性癌症相关死亡的主要原因,旨在为这些方法的实际应用提供信息,并深化对MBC的理解。

Results

Single-cell and spatial expression profiling of clinical variables

临床变量的单细胞和空间表达谱分析

Para_01
  1. 为了比较分析方法并描述 MBC 活检的细胞表达谱,我们创建了一个涵盖相关临床变量和多种分析方法的综合数据集(图 1a),并结合了整合这些数据的分析框架,通过协调特征、数据格式、位置分辨率、坐标和空间注册(图 1b 和方法),分析了关键特征,包括细胞组成、基因表达程序、免疫表型和共定位(图 1b)。
  2. 我们对 60 名 MBC 患者的 67 份活检样本进行了分析(30 份:单细胞 RNA 测序,37 份:单核 RNA 测序),涵盖了受体亚型(44 份:HR+/HER2−,3 份:HR+/HER2+,3 份:HR−/HER2+,16 份:HR−/HER2−)和常见病变部位(37 份:肝脏,9 份:腋窝,7 份:乳房,5 份:骨骼,3 份:胸壁,3 份:颈部,1 份:大脑,1 份:肺,1 份:皮肤;乳房活检是在 MBC 诊断后从原发部位采集的)(图 1a,c 和扩展数据图 1a)。
  3. 对于 15 份活检样本,我们从同一病灶/手术的第二个活检核心的连续切片中收集了匹配的空间数据,使用多达四种空间方法和苏木精和伊红(H&E)染色(图 1c,扩展数据图 1a,b 和补充表 1 和 2)。

Fig. 1: Profiling of MBC biopsies using scRNA-seq, snRNA-seq and four spatial expression methods.

  • 示意图展示了样本获取和数据生成的过程。用于研究的核心活检组织被嵌入OCT或进行单细胞RNA测序(scRNA-seq)。每份活检样本,一个新鲜或冷冻的核心被用于scRNA-seq或snRNA-seq。
  • 为了匹配的空间分析,同一活检程序中的第二个OCT嵌入核心被切成两组五个10微米的连续切片,分别用四种空间表达方法(Slide-seq、CODEX、MERFISH和ExSeq)和H&E染色处理。
  • 示意图展示了不同产生的数据类型的特性、数据处理框架以及所进行的分析。
  • 概述了产生的单细胞RNA测序(scRNA-seq)、单核RNA测序(snRNA-seq)和空间表达数据的统计信息,以及用于空间分析的核心活检的示例H&E图像。每个被分析的核心的活检部位和受体状态均被标明,还包括了被分析的观察数量(细胞、珠子或区域)和检测到的特征数量(RNA种类或蛋白质)。每个空间表达方法和活检的重复次数也在相应的气泡中指出。HR表示激素受体(ESR1和PGR)。来自同一患者的活检用粗体字标记并通过线条连接。
  • 聚类热图显示了基于样本特异性伪批量表达的方法之间的成对Spearman相关性。
Para_02
  1. 空间技术代表了一系列设计参数(扩展数据图 1b)。
  2. Slide-seq 使用 10 微米的珠子(独立于样本结构定位)以接近细胞分辨率的捕获整个转录组。
  3. CODEX、MERFISH 和 ExSeq 分别使用单细胞、亚细胞或超分辨率成像来靶向选定的蛋白质面板(CODEX)或 RNA 面板(MERFISH 和 ExSeq)。
  4. 虽然 ExSeq 可以是靶向或非靶向的,MERFISH 潜在地可以靶向多达数千种 RNA,但根据单细胞/核 RNA 测序数据和先验知识,我们为 MERFISH 和 ExSeq 设计了一个专门的 297 基因面板。
Para_03
  1. 我们选择了肿瘤含量和组织质量的活检样本,并覆盖了不同部位和受体状态的组合。
  2. 我们从15个中的15个活检样本获得了高质量的Slide-seq数据,从13个中的13个活检样本获得了CODEX数据,以及从14个中的9个活检样本分别获得了MERFISH和ExSeq数据(图1c和扩展数据图1b)。
  3. 各实验室根据自身标准单独设定了样本质量控制(QC)标准(方法)。
  4. MERFISH的成功率相对较低,这是因为其严格的纳入标准(MERFISH与匹配的sc/snRNA-seq伪批量谱型之间的皮尔森相关系数r > 0.6);对于ExSeq,其成功率低归因于技术挑战(包括组织保存、RNA质量和自发荧光)。
Para_04
  1. 我们以两种方式分析了单分子分辨率的MERFISH和ExSeq数据:在细胞分割后按细胞聚合信号或在10×10微米的空间箱中聚合信号。
  2. 我们通过其原生的10微米珠子分析了Slide-seq,并在分割细胞的水平上分析了CODEX(图1b,c)。
  3. 通过10×10微米的箱来分析单分子数据在计算机上生成了更粗糙的数据,但避免了分割偏差,并允许与Slide-seq数据进行比较,同时保持了其他方法特有的属性(例如,检测灵敏度)。
Para_05
  1. 正如预期的那样,这些方法在捕获的观察数量(细胞/核/珠子/箱)和每个观察的分子特征(基因/蛋白质)方面有所不同(图 1c、扩展数据图 2a,b 和补充表 1 和 2)。
  2. 使用 snRNA-seq 的观察数量和每个观察的特征比使用 scRNA-seq 的多,而 Slide-seq 的观察数量相似,但每个观察的特征少得多。
  3. 根据定义,预定义面板方法(MERFISH、ExSeq 和 CODEX)检测到的每个观察的特征较少(图 1c 和扩展数据图 2b)。
  4. 在捕捉整个组织切片的 CODEX 和 MERFISH 之间,CODEX 在每张切片上的观察数量多于分段版本的 MERFISH,但少于分箱版本的 MERFISH(图 1c 和扩展数据图 2b)。
  5. ExSeq 只捕捉一个小视野(FOV)(<1 平方毫米),在其分段版本中每张切片的观察数量最少,分箱后这一数量仅略有增加(图 1c 和扩展数据图 2b)。
  6. 除 ExSeq 外,所有方法之间的伪批量样本表达谱相关性都很高(斯皮尔曼 ρ = 0.41 (CODEX 对 scRNA-seq) 至 0.75 (Slide-seq 对 scRNA-seq),ρ = -0.1 至 0.086 (ExSeq))(图 1d)。
  7. 正如预期的那样,MERFISH 和 ExSeq 的分段和分箱版本显示出接近完美的相关性,分别为 0.97 和 1(图 1d)。

Clinical features are associated with cell type composition

临床特征与细胞类型组成相关

Para_01
  1. 我们在单细胞/单核 RNA 测序中使用半自动方法(方法和图 2a),结合对每种细胞类型前五位标志基因的检查(扩展数据图 3a,b)进行了细胞类型的注释。
  2. 尽管大多数细胞类型在单核 RNA 测序和单细胞 RNA 测序中都有识别,但有些细胞类型仅在单核 RNA 测序中检测到(脂肪细胞、神经元、某些内皮亚群、星状细胞和平滑肌及骨骼肌细胞)或仅在单细胞 RNA 测序中检测到(中性粒细胞、肥大细胞、红细胞和角质形成细胞)(图 2a 和扩展数据图 3a,c),这与之前的报告基本一致。
  3. 来自原发性乳腺癌单细胞 RNA 测序的几种细胞亚型特征在预期的细胞类型中得分较高(扩展数据图 3d)。
  4. 正如预期的那样,大多数从单细胞 RNA 测序得出的特征在单细胞 RNA 测序中的得分高于在单核 RNA 测序中的得分。

Fig. 2: Cell type composition and expression variance in snRNA-seq and scRNA-seq data.

  • a, 单核 RNA 测序和单细胞 RNA 测序数据的 UMAP 表示,按细胞类型着色。
  • b, 堆叠条形图显示了每个样本中的细胞区室组成,包括单核 RNA 测序和单细胞 RNA 测序数据。来自同一患者的样本用粗体突出显示。
  • c, 堆叠条形图显示了来自同一患者的样本对的细胞类型组成。sc, 单细胞 RNA 测序;sn, 单核 RNA 测序。
  • d, 小提琴图和箱线图表示了每个标注的 26 种细胞类型的细胞类型频率变化百分比由所指示变量解释的程度(e)。n = 26 种细胞类型;tx, 治疗。
  • e, 堆叠条形图显示了每个标注的 26 种细胞类型的细胞类型频率变化百分比由所指示变量解释的程度。
  • f, 箱线图带有叠加的数据点(=样本),表示根据解释巨噬细胞频率变化的两个变量的不同属性分层的标准化巨噬细胞频率(皮尔逊列联比)。差异的显著性(双侧 Wilcoxon 检验,Benjamini-Hochberg 校正)已标出。n 表示活检样本的数量。
  • g, 点图描绘了恶性标记基因以及疾病相关 BC 生物标志物在恶性细胞中的表达水平(平均表达)和频率(表达细胞的比例),按分析方法和受体状态分组。
  • h, 聚类热图显示了每一样本的恶性细胞群体的伪批量表达谱之间的成对相关性,使用 ComBat(方法)校正了分析方法。插图:箱线图叠加了个别数据点(=如热图中的样本组合)显示了 PAM50 组内样本之间的成对皮尔逊相关性。基底组与其他所有组之间的差异显著性(双侧 Wilcoxon 检验)已标出。
  • i, 小提琴图和箱线图表示了所有基因在样本级和区室级伪批量谱型中归一化表达水平的变化百分比,由所指示变量解释。前 3-5 个基因已标出。n = 26,539 个基因。
  • j, 堆叠条形图显示了 i 中所指示变量解释的样本级和区室级伪批量谱型中归一化表达水平的变化百分比,针对三个定义受体状态的基因 ESR1、PGR 和 ERBB2。
Para_02
  1. 尽管大多数恶性细胞表现出类似上皮的表达谱型,在少数样本中我们观察到了软骨样(样本 586-8599)、干细胞样(样本 917-4531)或神经元样(样本 944-7479 和 890-7299)的表达谱型。
  2. 有趣的是,这些表达谱型与独特的临床病理特征相关联。
  3. 具有干细胞样表达谱型的样本来自队列中从初次诊断到总生存期最短(<2 年)的患者,尽管该患者表现为 I 期疾病并接受了适当的治疗。
  4. 具有软骨样表达谱型的样本是唯一具有化生性组织学的活检样本,且临床病理独立描述了软骨分化。
  5. 化生性乳腺癌是一种罕见且异质性的亚型,总体预后较差,并且对细胞毒性化疗反应不佳,但初步数据显示其可能对免疫治疗有反应,频繁表达 PD-L1,且在一项 2 期试验中有一部分患者对联合检查点阻断有显著反应。
  6. 虽然只是个案,这些小故事表明,通过单细胞/单核 RNA 测序恢复的表达特征可以与罕见的临床病理特征一致,并可能值得进一步研究。
Para_03
  1. 活检样本由四个主要组成部分(恶性、间质、髓系和淋巴系)组成,各不相同,但总体而言,单细胞 RNA 测序(scRNA-seq)捕获了更高比例的免疫细胞,而单核 RNA 测序(snRNA-seq)则更多地代表了恶性细胞和间质细胞(图 2b),这些细胞在解离过程中容易死亡。
  2. 为了研究成分差异的来源,我们分析了七名患者各自提供的两个活检样本。
  3. 在一个案例中,从同一程序中获取的两个核心分别使用 snRNA-seq 和 scRNA-seq 进行了分析。
  4. 这些结果显示,scRNA-seq 中富含免疫细胞,而 snRNA-seq 中则富含恶性细胞和间质细胞(图 2c)。
  5. 在三名患者中,配对的活检样本是从同一病灶的不同时间点获得的(相隔 70-220 天),每对样本整体上显示出相对相似的组成,但在 T 细胞和巨噬细胞的频率上有所变化(两例减少,一例增加)。
  6. 相比之下,在另外三名患者的配对活检样本来自不同病灶或部位的情况下,我们观察到了更显著的差异,主要是由肝细胞和成纤维细胞驱动的。
  7. 无论采用何种方法,生物因素如个体、时间、病灶和部位,都可能对组成产生重大影响。
Para_04
  1. 我们研究了单细胞 RNA 测序(scRNA-seq,四个活检样本)与单核 RNA 测序(snRNA-seq,一个活检样本)在骨活检中的影响,这是一个临床相关的转移部位,但提供的活检材料较少(扩展数据图 3e, f)。
  2. 尽管 scRNA-seq 在四个样本中仅捕获到两个恶性细胞,而 snRNA-seq 能够很好地捕获恶性细胞部分,但获得的免疫细胞较少(扩展数据图 3e),这表明当优先考虑恶性细胞谱型时,snRNA-seq 可能更为合适;而当优先考虑相关免疫细胞时,scRNA-seq 可能更为合适。
  3. 值得注意的是,之前报道与骨转移有关的基因表达在所有活检部位(不仅限于骨骼)均有检测到,并且这种表达具有细胞类型特异性(扩展数据图 3f),有两个例外(SPP1 和 CCN2),它们分别在腋窝、骨骼和乳腺的巨噬细胞和成纤维细胞中表达较高(扩展数据图 3f)。
  4. 我们还考察了 snRNA-seq 对脑转移瘤的谱型能力,这是一个在基因组数据集中代表性不足的临床相关部位。snRNA-seq 成功地捕获了恶性细胞和肿瘤微环境,这在一定程度上支持了这种方法(扩展数据图 3e)。
Para_05
  1. 接下来,我们系统地量化了生物、临床和技术变量对细胞类型组成的变异性的贡献(方法)。
  2. 患者ID、分析方法和部位解释了总体变异性的最大部分(图2d),但其他变量对特定细胞类型的变异有相当大的影响(图2e)。
  3. 软骨细胞变异性的约20%由组织学解释,而巨噬细胞的变异性则由治疗类别(约50%)和受体状态(约10%)解释(图2e)。
  4. 较高的巨噬细胞丰度与最近的免疫治疗和HR-/HER2-疾病相关(图2f)。

Clinical features explain variation in expression profiles

临床特征解释了表达谱中的变异

Para_01
  1. 尽管非恶性细胞明显按细胞类型分组,但恶性细胞首先按患者分组(图2a),正如先前在实体瘤单细胞RNA测序中所描述的那样,与患者之间推断出的拷贝数异常(CNA)模式多样化一致(扩展数据图4a,b)。
  2. 相反,同一患者的活检样本在不同病变部位(扩展数据图4c)、分析方法(扩展数据图4d)和时间点(扩展数据图4e,f)上表现出一致的推断CNA。
  3. 两名相隔220天取样的患者(患者862),期间接受过治疗,仍保留了相同的亚克隆结构,尽管比例有所不同(扩展数据图4e)。
Para_02
  1. 正如预期,ESR1、PGR 和 ERBB2 的表达在患者间的变异与临床受体状态吻合良好。
  2. 然而,在雌激素受体阳性(ER+)样本中,ESR1 表达在单核 RNA 测序(snRNA-seq)中被更稳健地捕获(图 2g)。
  3. 已建立的乳腺癌上皮标志基因(EPCAM、KRT8、KRT18、KRT19 和 TRPS1)的患者间变异受受体状态影响较小,但显著受到分析方法的影响(图 2g)。
Para_03
  1. 在表达程序水平上,通过恶性细胞中的基因集富集分析(GSEA)特征签名得分对恶性谱型进行聚类,在snRNA-seq中产生了清晰的分组(例如,干扰素反应、雌激素反应和MYC/G2M检查点组),但在scRNA-seq中则不那么明显,少数例外(例如,414和586分别在上皮-间充质转化(EMT)和血管生成方面得分较高)。
  2. 使用整合非负矩阵分解(iNMF)方法从snRNA-seq和scRNA-seq中分别学习到的40个跨样本恶性表达程序的聚类显示了六个簇,其中五个包括来自两种方法的程序。
  3. 这三个程序具有高度相关性,并且生物学过程一致:两个与细胞周期相关,第三个与EMT相关。
  4. 为了进一步比较恶性细胞状态,我们对每个活检中的恶性细胞生成的伪批量谱型进行了聚类。
  5. 这揭示了两个主要的簇:一个主要由HR+和LumA/B肿瘤组成,并在肝脏活检中富集(P = 0.0185,双侧Fisher精确检验),另一个主要由HR−/HER2−活检组成,进一步分为基底样和HER2样亚群,并在腋窝活检中富集(P = 4.92 × 10−4,双侧Fisher精确检验)。
  6. 基底样活检形成了一个高度相关的独立亚簇,表明基底亚型的表达稳定性较高,与先前的报告一致。
  7. 值得注意的是,同一患者的活检聚集在一起,即使在两例从HR+或HER2+变为HR−/HER2−的情况下也是如此,证实了恶性细胞内在表达谱在MBC疾病进展过程中的相对稳定性和患者特异性,这可能是因为CNAs对表达的强烈影响。
Para_04
  1. 为了剖析每个隔室中的患者间表达变异,我们估计了每个基因的临床/技术协变量解释的变异(方法和图2i)。
  2. 这些变量解释了基质(中位数,约65%)和恶性(中位数,约85%)隔室中大部分的患者间内在表达变异,但在免疫隔室中的解释较少(中位数,约30%)。
  3. 与我们的其他观察结果一致,患者ID在恶性隔室中解释了最多的变异,但在免疫隔室中作用微乎其微。
  4. 相反,组织学在髓系隔室中解释了大约10%的变异,但对于所有其他隔室则可以忽略不计。
  5. 在所有隔室中,分析方法解释了中位数约为20-25%的变异,这与之前的报告一致(图2i和扩展数据图5)。
  6. ComBat有效地校正了这种‘平台效应’在伪批量水平上,揭示了跨方法的相关生物学(图2h),而Harmony(而非BBKNN)在单细胞水平上产生了对齐的嵌入,正确地将非恶性细胞按患者/方法分组,同时保持恶性隔室中的生物变异(扩展数据图7)。
Para_05
  1. 尽管受体状态解释了恶性区域中 PGR(约56%)、ESR1(约44%)和 ERBB2(约68%)表达变异的相当大一部分(图2j),但它仅在34个其他基因中解释了显著的变异(>44%)(补充表4),其中一些令人欣慰地与其中一个受体相关联。
  2. 这些包括位于17q12上的 ERBB2 附近的 STARD3、GRB7、MIEN1 和 LASP1,它们受到共扩增的影响,以及 MTA2,其表达与 ERα 表达有关。
  3. 其他基因,如 TMSB4X 和 BECN1,以前与转移进展相关,但与乳腺癌受体表达无关,这表明有可能发现新的关联。
Para_06
  1. 这些结果表明恶性表达谱存在显著的患者间差异,且每位患者的特异性表达谱在MBC进展过程中,无论是时间、部位还是受体状态的变化,都能保持稳定。
  2. 相比之下,免疫区室中的表达谱仅显示出由这些特征解释的低水平变异。
  3. 此外,尽管分析方法对所有区室都有不可忽视的影响,但这些影响大多可以通过数据整合方法在比较细胞或基因谱之前得到解决。

Comparison of spatial expression profiling methods

空间表达谱分析方法比较

Para_01
  1. 我们的实验设计使我们能够使用多达四种不同的方法对同一活检样本的连续切片进行分析(图1a)。
  2. 我们使用了一种通用的观察×特征格式进行分析,其中观察对应于分割的细胞(MERFISH、ExSeq和CODEX)、珠子(Slide-seq)或10×10微米的网格(MERFISH(网格)和ExSeq(网格)),特征则对应于标记为官方基因别名的RNA或蛋白质集(图1b和方法)。
  3. 我们将位置分辨率调整为每像素1微米(方法),注册到一个共同的坐标系统,并以方法特定的方式应用质量过滤(图1b和方法)。
  4. 我们通过从匹配的sc/snRNA-seq转移标签来注释细胞类型,使用RCTD和TACCO-OT(方法)。
  5. 选择TACCO-OT用于下游分析,因为它能够更好地处理计数和非计数数据(扩展数据图8a和补充图1-5a,b)。
Para_02
  1. 空间细胞类型图谱在通过不同方法分析的连续切片中普遍一致(图3a和补充图1-5),但它们的视场范围从整个活检样本(MERFISH和CODEX)到直径约3毫米的圆形区域(Slide-seq)再到大约1平方毫米(ExSeq)。
  2. 分箱的MERFISH和ExSeq模式与分割的一致,但更明显且不那么稀疏,这可能是由于分箱中包含了信号,但在分割中因未分配而丢失,以及分箱中填充了细胞邻近的细胞外空间信号。
  3. 为了评估方法在局部细胞类型组织上的协议程度,我们基于对齐的100 × 100微米分箱中的细胞类型组成计算了各方法之间的成对相关性(图3b、c和扩展数据图8b)。
  4. 除三个样本(330、364和783)在三种方法(CODEX、ExSeq和Slide-seq)之间没有任何相关性(中位数r≈0)外,方法组合和样本之间的相关性很高(中位数皮尔逊r≈0.9)(图3c)。
  5. 这三个样本未能通过MERFISH质量控制,表明其他方法可能需要更严格的通过/失败质量控制。
  6. 值得注意的是,来自空间数据的细胞类型组成也与所有方法的sc/snRNA-seq高度相关(皮尔逊r≈0.9),并且与snRNA-seq的相关性略高于scRNA-seq(扩展数据图8c)。
  7. 这微弱地支持了snRNA-seq能够更真实地代表细胞类型组成的能力。

Fig. 3: Spatial expression profiling of MBC biopsies.

  • a, 本研究中所有样本和方法的空间表达数据集概览。对于每个成功的样本-方法组合,显示了一个空间散点图,其中每个观察(细胞、珠子和箱)都按其OT注释的细胞类型着色。同一活检的数据在空间上对齐,并以相同的比例描绘。补充图1-5提供了所有空间分析方法都有数据的个别样本的更详细视图。
  • b, 描述了通过皮尔逊相关性比较不同方法在同一活检内空间对应的100 × 100-μm箱中的高分辨率细胞类型组成的示意图。显示了一个活检内的一个箱(白色星标)的例子。
  • c, 盒形图展示了由所指示的方法对测量的空间对应的100 × 100-μm箱内细胞类型组成的相关性,每个活检单独展示。当有技术重复时,计算了同一方法内的相关性。每对方法的平均皮尔逊相关性用颜色标度的插图表示。n表示100 × 100-μm箱的数量。
Para_03
  1. 为了评估每种方法在样本中的细胞或bin/珠级谱型,我们分别对每种方法的所有谱型进行了聚类,创建了一个低维嵌入用于可视化,并使用调整后的兰德指数(ARI)量化了聚类与患者或细胞类型的关联(图4a,b和补充图1d,2d,3d,4d和5d)。
  2. sc/snRNA-seq和细胞分割的MERFISH主要按细胞类型和患者分组,分别针对正常细胞和恶性细胞(图4a,b)。
  3. 相反,基于bin或珠的方法,其中谱型是跨细胞的综合信号,主要反映了特定患者的恶性细胞信号,簇之间的分离较少,非恶性细胞的细胞类型驱动分离较低,表明来自普遍存在的恶性细胞的主导信号。
  4. CODEX簇也不明显,主要由患者而非细胞类型驱动,可能与抗体面板有关。

Fig. 4: Recovering spatial and molecular signals across spatial expression profiling methods.

  • a, 基于其表达谱的所有活检数据的 UMAP 图,使用指定的方法生成,观察结果按 TACCO-OT 注释的细胞类型、患者/样本和 Leiden 聚类(分辨率,0.8)着色。
  • b, 错误条形图显示了 Leiden 聚类与患者/样本或细胞类型注释之间的聚类凝聚度的 ARI,在每种指定方法的 10 次引导迭代中计算,如 a 所示。ARI 的范围是 -1 到 1,其中 1 表示完全一致,0 表示随机一致,-1 表示完全不同分组。n = 10 次引导迭代。
  • c, 线图描绘了巨噬细胞与其他所有测量细胞类型的共定位强度(y 轴),随距离(x 轴)的变化,从指定的三种活检中的指定数据类型得出,选择这三种活检代表三种空间共定位表型(短程聚集、长程聚集和混合)。距离以 μm 为单位测量。
  • d, 点图显示了每种方法下巨噬细胞与其他所有细胞类型共定位范围(大小)和强度(颜色)的聚合值(样本平均值)。共定位强度值低于 0 表示排斥/排斥。
  • e, 点图显示了所有样本和方法下巨噬细胞与其他巨噬细胞或恶性细胞共定位范围(大小)和强度(颜色)。共定位强度值低于 0 表示排斥/排斥。
  • f, 巨噬细胞的空间散点图叠加在 H&E 图像上,显示所描绘巨噬细胞的 CD163 表达水平,基于细胞分割的 MERFISH 数据,针对 c 中所示的三种共存情况的三个示例活检。
Para_04
  1. 为了评估每种方法捕捉局部组织的能力,我们量化了每种方法下,每种细胞类型(作为‘锚定细胞’)与50微米范围内所有其他细胞类型的共定位情况,显示出方法之间的一致性(补充图1c、2c、3c、4c和5c)。
  2. 为了评估更广泛的0-500微米距离范围,并系统地比较方法,我们专注于巨噬细胞,因为它们存在于大多数样本中,并且被所有方法良好捕获。
  3. 总体而言,Slide-seq、MERFISH和CODEX在捕捉巨噬细胞与其他细胞类型的短程和长程聚集及混合方面表现相似(图4c-e)。
  4. ExSeq通常在捕捉聚集模式方面最弱(图4c)。
  5. 值得注意的是,在所有活检样本中,巨噬细胞倾向于与其他巨噬细胞共定位,并且轻微避开恶性细胞(图4e)。
  6. 通过视觉检查巨噬细胞分布相对于匹配的H&E图像,显示了一种明显的长程模式,包括巨噬细胞岛以及更均匀的短程和混合表型(图4e)。
Para_05
  1. 总体而言,各种方法之间的一致性相对较高,但 MERFISH 显示了几个优势:较大的分析区域、清晰的空间模式和类似于单细胞/核 RNA 测序(sc/snRNA-seq)的细胞谱型聚类。
  2. 由于我们的 MERFISH 实验仅测量约 300 个基因的表达,我们进一步评估了其在没有匹配的 sc/snRNA-seq 数据的情况下检测细胞亚群的能力。
  3. 我们将基于分割的 MERFISH 聚类获得的细胞注释与 RCTD 和 TACCO-OT 获得的细胞注释进行了比较(扩展数据图 8d,e)。
  4. 尽管大多数结果一致,但基于 MERFISH 的分配缺乏一些精细度(只有一个内皮细胞标签,联合 T/NK 标签),但它捕捉到了 sc/snRNA-seq 中缺失的其他区别,包括一个小簇的调节性 B 细胞共同表达 FOXP3 和 FCRL5(扩展数据图 8e)。

Spatial profiling of tumor-associated macrophages

肿瘤相关巨噬细胞的空间谱型分析

Para_01
  1. 肿瘤相关巨噬细胞(TAMs)参与了肿瘤进展的多个阶段,并且在实体瘤中具有预后意义,包括乳腺癌。
  2. 然而,它们的作用、多样性和治疗潜力仍然只被部分理解。
  3. 例如,虽然单独的CD68+白细胞密度在未接受过治疗的原发性乳腺癌中未被发现是一个预后生物标志物,但CD68高、CD4高、CD8低的免疫谱型与总生存率和无复发生存率降低有关,而表达CD163清道夫受体的TAMs的存在与乳腺癌的不良预后特征相关。
  4. 在我们的数据中,巨噬细胞在样本和测量方法中普遍存在;它们在我们进行的单细胞/空间组成分析中的频率变化很大程度上由最近的治疗类别解释(免疫疗法与较高的巨噬细胞频率弱相关)(图2d-f),并且当选择为‘锚定细胞’时,它们的空间组织在不同样本和测量方法之间有所不同(图4c-f和补充图1c、2c、3c、4c和5c)。
Para_02
  1. 巨噬细胞共定位表型(图 4c,e)既没有特别丰富也没有减少与 CD163 的表达,CD163 是一个关键的巨噬细胞标志物,三个代表性样本主要显示为 CD163+ 巨噬细胞(图 4f)。
  2. 此外,通过 MERFISH 分析的其他活检标本中的大多数(73-93%)巨噬细胞也是 CD163+,只有少数混杂的 CD163− 巨噬细胞(图 4f 和扩展数据图 9a)。
  3. 在两个显著例外的情况(878 和 880)中,大多数巨噬细胞是 CD163−(扩展数据图 9a)。
  4. 由于方法学限制,这些观察只有通过 MERFISH 才能实现。
Para_03
  1. 为了调查更广泛的巨噬细胞表达状态,我们使用 Harmony37(在每种方法内分别)整合了所有被识别为巨噬细胞的观察结果,并对它们进行了聚类(图 5a 和扩展数据图 9b)。
  2. 使用相同聚类分辨率的所有方法,我们每种方法获得了 4-15 个聚类(图 5a)。
  3. 在所有方法中,有两个主要的高相关性方法特异性聚类:一个 CD163+ 聚类,具有高表达的巨噬细胞标志物以及 HIF1A 和 APOE/APOC1;一个 CD163− 聚类,与较低的巨噬细胞标志物表达和 MKI67 表达相关(扩展数据图 9c,d)。
  4. ExSeq 和 Slide-seq 在巨噬细胞标志物的整体信号上要低得多(图 5a 和扩展数据图 10a),但 Slide-seq 仍与其他方法显示出中等的相关性。
  5. MERFISH 与 sc/snRNA-seq 的相关性最高(ρ = 0.64–0.84;图 5c),并且表现出类似的模式,沿着单一连续谱系有两个大的聚类(一个 CD163+,另一个 CD163−;图 5a),以及大约 100 个细胞的 13 个小聚类,表达共享的巨噬细胞标志物和不同的定义聚类基因,这些基因与不同的状态或功能相关,如 ANLN 或 CDK6(增殖)、MMP11(组织重塑)或 FCN1(血管生成)(图 5b 和扩展数据图 10b)。
  6. 先前关于原发性乳腺癌的研究描述了 APOE 表达的巨噬细胞为脂质相关巨噬细胞(LAMs),占所有髓系细胞的 30-40%。
  7. 在我们的 MERFISH 数据中,APOE 表达的巨噬细胞比例从 24% 到 85% 不等(平均为 48%)。

Fig. 5: Characterizing macrophage and malignant expression phenotypes across spatial expression profiling methods.

  • a, 基于表达谱将所有被注释为巨噬细胞的观察结果进行UMAP可视化,颜色表示CD163的对数标准化表达、HLA-DRA的对数标准化表达或Leiden聚类。
  • b, 描述巨噬细胞标志基因和功能基因以及其它细胞类型标志基因和聚类间差异表达基因(如a所示)的点图,显示了每个基因在不同聚类中的标准化表达量和表达该基因的细胞比例。侧边条形图表示每个聚类中的细胞数量。
  • c, 基于巨噬细胞标志基因和功能基因样本级伪批量表达的两两Spearman相关性热图(如b所示)。
  • d, 基于表达谱将所有被注释为恶性细胞的观察结果进行UMAP可视化,颜色表示它们的EMT评分表达(为了可比性,限制在-1和1之间)或患者/样本。
  • e, 细胞分割的MERFISH数据的空间散点图,每个细胞的颜色表示其EMT评分表达(为了可比性,限制在-1和1之间)。样本根据空间EMT信号的分布分为三种空间EMT表型——EMT高、EMT低和EMT斑块。
  • f, 点图描述了在细胞分割的MERFISH数据(如e所示)中检测到的三种空间EMT表型(EMT高、EMT低和EMT斑块)之一中过度表达的基因的差异表达显著性(双尾Welch’s t检验,Benjamini-Hochberg校正)。
  • g, 散点图展示了在细胞分割的MERFISH中检测到的EMT高和EMT斑块样本之间的基因表达对数倍变化与其它指定方法检测到的相应表达变化之间的关系。差异表达的显著性通过双尾Welch’s t检验和Benjamini-Hochberg校正计算得出。图中标出了Spearman相关系数。误差带表示标准误差。
  • h, 基于基因水平对数倍变化的两两Spearman相关性热图,这些变化是在EMT高和EMT斑块样本之间定义的(如e所示,并与g相关)。FC,倍数变化;man,手动。

Spatial interaction and expression phenotypes

空间交互与表达表型

Para_01
  1. 我们检查了恶性细胞的空间组织,考虑了它们最初通过单细胞 RNA 测序(scRNA-seq)确定的上皮-间质转化(EMT)程序的表达(扩展数据图 6a)。
  2. 我们在所有方法中观察到恶性细胞之间的患者内和患者间的 EMT 信号变异(图 5d)。
  3. 尽管低 EMT 分数和高 EMT 分数样本的细胞在空间上的 EMT 分数变化不大,但中间分数样本显示了高分细胞的区域(图 5e,分割的 MERFISH 数据),这表明存在空间决定的成分。
Para_02
  1. 我们将样本划分为三种空间 EMT 表型——EMT-低、EMT-斑块和 EMT-高——并确定了这三种空间 EMT 表型肿瘤中的恶性细胞之间差异表达的基因(图 5f)。
  2. EMT-斑块和 EMT-高表型各自由不同的细胞周期基因特征(EMT-斑块:CCND1、RB1 和 NF1;EMT-高:CDC20);EMT-低样本进一步由 AGR2 特征,AGR2 是一个潜在的不良预后生物标志物。
  3. EMT-斑块和 EMT-高表型之间的差异表达变化在 MERFISH、Slide-seq 和 sc/snRNA-seq 中大致一致,但在 CODEX 或 ExSeq 中则不一致(图 5g,h)。
Para_03
  1. EMT高水平(>样本中位数)和EMT低水平(<样本中位数)的局部区域(100 × 100-微米网格)在细胞类型组成上显示出差异(图6a)。
  2. 在所有样本和方法中(ExSeq除外——没有显著富集),恶性细胞在EMT高水平区域减少,而成纤维细胞则增加(图6a)。
  3. 有趣的是,在样本917的EMT高水平区域(该样本包含干细胞样和非干细胞样的恶性细胞),干细胞样的恶性细胞减少而非干细胞样的恶性细胞略有增加(图6a;MERFISH和CODEX,但不是Slide-seq)。
  4. 髓系和淋巴系细胞类型主要显示样本特异性的富集(图6a)。
  5. 总体而言,重复切片(图6a)和除ExSeq外的所有方法在EMT低水平和EMT高水平区域之间的细胞类型组成差异方面表现出相对良好的一致性(0.32 < ρ < 0.68)(图6b,c)。

Fig. 6: Characterizing the cellular neighborhoods of malignant expression phenotypes across spatial expression profiling methods.

  • a, 点图显示了在每个切片内 EMT 高和 EMT 低邻域(100 × 100-μm 二进制)之间细胞类型频率差异的对数倍变化(颜色)和显著性(大小),用于 MERFISH、Slide-seq 和 CODEX。ExSeq 数据未产生任何显著结果。同一活检的重复样本(连续切片)用‘_1–3’表示。P 值使用双侧 Wilcoxon 检验和 Benjamini-Hochberg 多重检验校正计算得出。
  • b, 散点图显示了在细胞分割的 MERFISH 中检测到的 EMT 高和 EMT 低邻域之间细胞类型频率的对数倍变化与在其他指定方法中检测到的相应细胞类型频率变化之间的关系。差异细胞类型频率的显著性通过双侧 Wilcoxon 检验和 Benjamini-Hochberg 校正计算得出。Spearman 相关系数已标明;误差带表示标准误差。
  • c, 聚类热图显示了基于样本中 EMT 高和 EMT 低邻域之间细胞类型频率的对数倍变化的方法间的成对 Spearman 相关性,定义同图 5e,与 b 相关。
  • d, 细胞分割的 MERFISH 数据中恶性细胞的空间散点图,其中每个细胞根据是否与至少一个 T/NK 细胞位于同一个 100 × 100-μm 二进制中进行着色。
  • e, 聚类二元热图显示了在每个活检中,靠近 T/NK 细胞的恶性细胞与不靠近 T/NK 细胞的恶性细胞之间前 10 个差异表达基因的二元图,通过细胞分割的 MERFISH 测量。仅显示出现在至少两个样本中的基因。基因按共同差异表达分析的方向着色。患者特异性分析与组合分析之间方向不同的基因显示为不一致的颜色。
  • f, 差异基因表达分析的火山图(双侧 Wilcoxon 检验,Benjamini-Hochberg 校正),显示了所有活检中靠近 T/NK 细胞的恶性细胞与不靠近 T/NK 细胞的恶性细胞之间的差异基因表达,通过细胞分割的 MERFISH 数据测量。基因按样本特异性差异表达分析的方向着色。患者特异性分析与组合分析之间方向不同的基因显示为不一致的颜色。FC,倍数变化;man,手动。
Para_04
  1. 为了恢复与恶性细胞和淋巴细胞之间相互作用相关的空间模式,我们测试了恶性细胞表达谱的差异是否与其与 T/NK 细胞接近度的差异相关(方法)。
  2. 无论整体 T/NK 浸润水平如何,T/NK+ 100 × 100-μm 区域通常形成斑块(图 6d)。
  3. 如预期的那样,T/NK+ 区域中的恶性细胞显示出更高的 MHC-I 和 MHC-II 基因(HLA-E、CD74、B2M、HLA-DRA 和 HLA-B)表达,但也包括腔上皮基因(KRT8、KRT18 和 MUC1)和 ISG15(图 6e)。
  4. 另一方面,在 T/NK− 区域中上调的恶性细胞基因包括 SOX4(在九个活检样本中的六个中),这与 SOX4 表达与原发性 TNBC 中较低的 CD8+ T 细胞浸润相关一致。
  5. 因此,似乎避免 T/NK 接触的 SOX4 表达恶性细胞与参与 T/NK 细胞相互作用的恶性细胞在同一活检样本中共存。
  6. 当分析所有转移瘤中的恶性细胞时,也观察到了这些模式(图 6f),以及在不同类别中恢复的关键基因(例如,在 T/NK+ 区域中的 GATA3 和 FOXA1;在 T/NK− 区域中的 TMSB10 和 AZGP1),这些基因与患者特异性分析中的结果不同。
  7. 因此,尽管结合不同的活检样本可以增加检测常见信号的能力,但患者特异性的信号可能会丢失或甚至被相反解释。

Discussion

Para_01
  1. 我们基于60名患者的67个核心针刺活检样本的单细胞和空间表达谱生成了MBC的综合图谱。
  2. 涵盖MBC的临床和分子异质性,并结合精心设计的实验方案,使方法间的比较成为可能,为乳腺癌研究以及方法和算法开发提供了机会。
  3. 这种以广度为中心的方法限制了对临床病理亚组分析的统计功效,且个别方法的独特方面并非总能体现,包括ExSeq的纳米级分辨率和Slide-seq的分解分析潜力。
  4. 尽管如此,除了提供关于MBC结构(包括细胞类型、表达程序及其空间关系)的见解和方法间的实际比较外,我们还利用该数据集探索了异质性的来源和空间表达表型。
Para_02
  1. 在技术层面上,特征分析方法有助于观察到表达变异,包括关键基因如ESR1和TRPS1,这一发现对基于标记基因的方法具有重要意义。
  2. 在单细胞方法中,snRNA-seq不仅更有效地捕获了上皮细胞和间质细胞,而且与空间数据的匹配度更高。
  3. ComBat在伪批量水平上的平台校正表现良好,而Harmony在单细胞水平上整合数据的效果很好。
Para_03
  1. 空间分析方法通常显示出高度的一致性,并且都在其分析区域内恢复了共定位模式。
  2. ExSeq 与其他方法相比差异最大,尽管局部细胞类型频率仍然相似。
  3. MERFISH 在可分离的单细胞分子谱方面表现尤为有利,并忠实地恢复了患者特异性表达信号,作为恶性但非非恶性细胞内在变异的主要驱动因素。
Para_04
  1. 恶性隔室表现出显著的患者间异质性,但仍揭示了有趣模式:基底样活检形成了高度相关的独立亚簇;EMT程序在单细胞方法中稳健,并在三种空间表型中显示出患者间和患者内的异质性,补充了先前关于原发性BC中EMT标志物表达异质性的研究以及匹配的原发性和转移性活检之间的研究;并且患者特异性CNA谱型和表达程序在时间、部位甚至受体亚型变化中保持不变,这与先前关于基因组进化和多样性通过疾病进展和转移的研究形成对比。
Para_05
  1. 在免疫隔室中,巨噬细胞是最常见的细胞类型,尽管它们的频率受到最近治疗类别尤其是先前免疫治疗的影响而增加。
  2. 通过各种方法,我们确定了两种由 CD163/CD68/APOE/HIF1A 和 MKI67 分别表征的巨噬细胞状态。
  3. 虽然据报道 APOE 表达可促进 T 细胞效应功能,但我们没有发现巨噬细胞中 APOE 表达与 T/NK 细胞中 PDCD1 或 CTLA4 表达之间存在显著的空间相关性。
  4. 虽然巨噬细胞普遍存在,但它们对恶性细胞的避免较弱;T/NK 细胞显示出更变化的浸润水平。
  5. 值得注意的是,T/NK 细胞相对于恶性细胞的定位与恶性细胞中的表达模式有关——与 MHC 成分的高表达共定位;随着 SOX4 的增加而被排除——扩展了先前将 SOX4 表达与原发性 TNBC 免疫逃逸联系起来的研究。
  6. 未来的工作将进一步研究这些细胞状态和空间相互作用的分子基础及其转化意义。

Methods

Ethics statement

伦理声明

Para_01
  1. 本研究中所有样本都是由患者自愿捐赠的,这些患者在机构审查委员会(IRB)批准的协议(DF/HCC 编号 05-246)下提供了知情同意,该协议包括样本获取、临床数据提取、样本分析和数据共享的权限。
  2. 在布罗德研究所进行的生物样本分析是在布罗德研究所协议编号 15-370B 下进行的。

Sample acquisition, handling and annotation

样本采集、处理和标注

Para_01
  1. 如前所述详细收集了组织样本。
  2. 临床注释是在董事会认证的肿瘤学家和癌症登记员的监督下,根据 HTAN 临床数据标准(https://humantumoratlas.org/standard/clinical)从电子病历中生成的,这些标准基于国家癌症研究所基因组数据中心模型(https://gdc.cancer.gov/about-data/gdc-data-processing/clinical-data-standardization)。
Para_02
  1. 对于 snRNA 测序和空间表达分析,核心针活检样本要么迅速冷冻,要么在最佳切割温度(OCT)化合物(Tissue-Tek, Sakura)中冷冻以保存。
  2. 在将单个核心置于 OCT 模具中心并呈直线排列之前,通过在冷冻模具底部放置一层薄薄的 OCT 来预涂覆核心,然后加入额外的 OCT 填充冷冻模具。
  3. 然后将冷冻模具放在干冰上 5-15 分钟,直到块变得不透明,然后再存放在 -80°C 的环境中。
  4. 对于 scRNA 测序,核心针活检样本从介入放射科转移到 DMEM 培养基中,并在到达 Broad 研究所后进行处理。

Generation of snRNA-seq data

生成 snRNA-seq 数据

Para_01
  1. snRNA-seq 按照先前描述的方法进行。具体来说,将冷冻组织放在冰上,并置于一个板的一个孔中(STEMCELL Technologies, 38015),并向孔中加入 1 ml 的 TST 缓冲液。
  2. 组织保持在冰上,用 Noyes 弹簧剪刀(Fine Science Tools, 15514-12)切割 10 分钟。
  3. 组织混合物通过 40 微米的 Falcon 细胞过滤器(Thermo Fisher Scientific, 08-771-1)过滤。
  4. 孔用 1 ml 的洗涤剂缓冲液溶液清洗并过滤,然后加入 3 ml 的 1× ST 缓冲液,使总孔体积达到 5 ml。
  5. 该溶液在 4 °C 下以 500g 的速度在水平离心机中离心 5 分钟,使用 15 ml 的 Eppendorf 管。
  6. 沉淀物根据沉淀大小,用 100–200 μl 的 1× ST 缓冲液重新悬浮。
  7. 单核悬液通过 35 微米的 Falcon 细胞过滤器(Corning, 352235)过滤。
  8. 总共选择 8,000(V3)或 10,000(V2)个核,使用一次性 C 芯片血细胞计数器(VWR, 82030-468)转移至 Chromium 芯片,按照制造商的指示(10x Genomics)制备 Chromium 单细胞 3′ 文库(V2 或 V3)。

Generation of scRNA-seq data

单细胞RNA测序数据的生成

Para_01
  1. 单细胞 RNA 测序(scRNA-seq)按照先前描述的方法进行。
  2. 具体来说,样品用冷 PBS 洗涤后转移到含有解离混合物(950 µL RPMI 1640(Thermo Fisher Scientific, 11875093)+ 10 µL 10 mg/mL DNAse I(Sigma Aldrich, 11284932001)+ 40 µL 2.5 mg/mL Liberase(Sigma Aldrich, 5401127001))的 2 mL Eppendorf 管中。
  3. 然后,使用弹簧剪刀(Fine Science Tools, 15514-12)将样品在 Eppendorf 管中切碎成小于约 0.4 mm 的碎片,并在 37°C 下水平旋转约 14 转/分钟孵育 10 分钟,随后在室温下用 1 mL 吸头吸打 20 次。
  4. 孵育和吸打步骤重复一次,然后转移至 1.7 mL Eppendorf 管中,在 4°C 下以 300-580 g 离心 4-7 分钟。
  5. 沉淀物重悬于 200-500 µL 的氨-氯化钾(ACK)红细胞裂解缓冲液(Thermo Fisher Scientific, A1049201)中,在冰上孵育 1 分钟,然后加入两倍体积的冷 PBS。
  6. 细胞通过短时间离心(4°C,8 秒,不超过 11,000 g 的离心力)收集,此过程可重复多达三次,直至沉淀不再呈现红色或粉红色。
  7. 为了去除细胞团块,沉淀物重悬于 100 µL 的 TrypLE(Life Technologies, 12604013)中,并在室温下不断吸打 1 分钟(使用 200 µL 吸头)。
  8. 通过加入 200 µL 冷的含 10% FBS 的 RPMI 1640 来灭活 TrypLE。
  9. 如前所述,通过短时间离心收集细胞。
  10. 沉淀物重悬于 50 µL 的 0.4% BSA(Ambion, AM2616)PBS 溶液中。
  11. 为了评估单细胞悬浮液、存活率和细胞计数,将 5 µL Trypan 蓝(Thermo Fisher Scientific, T10282)与 5 µL 样品混合,并加载到 INCYTO C-Chip 可弃式血球计数板,Neubauer 改进型(VWR, 82030-468)上。
  12. 必要时调整细胞浓度至每微升 200-2,000 个细胞。
  13. 根据制造商的说明(10x Genomics),将总共 8,000 个细胞加载到 10x Genomics 单细胞 Chromium 控制器的每个通道中,用于 Chromium 单细胞 3' 文库(V2 或 V3)。

10x library generation and sequencing

10倍文库构建和测序

Para_01
  1. 单细胞和核在 Chromium Controller 中与凝胶珠分隔成液滴。
  2. 形成乳液后,进行了带有条形码的RNA逆转录。
  3. 随后是cDNA扩增、片段化以及适配器和样本索引的连接,所有步骤均按照制造商的建议进行。
  4. 来自四个10x通道的文库被合并,并在一个Illumina HiSeq X的一个通道上或一个NextSeq的一个流动池上进行测序,采用配对末端读取方式:读取1,26个核苷酸;读取2,55个核苷酸;索引1,8个核苷酸;索引2,0个核苷酸。

Processing and quality assurance of the sc/snRNA-seq data

sc/snRNA-seq 数据的处理和质量保证

Para_01
  1. 原始测序读数使用 TERRA (https://app.terra.bio/) 上的 cellranger_cellbender_workflow 快照 6 进行处理,使用人类基因组 GRCh38 作为参考,并保留了 snRNA-seq 的内含子读数,但不保留 scRNA-seq 的。
  2. 该工作流程包括 Cell Ranger 版本 3.0.2 和 Cell Bender 版本 0.1.0。
  3. 对生成的计数矩阵进行了初步处理,包括质量评估和自动细胞类型注释(见下文),以及使用 scrublet 版本 0.2.1 进行双峰检测,每个样本分别使用 Seurat 版本 3.1.162 进行处理。
Para_02
  1. 对所有样本同时进行了质量过滤,一旦所有样本都已获得和处理完毕,以获得数据驱动的质量过滤阈值,以解释样本之间的生物和技术差异。例如,倾向于含有比恶性细胞更少 RNA 的免疫细胞使用了更为宽松的阈值进行过滤。
Para_03
  1. 根据这一原理,低质量细胞被过滤掉,这些细胞具有低或极高的唯一分子标识符(UMI)计数、低基因计数和高线粒体读取贡献,这种过滤方式依赖于细胞类型、实验方案和化学试剂(V2/V3)。
Para_04
  1. 以下算法用于确定每个过滤组的阈值:
Para_05
  1. 高阈值过滤器:线粒体基因 <50%,基因数量 <8,000,UMI 数量 <20,000。
Para_06
  1. 细胞基因数低阈值过滤器:如果给定细胞的过滤组中每个细胞的基因中位数 >1,300,则保留基因数 >700 的细胞;如果组中位数 <1,300 且 >600,则保留基因数 >300 的细胞;如果组中位数 <600,则保留基因数 >100 的细胞。
Para_07
  1. 低阈值过滤器用于每个细胞的UMI:如果给定细胞过滤组中每个细胞的UMI中位数>1,800,则保留UMI数量>1,100的细胞;如果组中位数<1,800且>900,则保留UMI数量>600的细胞;如果组中位数<900,则保留UMI数量>300的细胞。
Para_08
  1. 恢复细胞数量极低的样本被排除在外,视为失败。

Cell type annotation in sc/snRNA-seq

单细胞/单核 RNA 测序中的细胞类型注释

Para_01
  1. 在初始的自动化和样本级注释中,使用 R 包 SingleR 版本 1.0.3(https://bioconductor.org/packages/release/bioc/html/SingleR.html)对细胞进行注释,使用其内置的参考数据集(HPCA 和 Blueprint),采用细胞级和聚类级注释方案,然后通过在参考数据集和聚类内统一标签来细化注释。
Para_02
  1. 将所有 snRNA-seq 或 scRNA-seq 样本分别合并到一个 anndata 对象中,并使用 SCANPY 版本 1.7.2 工作流程进行联合处理,包括归一化、log1p 转换、缩放、高变基因选择、总计数和线粒体计数回归、主成分分析(PCA)、最近邻查找、Leiden 聚类以及使用均匀流形近似和投影(UMAP)进行二维(2D)投影后,通过结合所有 sc/snRNA-seq 样本的上下文,进一步完善了初始自动注释。
Para_03
  1. 被标注了与其所属聚类注释不一致的细胞类型标签的单细胞被移除,因为它们被认为是不可靠的。
  2. 使用标记基因详细研究了那些被标注为相同细胞类型但明显不同的聚类,并分配了更具体的细胞类型标签。
  3. 为了简化注释,所有细胞随后根据其细胞类型标签获得了第二个标签,以便将它们归类到四个隔室之一:恶性、间质、髓系和淋巴系。

CNA in the sc/snRNA-seq data

CNA在sc/snRNA-seq数据中的应用

Para_01
  1. 使用 InferCNV 版本 1.2.0(https://github.com/broadinstitute/inferCNV)对单细胞/单核 RNA 测序中的拷贝数变异进行了评分。
  2. 通过将以下细胞类型指定为正常参考细胞——T 细胞、NK 细胞、单核细胞、巨噬细胞、成纤维细胞和内皮细胞——对所有其他细胞类型的拷贝数变异进行了分析。
  3. 特别地,我们没有将肝细胞作为参考细胞,因为已知它们是多倍体,并且由于与抗体生产相关的某些基因表达过高,也没有将 B 细胞/浆细胞包括在内。
Para_02
  1. 通过均匀选择所有样本中的正常(非恶性)参考细胞,并分别对所有样本中的恶性细胞进行 snRNA-seq 和 scRNA-seq 数据的拷贝数变异(CNA)检测,进行了跨样本联合分析。
  2. 然后评估了 InferCNV 内置的 CNA 热图以发现有趣模式,并用于展示。

Variance analysis in the sc/snRNA-seq data

sc/snRNA-seq 数据中的方差分析

Para_01
  1. 单细胞/单核 RNA 测序(sc/snRNA-seq)数据中的方差分析使用了 R 包 variancePartition 版本 1.14.0 进行,该包利用线性混合模型来量化可归因于不同生物学或技术变量的基因表达变异(患者 ID(个体)、方法(sc/sn)、部位、最近的治疗类别、组织学、转移表现和受体状态)。
  2. 除了使用此工具研究伪批量数据(每个样本和隔室中所有细胞的平均表达)中的表达变异性外,我们还用它来评估细胞类型组成的变异性。
  3. 这种方法背后的理由是,RNA 测序表达和细胞类型丰度主要是计数数据,经过归一化处理后代表了一个实体(基因或细胞类型)在所有测量中的频率或比例。
  4. 然而,为了考虑由于细胞类型的数量远少于基因(约 20 种对约 20,000 种)而导致的细胞类型之间更强的预期相互依赖性,我们使用了 Pearson 的列联比,而不是用于表达方差分析的总计数归一化方法。

De novo characterization of malignant expression programs using iNMF

使用iNMF对恶性表达程序进行从头表征

Para_01
  1. 为了在所有样本的单细胞/核 RNA 测序中找到新的恶性表达程序,我们使用了 R 包 LIGER 版本 0.5.0.9000 实现的 iNMF,该方法可以识别和分离高维单细胞数据中的共同因素和样本特异性因素。
  2. 我们分别对 snRNA-seq 和 scRNA-seq 数据进行了这项分析,将 k 参数设置为 20 以获得 20 个表达程序,并将 lambda 参数设置为 40 以确保样本特异性信号的充分整合和分离。
  3. 这些参数是通过经验确定的。
  4. 这样获得的 40 个表达程序随后基于特征矩阵 W 中表示的各程序基因重要性的成对皮尔逊相关性进行关联。
  5. 通过这种方式,我们能够在 sc/snRNA-seq 数据中识别出高度相关的对应程序。

Scoring of expression programs in sc/snRNA-seq and spatial data

在单细胞/单核RNA测序和空间数据中表达程序的评分

Para_01
  1. 使用 Seurat 版本 3.1.1 或 SCANPY 版本 1.7.2 的内置函数 AddModuleScore 或 score_genes,分别以默认参数定义了由特定基因集表达的程序。
  2. Seurat 用于评分亚细胞类型标记基因以及分子特征数据库(MSigDB)中的标志基因集,而 SCANPY 版本 1.7.2 用于评分从单细胞 RNA 测序衍生的 iNMF EMT 程序基因(IGFBP7, SPARC, COL1A2, COL4A1, COL3A1, BGN, ACTA2, FN1, COL4A2, TAGLN, DCN, COL1A1, LUM, COL6A3, POSTN, AEBP1, COL6A2, VIM, TIMP1, TPM2, COL5A1, CALD1, COL6A1, A2M, SPARCL1, THY1, VCAN, CCN2, GNG11, PDGFRB, RGS5, ITGA1, MYL9, COL5A2, COL18A1, THBS2, IGHA1, CAVIN1, ELN, NID1, LHFPL6, APOE, IGLC3, HSPG2, CAV1, TCF4, NNMT, ASPN, FSTL1 和 MGP),其中 20 个基因在 MERFISH 和 ExSeq 中有代表(TCF4, COL4A1, BGN, COL1A2, FN1, COL1A1, ACTA2, MYL9, HSPG2, TIMP1, VIM, THY1, APOE, COL3A1, DCN, LUM, TAGLN, TPM2, GNG11 和 COL4A2),三个在 CODEX 中有代表(VIM, THY1 和 COL4A2)。
  3. 评分是在所有用给定方法分析的样本上进行的。工具的选择完全基于各自的分析分支所执行的环境(R 与 Python)。

Integration of sc/snRNA-seq data or spatial data on a pseudobulk or single-cell/bead/bin level

sc/snRNA-seq 数据或空间数据在伪批量或单细胞/珠子/区室水平上的整合

Para_01
  1. 为了比较恶性假体表达谱,使用 R 包 sva 版本 3.34.0 中的 ComBat 函数校正了假体表达矩阵的谱型方法效应,其中谱型方法作为批次变量,受体状态和活检部位作为协变量。
Para_02
  1. 为了在单细胞水平上整合 snRNA-seq 和 scRNA-seq 数据,使用了 Python 包 Harmony-pytorch 版本 0.1.4 中的 'harmonize' 函数和基于 Python 包 BBKNN 版本 1.5.1 的 SCANPY 的 BBKN 包装器(external.pp.bbknn)。
  2. 每个函数都以批处理变量作为分析方法,并使用默认参数运行。
  3. 整合后,使用 SCANPY 函数 'leiden' 进行 Leiden 聚类,分辨率为 0.4。
  4. 整合的数据集仅用于展示数据整合,而不用于其他分析。
  5. 这些方法不纠正表达矩阵,而是将观察结果对齐到低维空间(Harmony:PCA;BBKNN:k-最近邻图)中。
Para_03
  1. 为了分析单细胞/单核RNA测序和空间数据中的巨噬细胞亚群,使用Python包Harmony-pytorch版本0.1.4中的‘harmonize’函数,以患者作为批次变量,并使用默认参数对每种测量方法的注释巨噬细胞进行了单独整合。
  2. 整合后,使用SCANPY函数‘leiden’进行Leiden聚类,分辨率为0.6。
  3. 在所有方法中检测到了表达非巨噬细胞标志基因的小聚类,并从进一步分析中移除,随后重新整合和重新聚类。

PAM50 molecular subtype assignment

PAM50 分子亚型分配

Para_01
  1. 为了分配基于研究的PAM50亚型,对完整的(包括所有细胞类型)伪批量数据进行了log2 + 1转换,并相对于该队列的受体状态平衡版本进行了重新缩放,在该版本中,样本被重新采样以达到UNC训练集中ER+与ER−受体状态的比例,PAM50亚型中心点就是从这个训练集中得出的。
  2. 使用R包genefu版本2.20.0调用基于研究的PAM50亚型,使用重新缩放的表达值和与PAM50亚型中心点的Spearman相关性。
  3. 对于每个中心点相关性小于0.10的样本,不分配PAM50亚型。

Sectioning for spatial expression profiling and H&E staining

用于空间表达谱分析和H&E染色的切片

Para_01
  1. 组织 OCT 块在切片前于冷冻切片机(Leica, CM1950)内适应至 -20°C,持续 30 分钟,切片厚度为 10 微米。
  2. 连续切片放置在每个方法所需的载玻片上。
  3. 切片放置方式确保所有方法都能评估相同的感兴趣区域。

H&E staining and histopathological annotation

H&E染色和组织病理学注释

Para_01
  1. 实验切片旁边的切片用标准组织学技术进行了 H&E 染色。
  2. H&E 切片使用 Leica 的 Aperio Pathology AT2 切片扫描仪以 20 倍放大率进行扫描。
  3. 每张 H&E 切片由一位认证病理学家 (S.J.R.) 进行 QC 评估,并根据标准病理学标准标注肿瘤区域的位置。
  4. 此次审查是在传统明场显微镜下进行的,包括对冷冻和 OCT 包埋后组织完整性和形态的保存、组织活力的评估、肿瘤含量和纤维组织含量的评估以及炎症评分(0-3 分)。
  5. 未能通过此 QC 步骤的样本(25 个样本中的 9 个)显示出极低的样本活力(<2% 的活细胞)或广泛的组织损伤或肿瘤含量低于 5%。

Slide-seq data generation

Slide-seq数据生成

Para_01
  1. 为了生成 Slide-seq 数据,将 Slide-seq puck 放置在显微镜载玻片上,珠子面向上方,并通过载玻片和 puck 盖玻片之间的水滴固定住。
  2. 通过将显微镜载玻片倒置,puck 表面可以对准组织切片中的感兴趣区域,通过将 puck 降低到组织切片上,使组织和 puck 快速熔合,然后将 puck 和组织的夹层移出冷冻切片机。
  3. 使用镊子将 puck 移动到预先装有 200 μl 杂交缓冲液(6× SSC,每微升含 2 单位 RNase 抑制剂(Lucigen,30281))的 Eppendorf 管中,在室温下孵育 15 分钟。
  4. 杂交后通过将 puck 浸入 1× Maxima RT 缓冲液中一次进行洗涤。
  5. 第一链 cDNA 合成是通过将 puck 放置在 200 μl 的第一链合成混合物(1× Maxima RT 缓冲液,每种 dNTP 1 mM,每微升 0.05 单位 RNase 抑制剂(Lucigen,30281),2.5 μM 模板转换寡核苷酸(Integrated DNA Technologies (IDT),5′-AAGCAGTGGTATCAACGCAGAGTGAATrG+GrG-3′)和每微升 10 单位 Maxima H Minus 逆转录酶(Thermo Fisher Scientific,EP0742))中,在室温下孵育 30 分钟,随后在 52 °C 下孵育 90 分钟完成。
Para_02
  1. 随后通过向第一链反应混合物中加入200 μl的2倍组织消化混合液(200 mM Tris-Cl pH 7.5,400 mM NaCl,4% SDS,10 mM EDTA)和1:50的蛋白酶K(New England BioLabs (NEB),产品编号P8107S),轻轻混匀后,在37 °C下孵育30分钟,进行组织消化。
Para_03
  1. 向组织消化混合物中加入200 μl洗涤缓冲液(10 mM Tris pH 8.0,1 mM EDTA,0.01% Tween 20)后,用吸管剧烈吹打将冰球珠从盖玻片表面移除并释放到悬浮液中,然后丢弃玻璃。
  2. 珠子通过3000g离心2分钟沉淀,去除上清液。
  3. 珠子沉淀用200 μl洗涤缓冲液洗涤,并按上述方法离心,总共洗涤三次,最后用10 mM Tris-HCl(pH 7)进行最终洗涤。
  4. 随后的外切核酸酶处理是通过将珠子沉淀重悬于200 μl外切核酸酶I反应混合物(1× ExoI缓冲液,每微升含10 U外切核酸酶I (NEB, M0293L))中并在37°C孵育50分钟来完成,之后直接向外切核酸酶混合物中加入200 μl洗涤缓冲液进行一次洗涤。
  5. 去除上清液后,重复洗涤步骤两次,总共洗涤三次。
  6. 珠子沉淀在200 μl新制备的0.1 N NaOH中重悬,并在室温下孵育5分钟。
  7. 加入200 μl洗涤缓冲液后,珠子在3000g下离心2分钟,总共重复洗涤三次。
Para_04
  1. 第二链合成是通过向珠粒沉淀中加入200 μl(1× Maxima RT缓冲液,每种dNTP 1 mM,10 μM dN-SMRT寡核苷酸(IDT,5′-AAGCAGTGGTATCAACGCAGAGTGANNNGGNNNB-3′)和0.125 U μl−1 Klenow酶(NEB,M0210)),并在37 °C下孵育1小时来完成的。
  2. 之后,向混合物中加入200 μl洗涤缓冲液,并在3,000g下离心2分钟。
  3. 洗涤步骤总共重复三次,最后用无RNase/DNase的水进行一次洗涤。
  4. 珠粒沉淀在50 μl PCR混合物(1× Terra Direct PCR混合缓冲液,2 µl Terra聚合酶(Takara,639270),2 μM TruSeq PCR手柄引物(IDT,5′-CTACACGACGCTCTTCCGATCT-3′)和2 μM SMART PCR引物(IDT,5′-AAGCAGTGGTATCAACGCAGAGT-3′))中重新悬浮。
  5. PCR程序如下:98 °C 2分钟;四个循环的98 °C 20秒,65 °C 45秒和72 °C 3分钟;11个循环的98 °C 20秒,67 °C 20秒和72 °C 3分钟;72 °C 5分钟;保持在4 °C。
Para_05
  1. cDNA 在室温下与 0.6 倍体积的 AMPure XP 磁珠孵育 10 分钟。
  2. 然后使用磁性分离器将 AMPure XP 磁珠沉淀 5 分钟,随后用 80% 乙醇洗涤两次,每次 30 秒,最后用 50 微升 EB 溶液洗脱 cDNA。
  3. 以 0.6 倍体积的 AMPure XP 磁珠重复进行磁珠纯化,用 80% 乙醇洗涤两次,并最终用 12 微升 EB 溶液洗脱。
  4. 最后,分别使用 Agilent 高灵敏度 DNA 芯片(5067-4626)和 Invitrogen 高灵敏度 dsDNA 试剂盒(Q32851)评估最终 cDNA 的大小和浓度。
  5. 之后,根据制造商的说明,使用 Nextera XT 试剂盒(Illumina, FC-131-1096)对 600 pg cDNA 进行片段化和标签化处理。
  6. 文库通过带有 TruSeq5 引物(IDT, 5′- AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′)和 N700 系列条形码索引引物的 PCR 扩增进行索引,PCR 程序如下:72°C 3 分钟;95°C 30 秒;12 个循环的 95°C 10 秒、55°C 30 秒、72°C 30 秒;72°C 5 分钟;保持在 4°C。
Para_06
  1. 使用 AMPure XP 磁珠以 0.6:1 的体积比(磁珠:DNA)进行 DNA 的最终纯化,并用 12 μl 的 EB 溶解,得到可用于测序的文库。
  2. 将每个文库的浓度稀释至 4 nM,并将三个 Slide-seq 样品混合在一起。
  3. 样品在 Illumina NextSeq 高通量流动池上以 1.8 pM 的浓度进行测序,设置如下:读段1,44 个碱基;读段2,39 个碱基;以及索引1,8 个碱基。
Para_07
  1. 原始数据使用 Slide-seq 流程(https://github.com/MacoskoLab/slideseq-tools)进行处理。
Para_08
  1. 所有样本的质量都进行了评估,平均每个珠子的读数低于150以及形状无法识别(这阻碍了空间对齐)的样本被排除在进一步分析之外。

CODEX data generation

CODEX 数据生成

Para_01
  1. CODEX 数据生成按照先前描述的方法进行,对 MBC 组织没有进行重大调整。
  2. 详细协议可在 https://www.protocols.io/ 上找到。
  3. 具体来说,CODEX 成像的抗体面板选择包括预期可识别 MBC 以及先天性和适应性免疫系统细胞的目标。
  4. 每个抗体与唯一的寡核苷酸条形码偶联。
  5. 详细的面板信息可以在补充表 5 中找到。
  6. 为了验证面板,抗体-寡核苷酸缀合物在低复用荧光测定中进行了测试。
  7. 染色模式与已知的人扁桃体阳性对照组织中的免疫组化模式进行了比较。
  8. 染色模式还与 H&E 形态学染色进行了比较,以确认标记的位置。
  9. 在此步骤中也评估了信噪比。
  10. 然后,抗体-寡核苷酸缀合物在单个 CODEX 多周期中一起进行了测试。
Para_02
  1. CODEX 多重成像按照先前描述的协议和成像设置以及 Akoya Biosciences 提供的冷冻标本 CODEX 染色说明进行。
  2. 简而言之,在样本获取和 OCT 包埋后,将 OCT 块在低温切片机中平衡至少 30-40 分钟后,切成 7 微米厚的切片。
  3. 组织切片被拖过冷的聚赖氨酸包被盖玻片的表面,并通过用手指短暂加热盖玻片底部表面在低温切片机内部展开。
  4. 染色前,从冰箱中取出的切片在 Drierite 表面上干燥 5 分钟。
  5. 带有切片的干燥盖玻片在室温下浸入乙酸乙酯 10 分钟,然后在室温下完全干燥 10 分钟。
  6. 切片随后在 S1(5 mM EDTA (Sigma-Aldrich),0.5% w/v BSA (Sigma-Aldrich) 和 0.02% w/v NaN3 (Sigma-Aldrich) 在 PBS (Thermo Fisher Scientific) 中)中水化 5 分钟,再在 S1 中加入 1.6% 甲醛于室温下固定 20 分钟。
  7. 甲醛用 S1 洗涤两次,切片在 S2(61 mM NaH2PO4 ∙ 7 H2O (Sigma-Aldrich),39 mM NaH2PO4 (Sigma-Aldrich) 和 250 mM NaCl (Sigma-Aldrich) 在 S1 和双蒸水 (ddH2O) 的 1:0.7 v/v 溶液中;最终 pH 6.8–7.0)中平衡 10 分钟,并在封闭缓冲液中封闭 30 分钟。
  8. 所有后续步骤均按照 Black 等人或 Akoya CODEX 说明书中的方法进行——这包括荧光标记寡核苷酸与结合物上寡核苷酸互补的循环剥离、退火和成像。
Para_03
  1. 使用由 Akoya Biosciences 提供的 CODEX 驱动软件控制的 Akoya CODEX 仪器和配备四个荧光通道(DAPI、FITC、Cy3 和 Cy5)的 Keyence BZ-X710 荧光显微镜进行了自动图像采集和流体交换,并配备了尼康 CFI Plan Apo λ ×20/0.75 物镜。
  2. 每个周期以 1/175 秒的曝光时间拍摄 Hoechst 核染色(最终浓度 1:3,000)。
  3. 生物素化 CD39(克隆 A1,Biolegend)以 1:500 的稀释度使用,并在最后一个成像周期中通过 DNA 链霉亲和素-PE(最终浓度 1:2,500)可视化。
  4. DRAQ5 核染色(最终浓度 1:500)被加入并在最后一个成像周期中可视化。
  5. 每块组织以 ×20 物镜在 7 × 9 的拼图采集模式下成像,每个拼图的分辨率为 1,386 × 1,008 像素,像素间距 396 纳米,每个拼图 13 个 z 平面(轴向分辨率 1,500 纳米)。
  6. 图像经过去卷积处理以去除焦外光线。
Para_04
  1. 原始成像数据使用 CODEX Uploader(https://github.com/nolanlab/CODEX)进行图像拼接、漂移补偿、去卷积和循环连接处理。
  2. 处理后的数据使用 CellVisionSegmenter 进行分割,这是一种基于 Mask 区域卷积神经网络(R-CNN)架构的开源预训练核分割和信号量化软件。
  3. CellVisionSegmenter 在手动注释的 CODEX 多重成像数据上进行了训练,可以成功分割密集和扩散的细胞组织(https://github.com/bmyury/CellVisionSegmenter;https://github.com/michaellee1/CellSeg)。
  4. 因此,在分割 HTAPP 数据集时,仅更改了一个参数:核掩模的增长像素数。这被实验确定为最佳值为 3。
  5. 上传后,图像在 ImageJ(https://imagej.net/)中可视化,并重新评估特定信号。任何产生低信噪比或不可接受模式的标记都被排除在后续分析之外。
  6. 最后,所有样本均手动检查是否存在明显的意外信号出现或分布,表明设备或协议错误。未检测到任何情况,所有样本均被认为适合下游图像分析。

Gene panel design for MERFISH and ExSeq

用于MERFISH和ExSeq的基因面板设计

Para_01
  1. 为了选择一组基因用于使用 MERFISH 和靶向 ExSEQ 测定对 MBC 活检进行空间分析,我们开发了一种‘收集和过滤’方法,以允许最终选择基因数量的灵活性。
  2. 首先,基于先前的知识和文献以及我们的 MBC 单细胞/核 RNA 测序(sc/snRNA-seq)数据,编制了一个包含 510 个潜在相关基因的初步列表(收集)。
  3. 选择了代表乳腺癌(BC)生物学、转移和肿瘤免疫微环境各个方面以及从单细胞/核 RNA 测序中发现的细胞类型和程序的基因。
  4. 然后,根据在 MBC 单细胞 RNA 测序(scRNA-seq)数据集中测量的表达统计信息和手动优先级(0-1)分配,将初步列表减少到 300 个基因(面板的实验规模)。
  5. 在探针设计过程中,由于技术标准未达标(所有三个转录本都太短),选中的 300 个基因中有三个被排除在外,最终基因集减少到 297 个基因。
  6. 下面,我们将更详细地描述 510 个基因的初步选择及其减少到 300 个的过程。
Gene collection

基因收集

Para_01
  1. 为了生成一个初步的基因列表,这些基因可能广泛适用于表征 MBC 病变中的细胞类型和程序,我们遵循了三个广泛的标准:(1) 基于专业知识和相关科学出版物的先验知识;(2) 在 CODEX 蛋白组学测定中靶向的基因,这些测定也应用于相同的 MBC HTAPP 肿瘤样本;(3) 从 21 例 MBC 活检的初步单细胞/单核 RNA 测序数据中代表的细胞类型和程序的基因。
Para_02
  1. 基于先验知识的基因选择始于确定在MBC和癌症中已知重要的基因类别,并回顾现有文献以选择每个类别的代表性基因:
Para
  • 经典细胞类型特异性标志物(例如:EPCAM 表达于上皮细胞,CD19 表达于 B 细胞,CD4 表达于辅助性 T 细胞,CD8 表达于细胞毒性 T 淋巴细胞,CD56 表达于 NK 细胞,CD14 表达于巨噬细胞)
  • 乳腺癌临床标志物(例如:ESR1、PGR 和 ERBB2)
  • 乳腺癌内在亚型[^72,^73]
  • 癌症特征标志
    • 抗凋亡(例如:BCL2)
    • 上皮-间质转化(EMT)(例如:VIM)
    • 免疫逃逸(例如:CD274)
    • 细胞衰老(例如:TP53)
    • 细胞增殖(例如:MKI67),等[^71,^72]
  • 正常乳腺上皮层级结构[^74,^75,^76,^77]
  • 雌激素受体(ER)信号传导[^78]
  • 转移性乳腺癌(MBC)的基因组景观及治疗耐药机制[^59,^79,^80,^81,^82,^83]
Para_03
  1. 预定义的 CODEX 目标基因被包含在面板中,以确保与匹配的 CODEX 数据的一致性和后续整合。
  2. 为此,我们将蛋白质标识符转换为基因标识符,并将生成的基因分配优先级 1,以纳入面板(参见"基因过滤"小节)。
Para_04
  1. 基于数据驱动的基因选择是在当时可用的单细胞/单核 RNA 测序(sc/snRNA-seq)数据上使用 Seurat 版本 2.3.4 进行的。
  2. 用于基因选择的数据包括 21 个 MBC 样本(6 个单核 RNA 测序,15 个单细胞 RNA 测序),仅代表最终数据集 37 个单核 RNA 测序和 30 个单细胞 RNA 测序的一部分。
  3. 删除了含有少于 500 个基因的单细胞谱型和少于 200 个基因的单核谱型。
  4. 初步的细胞类型注释使用 R 包 SingleR 版本 1.0.1(https://bioconductor.org/packages/release/bioc/html/SingleR.html)在单细胞模式下,采用内置的 HPCA 参考和标准参数进行。
  5. 为了识别特定细胞类型的基因——即具有高细胞类型预测能力的基因——我们训练了一个支持向量机(SVM)分类器(R 包 liblineaR 版本 2.10-8),并使用分配的特征权重来选择每个细胞类型的高预测性基因。
  6. 数据被降采样至每种细胞类型随机选取 200 个细胞,以确保类别平衡,并通过五折交叉验证和预测准确性评估分类器的预测能力。
  7. 首先,通过训练和测试一个包含所有可变基因的分类器来确定基线准确率。
  8. 其次,对于每种细胞类型,仅使用累积相对权重排名低于 0.4(单核数据)和 0.45(单细胞数据)的基因(即,所有最高加权基因共同占 40% 或 45% 的相对权重)来训练第二个分类器,该分类器基于另一个独立降采样的数据集,规格相同。
  9. 同样,通过五折交叉验证评估准确度,并与基线准确率进行比较,以确保在减少基因数量并使用数据的不同子集时,准确率没有显著降低。
  10. 此外,我们还使用随机森林分类器(R 包 randomForest 版本 4.6-14)确定了分类错误率,以确认观察到的良好性能不是分类器依赖的。
  11. 在所选基因中,所有累积相对权重排名低于 0.3(单核数据)或 0.35(单细胞数据)的基因被赋予优先级 1,而其余基因则根据它们在所有细胞类型中的相对总权重被赋予低于 1 的优先级(见‘基因过滤’小节)。
Para_05
  1. 为了表示 BC 内在亚型,使用了与上述基于单细胞和单核数据描述的方法相似的方法来精炼 PAM50 亚型定义基因。
  2. 首先,使用所有 50 个 PAM50 基因来检测区分 PAM50 亚型的基本准确性,其次,使用累积相对权重低于 0.8(单细胞和单核数据)的所有基因来确定分类准确性和分配优先级 1,而其余基因则根据其在所有细胞类型中的相对总权重分配低于 1 的优先级(见‘基因过滤’小节)。
Para_06
  1. 为了选择代表细胞类型内细胞程序的基因,我们分别对单细胞数据集中存在的主要细胞类型(恶性细胞、T 细胞、NK 细胞、成纤维细胞、内皮细胞、单核细胞/巨噬细胞/树突状细胞、B 细胞和浆细胞)应用了主题建模。
  2. 我们使用 R 包 CountClust 版本 1.12.0 中的 FitGoM() 函数,将等级成员模型(GoM)拟合到每种细胞类型最多 4,000 个随机采样的细胞的原始计数数据上。
  3. 所有细胞类型的 GoM 模型的容差值设置为 0.01。
  4. 对于每种细胞类型,要拟合的主题数量(K)是通过拟合一系列合理的 K 值模型,并比较不同模型的贝叶斯信息准则(BIC)来经验确定的。
  5. 对于每种细胞类型,K 被选为大于或等于 3 并且代表 BIC 的局部最小值。
  6. 最后,在排除核糖体和线粒体基因后,为以下每种细胞类型使用指示参数分别拟合了模型:恶性细胞(K = 13),T 细胞(K = 3),NK 细胞(K = 3),成纤维细胞(K = 4),内皮细胞(K = 5),单核细胞/巨噬细胞/树突状细胞(K = 7),B 细胞(K = 3)和浆细胞(K = 10)。
  7. 对于每个主题,使用函数 ExtractTopFeatures() 识别出前 30 个基因,并使用 enrichR 版本 1.083 查询 GO_Biological_Process_2018 数据库进行 GSEA 分析。
  8. 跨细胞的主题加载量以及调整后的 P 值错误发现率(FDR)< 0.05 的富集基因本体(GO)术语被手动检查以寻找有趣的模式。
  9. 在定义主题和被认为有趣的 GO 术语的基因中,每个主题加载量最高的基因被赋予优先级 1,而其他基因被赋予优先级 0(参见"基因过滤"部分)。
Gene filtering

基因过滤

Para_01
  1. 为了从上述不同方法组装的510个基因列表中选择300个基因,我们设计了一种过滤策略,确保所选基因在单细胞表达数据集中表达,并且具有变异性,同时保持这510个基因代表的细胞和生物医学方面的多样性,这些基因被概括为九个类别和83种选择类型。
  2. 一个基因在满足以下条件之一时会被包括:(平均标准化表达量 > 0.15 或 变异性 > 0.025 或 类别数量 > 1)并且(平均标准化表达量 > 1.5 且 < 4 或 变异性 > 0.25 或 优先级 = 1 或 类别数量 > 1),其中变异性定义为所有细胞中绝对缩放表达值大于1的细胞比例,平均标准化表达量则是根据最高表达细胞类型或上皮(恶性)细胞计算得出,对于因已知与MBC相关而被选择的基因而言。
  3. 在探针生成步骤中,确定了三个基因太短,因为它们没有足够的长度来容纳足够数量的独特探针。
  4. 因此,评估的基因总数为297个,涵盖了所有九个类别和83个原始基因类型中的82个(补充表3)。
  5. 这种高保留率证实了即使减少了基因集,我们仍然覆盖了所有主要的细胞类型、亚型和感兴趣的程序,使我们能够有信心地继续前进。

MERFISH data generation

MERFISH数据生成

Para_01
  1. MERFISH 数据生成的详细协议可在 https://www.protocols.io/ 上找到。
  2. MERFISH 协议分为三个部分:探针设计/生成、组织处理和成像及分析/分割。
Para_02
  1. 除了上述选择用于 MERFISH 的 297 个基因外,还增加了两个额外的基因,ALB 和 LIPE,以方便识别肝脏(肝细胞)和脂肪(脂肪细胞)组织中常见的宿主细胞类型。
  2. 为了设计和构建编码探针,每个在组合成像轮次中成像的 291 个基因都被分配了一个从 22 位、汉明距离 4、汉明权重 4 编码方案中抽取的独特二进制条形码。
  3. 包括了 94 个额外的‘空白’条形码,这些条形码未被分配给任何基因,用于测量假阳性率。
  4. 22 位代码的每一位都与一个独特的读出序列相关联,对于每个基因,读出序列对应于该基因分配的条形码中的四个‘开启位’(读取为‘1’的位)。
  5. 对于每个基因,生成了 60 个编码探针,包括一个 30 个碱基的靶标序列,三个与基因对应的读出序列以及用于文库扩增的 PCR 引物序列。
  6. 用于 291 个多路复用基因的编码探针的模板 DNA 是作为复杂寡核苷酸池合成的,并用于构建最终的 MERFISH 探针集,如前所述。
  7. 用于八个基因的连续单分子 FISH(smFISH)轮次的编码探针设计方式与此类似,但有以下不同:(1)每个基因生成 48 个探针;(2)每个基因使用一个独特的读出序列;(3)省略了 PCR 引物。
  8. 然后在 96 孔板格式中合成了编码探针,并混合至合适的最终浓度。
Para_03
  1. 切片样本被放置在聚-D-赖氨酸涂层的盖玻片上,用4%甲醛固定,70%乙醇透化,白光光漂白,然后与MERFISH探针库和poly(A)锚定探针杂交。
  2. 杂交后,样品被嵌入4%聚丙烯酰胺凝胶中,在含有蛋白酶和温和去污剂的消化缓冲液中光学透明,并在4°C下储存直至成像。
Para_04
  1. 样品的 MERFISH 成像在一个自制的成像平台上进行。
  2. 成像前,样品用两种分割标记物染色,即 DAPI 和与 poly(A) 锚探针互补的 Alexa Fluor 488 偶联读出探针。
  3. 为了成像,样品被放置在流动腔内,以便在多轮 MERFISH 成像过程中更换缓冲液。
  4. 每轮成像包括读出探针杂交、对每个视野(每个视野 220 微米 × 220 微米)成像以及读出探针荧光团切割。
  5. 成像共进行了 17 轮。
  6. 在第 1 轮成像分割标记后,在第 2-12 轮成像了条形码编码的 RNA 种类(组合 smFISH 轮),而在第 13-16 轮成像了个别标记的 RNA 种类(顺序 smFISH 轮)。
  7. 在第 1-12 轮中,每个视野的图像在 z 方向上间隔 1.5 微米的七个焦平面获取。
  8. 在第 13-16 轮中,每个视野的图像在玻璃表面以上 3.5 微米的一个焦平面上获取。
  9. 此外,每轮成像还包括一个位于玻璃表面的参考珠子的单个 z 平面图像,用于图像配准。
  10. 每个样品成像的视野数量根据样品的大小而变化。
Para_05
  1. 随后,所有 MERFISH 图像分析均使用 MERlin Python 包(https://github.com/ZhuangLab/MERlin)进行。
  2. 首先,对于每个视野(FOV),每轮成像的图像被对齐以校正载物台位置的 x-y 漂移。
  3. 对于组合轮次,每个视野的图像堆栈进行了高通滤波、使用 Lucy-Richardson 去卷积,并最终进行了低通滤波。
  4. 然后,通过基于像素的解码方法识别单个 RNA 分子,如前所述。
  5. 所有细胞分割均使用 cellpose Python 包(https://github.com/MouseLand/cellpose)进行,应用‘核’模型到每个视野的 DAPI 图像上。
  6. 根据识别出的单个 RNA 分子是否位于分割边界内,将它们分配给单个细胞。
  7. 对于连续的 smFISH 轮次,图像进行了高通滤波和背景减除,每个细胞中每个基因的表达量计算为细胞中心 z 平面分割边界内所有像素荧光强度的总和。
  8. 来自八个连续基因的信号与在组合 smFISH 轮次中测量的 291 个基因的 RNA 计数矩阵合并,生成每个组织切片的最终表达矩阵。
  9. 然后根据质量控制标准评估每个切片,以确定是否将其纳入进一步分析。
  10. 每个切片的质量控制标准包括(1)每个细胞的平均 RNA 计数数量(≥50 为合格)和(2)MERFISH 数据集与从同一肿瘤衍生的 scRNA-seq 数据集之间的平均基因表达的 Pearson 相关系数(≥0.60 为合格)。
  11. 两个标准都必须满足才能通过质量控制。

Targeted ExSeq data generation

定向生成ExSeq数据

Para_01
  1. 针对 ExSeq 数据生成的详细协议可在 https://www.protocols.io/ 上找到。
  2. 工作的整体结构分为三个部分:实验设计、实验执行和分析。
  3. 在实验设计步骤中,设计了针对上述识别基因的垫锁探针。
  4. 在实验执行步骤中,组织切片被固定和扩展,随后进行靶向原位测序文库的制备和原位测序。
  5. 最后,对原位测序数据进行解码,以鉴定标本中的特定 RNA 转录本。
Para_02
  1. 设计了针对上述确定基因的锁探针,遵循‘靶向 ExSeq-探针生成’协议。
  2. 简而言之,生成了长度为7的逻辑条形码序列,其中条形码中的每个位置是一个介于0到3之间的数字,并随机分配给感兴趣的基因。
  3. 这些条形码被设计成具有最小汉明距离3,能够实现错误检测和校正。
  4. 然后,这些逻辑条形码被实现在锁探针骨架上的核苷酸序列中,一个序列用于Illumina合成测序化学读出(本研究中使用),另一个序列用于SOLiD连接测序化学读出(此处未使用)。
  5. 两个序列都包含在探针骨架中,靠近测序引物位点。
  6. 通过沿每个转录本进行滑动窗口搜索来生成探针同源序列。
  7. 候选区域因序列复杂性(超过五个连续重复碱基、包含三个或更少独特核苷酸、GC含量不在40%-65%之间)、物理考虑(任一臂的锁探针熔解温度(Tm)低于特定基因的Tm阈值、两臂之间的Tm差异超过8°C、同源区域存在发夹结构或二聚体)或与跨越连接位点的不同转录本具有显著同源性而被排除。
  8. 对于每个基因,从转录本的5'端开始选择前16个同源区域。
  9. 如果识别出的同源区域少于16个,则全部选择使用。
  10. 通过将同源区域与该基因所有探针共享的骨架序列(包含条形码)结合,组装每个基因的探针。
  11. 设计的锁探针随后以板式格式从IDT购买并混合在一起。
Para_03
  1. 第一步实验步骤是根据‘靶向 ExSeq-组织制备’协议进行组织制备,遵循协议摘要中的流程图路径 C。在这一步中,组织切片被固定、膨胀,并准备用于靶向 ExSeq 文库制备。
  2. 简而言之,在将组织切片冷冻切片到 Superfrost Plus 玻璃载玻片上(如上所述)后,用冰冻的 10% 甲醛固定 12 分钟,然后用冰冻的 1× PBS 洗涤三次,每次 5 分钟。载玻片随后储存在 70% 乙醇中,4 °C 下可保存长达 1 周。
  3. 为了开始凝胶包埋,载玻片用实验室纸巾短暂干燥,然后在组织切片周围放置一个 Bio-Rad Frame-Seal 贴纸,形成一个洗涤室。组织通过用 1× PBS 洗涤重新水化,然后在 37 °C 下与 0.1 mg ml−1 LabelX 处理过夜,以促进核酸锚定到膨胀水凝胶中。
  4. 然后将组织嵌入膨胀显微镜水凝胶中,并按照协议中描述的鲁棒消化条件进行消化。消化后,样品被膨胀并重新嵌入非膨胀聚丙烯酰胺凝胶中,以锁定膨胀因子。原始膨胀凝胶中的羧酸盐固定电荷随后通过 EDC-NHS 激活羧酸盐基团化学钝化,接着与乙醇胺形成酰胺键。凝胶随后被修剪至适当大小。
Para_04
  1. 第二个实验步骤是按照‘靶向 ExSeq-测序文库制备’协议进行文库制备。
  2. 简而言之,带有条形码序列的垫锁探针与RNA转录物杂交。
  3. 然后使用SplintR连接酶对垫锁探针进行酶促环化,并使用Phi29 DNA聚合酶通过滚环扩增进行酶促扩增,形成扩增子(也称为RCA菌落或rolonies)。
  4. 扩增子随后相互交联并与样品交联,准备好进行原位测序。
  5. 对于这些样本,这里跳过了通用扩增子检测杂交步骤,并在完成原位测序后进行。
Para_05
  1. 第三步实验是在位测序,遵循‘目标 ExSeq–在位测序(Illumina 化学)’协议。简而言之,样品(含有在位测序文库的凝胶嵌入组织)通过在平板表面功能化丙烯酰基团,将样本凝胶置于孔内,并浇铸第二层再嵌入凝胶,使样本凝胶固定在玻璃底板上,从而共价锚定到玻璃底板上用于成像。
  2. 然后,通过使用末端脱氧核苷酸和末端转移酶封端样品中的游离 3' 端 DNA 来准备样品进行测序。
  3. Illumina 测序引物与样本内的扩增子杂交,并使用从 MiSeq 第三代测序试剂盒收集的试剂在位进行了七轮 Illumina 合成测序。
  4. 每轮测序包括碱基掺入(添加下一个碱基)、使用旋转圆盘共聚焦显微镜对扩增子进行四色成像以及可逆终止子的裂解,以便进行下一轮测序。
  5. 在最后一轮测序后,将通用扩增子检测探针杂交到样品上(见文库制备协议),并进行最终一轮成像。
Para_06
  1. 使用已建立的 ExSeqProcessing 流水线(https://github.com/dgoodwin208/ExSeqProcessing)进行数据分析,将原位测序图像转换为空间定位读数,使用颜色校正和归一化后的 Big Experiment (BigEXP) 方法进行图像配准。
  2. 图像配准后是斑点提取和碱基调用,使用探针条形码作为参考库。
  3. 使用 VASTLite 版本 1.3.0 手动注释 DAPI 通道的 2D 最大强度投影图像中的细胞核边界,进行 2D 手动细胞分割。
  4. 位于细胞核内的读数被分配给该细胞;位于分割细胞核外的读数被丢弃。
  5. 评估每个样本的质量,平均每个细胞读数低于 50 的样本被排除在进一步分析之外。

Processing and quality assurance of the spatial expression data

空间表达数据的处理和质量保证

Para_01
  1. 所有空间表达数据均以各自的标准格式接收。
  2. 首先,所有数据类型都被转换为一个通用的观察 × 特征矩阵格式,遵循单细胞 RNA 测序(scRNA-seq)数据的格式。
  3. 对于单分子数据(如 MERFISH 和 ExSeq),创建了两个矩阵,一个是使用伴随的细胞分割信息的细胞 × 特征矩阵,另一个是每个 10 μm × 10 μm 区域表示表达的 bin × 特征矩阵,类似于 Slide-seq 数据。
  4. 此外,空间坐标被调整为全部从 [0 | 0] 开始,并按每微米 1 像素的比例缩放,这是数据的最低原始分辨率。
  5. 注意,在空间表达数据中,我们区分‘位置分辨率’和‘捕获分辨率’:位置分辨率是指报告观察或分子在空间中的位置的分辨率,而捕获分辨率是指分子被单独捕获的分辨率。
  6. 例如,在 Slide-seq 中,位置分辨率(即报告珠子位置的分辨率)为每像素 0.65 微米,捕获分辨率为 10 微米(=珠子直径),因为由同一珠子捕获的分子之间的最大距离为 10 微米。
  7. 对于单分子解析方法,位置分辨率和捕获分辨率相同。
Para_02
  1. 将所有数据转换为同一格式后,可以与匹配的 sc/snRNA-seq 数据一起作为 anndata 对象使用 SCANPY 进行高效处理。
  2. 这样,对于每个患者和方法,都会创建一个 anndata 对象并单独处理。
  3. 鉴于不同方法之间设计参数的差异,对所有数据类型采取了合理的相同措施。
Para_03
  1. 使用 SCANPY 版本 1.7.2 的函数 filter_cells 和 filter_genes 进行质量过滤,其中 filter_genes 的 min_cells 参数设置为 3。
  2. 对于 filter_cells 使用了以下参数:min_counts = 20 和 min_genes = 1(适用于 MERFISH 和 ExSeq),min_counts = 30 和 min_genes = 30(初始 Slide-seq 和 sc/snRNA-seq)。
  3. 对于 Slide-seq 和 sc/snRNA-seq,还进行了一个逐步增加 min_counts 参数的迭代过程,以确保数据中保留的低质量珠子(计数少于 100 的)比例不超过 35%。
  4. 这种自适应程序确保了足够的质量,同时尽可能多地保留观察数据。
  5. 上述程序也应用于已经如上所述进行过质量过滤的 sc/snRNA-seq 数据,以确保在极不可能的情况下,此程序在特定情况下可能更为严格时,过滤条件等效。
  6. 对于 CODEX,使用的参数设置为 min_counts = 1 和 min_genes = 1,这实际上要求至少有一个基因的值大于 1,基本上禁用了这种基于强度的数据的过滤步骤,因为细胞质量过滤已经在分割过程中完成。
Para_04
  1. 经过过滤后,应用了 SCANPY 工作流程,包括归一化、log1p 转换、缩放、高变异基因选择、总计数和线粒体计数(如果可能的话)的回归、PCA、最近邻查找、Leiden 聚类以及使用 UMAP 进行 2D 投影。
  2. 对于 CODEX,由于数据的强度基础性质(而非计数基础)以及此次分析的样本内范围,未进行归一化和回归。
Para_05
  1. 最后,空间表达数据和 H&E 图像通过半手动过程对齐,以尊重它们的连续性,并允许高效比较以及从 H&E 图像转移组织病理学注释。
  2. 为此,我们设计了自定义函数,允许进行所有必要的转换(旋转、平移、翻转和缩放),并通过使用 Jupyter 笔记本手动找到并记录每个样本的相应参数,直到来自一个活检的所有数据都能可靠地注册到一个共同的坐标系统中。
  3. 为了过滤掉错误的测量结果,所有位于 H&E 切片覆盖区域之外的观察结果都被移除,并根据与其重叠的组织病理学注释对观察结果进行了标注。

Cell type annotation of the spatial expression data by annotation transfer from the sc/snRNA-seq data

通过从单细胞/单核RNA测序数据转移注释来标注空间表达数据的细胞类型

Para_01
  1. 对于所有空间表达数据,使用 TACCO 框架版本 0.0.1 和匹配的 sc/snRNA-seq 数据作为参考来注释细胞类型。
  2. 具体来说,我们使用了两种概念上不同的注释方法,这两种方法都包含在 TACCO 框架中,并且都能解卷积细胞类型混合物。
  3. 我们使用了 RCTD 版本 1.2.0,这是一种先前发布的、广受认可的工具,旨在为 Slide-seq 数据进行注释,并明确建模特定于细胞类型的读数分布以确定观察结果的细胞类型组成。
  4. 我们还使用了 TACCO 自己的注释方法,该方法基于不平衡最优传输(OT),对输入数据的属性做出较少假设,特别是设计上不限于计数数据,这对于包括 CODEX 数据在内的连贯注释是必要的。
  5. RCTD 使用默认参数运行,除了 min_ct = 2。
  6. OT 使用 lamb = 0.001 运行,并通过使用 TACCO 的平台归一化、多中心(multi_center=4)和二分法(bisections = 4, bisection_divisor = 3)功能进行‘增强’。
  7. 每个观察结果的组成以及分类(最大细胞类型)注释都被存储以供进一步使用。

Cell type frequency correlation analysis

细胞类型频率相关性分析

Para_01
  1. 为了评估同一活检样本不同方法剖面连续切片之间局部细胞类型频率的一致性,我们为每个活检定义了一个 100 × 100 微米的通用网格,并在每个网格和切片内,根据先前分配的分类细胞类型注释计算细胞类型组成,从而得到每个网格和切片中细胞类型频率的向量,长度为该活检任一切片中观察到的细胞类型数量。
  2. 然后,在每个网格内,计算从每个切片(代表不同的剖面方法和/或重复)得出的细胞类型组成向量之间的成对皮尔逊相关系数。

Analysis of cluster congruence using the ARI

使用ARI分析聚类一致性

Para_01
  1. 为了评估基于表达的 Leiden 聚类与细胞类型或患者/样本注释的一致性,分别计算了使用 scikit-learn 0.24.1 版本中的 adjusted_rand_score 函数得到的 ARI,这些聚类(Leiden 聚类、患者/样本和细胞类型)由单个观察值(单细胞/珠子/箱)组成。
  2. 为了统计稳健性,使用了 10 次迭代的 Bootstrap 方法,并报告了平均值和标准差。

Cell type co-localization analysis

细胞类型共定位分析

Para_01
  1. 使用 TACCO 的 0.2.2 版本 co_occurrence 函数基于组成型 OT 注释进行细胞类型共定位分析,分析距离不超过 500 微米,并使用 ‘log_occ’ 分数。
  2. 简而言之,在从选定的中心细胞类型(此处为巨噬细胞)的每个距离处,该函数计算找到其他注释细胞类型的概率,相对于未选择中心细胞类型的情况。
  3. 然后从共定位分数中得出两个分数:共定位强度,定义为第一个距离间隔的分数;共定位范围,定义为分数衰减到第一个距离间隔分数的 25% 时的距离间隔处的分数。

De novo cell type annotation of the cell-segmented MERFISH data

细胞分割的MERFISH数据的从头细胞类型注释

Para_01
  1. 利用细胞分割的 MERFISH 数据的单细胞样行为,除了上述的注释转移外,我们还进行了基于手动聚类和标志基因的注释,这在 scRNA-seq 数据中经常进行。
  2. 为此,所有细胞分割的 MERFISH 数据被合并到一个 anndata 对象中,并使用如上所述的 SCANPY 1.7.2 版本的功能进行处理。
  3. 为了保持一致性,我们对注释的细胞类型使用了与 sc/snRNA-seq 注释相同的分辨率级别,并且只有当聚类明显表现出不匹配任何先前注释的细胞类型的特征时,才分配新的细胞类型标签,这种情况出现在一小部分可能具有调节功能的 B 细胞中,这些细胞除了典型的 B 细胞标志物 FCRL5 外还表达 FOXP3。

Characterization of macrophage subclusters

巨噬细胞亚群的特征描述

Para_01
  1. 为了表征每种分析方法中的巨噬细胞亚簇,Leiden 聚类是在 Harmony 对齐的数据上进行的(如‘在伪批量或单细胞/珠子/箱水平上整合 sc/snRNA-seq 数据或空间数据’小节所述)。
  2. 使用 Python 包 SCANPY 版本 1.7.2 中的函数 rank_genes_groups 调用差异表达基因,将方法参数设置为‘wilcoxon’,其余参数保持默认。
  3. 选择排名前五的差异表达基因中的一到两个进行展示。

Differential expression analysis between EMT phenotypes

EMT表型之间的差异表达分析

Para_01
  1. 为了检测三种空间表型(EMT-high、EMT-low 和 EMT-patched)之间的差异表达基因,使用了 Python 包 TACCO 版本 0.2.2 的 ‘enrichments’ 函数,在一对一或 EMT-high 对比 EMT-patched 的设置下,使用了以下相关参数:p_corr = ‘fdr_bh’(使用 Benjamini-Hochberg 校正进行多重检验校正),position_split = (1,2)(沿 y 轴将样本分为两部分以捕捉样本内变异),method = ‘welch’(使用 Welch’s t 检验进行统计显著性测试),direction = ‘both’(测试增加/富集或减少/耗尽的表达),reduction = ‘mean’(用于计算样本分割间的伪批量值的度量)和 normalization = ‘clr’(使用中心对数比标准化)。

Differential cell type composition analysis between EMT defined neighborhoods

EMT 定义的邻域之间的差异细胞类型组成分析

Para_01
  1. 为了检测 EMT 高和 EMT 低邻域之间细胞类型组成的差异,对中心对数比标准化的细胞类型组成在 100 × 100 微米的 bin 中进行了双侧 Wilcoxon 检验和 Benjamini–Hochberg 多重检验校正。
  2. EMT 高和 EMT 低邻域被定义为 100 × 100 微米的 bin,其平均 EMT 分数大于(高)或小于(低)给定样本的中位 EMT 分数。

MERFISH-based differential expression analysis between T/NK proximal and distal malignant cells

基于MERFISH的T/NK近端和远端恶性细胞差异表达分析

Para_01
  1. 为了研究位于 T 细胞或 NK 细胞附近的恶性细胞与那些不接近 T 或 NK 细胞的恶性细胞之间的表达谱差异,我们使用了细胞分割和手动注释的 MERFISH 数据,并将 T/NK 高恶性细胞定义为与至少一个 T 或 NK 细胞共同存在于 100 × 100 微米单元中的细胞,而 T/NK 低恶性细胞则定义为存在于不含 T 或 NK 细胞的 100 × 100 微米单元中的细胞。
  2. 然后,我们使用 SCANPY 1.7.2 版本的 rank_genes_groups 函数,通过 Wilcoxon 检验和 Benjamini-Hochberg 校正来比较这两组恶性细胞,并根据它们的表达差异对基因进行排序。
  3. 该分析既在样本特异性设置下进行,也在所有样本的组合设置下进行。

Statistical analysis

统计分析

Para_01
  1. 箱线图遵循标准格式(中心线对应中位数;箱限对应上四分位数和下四分位数;须代表1.5倍的四分位距;点表示异常值)。
  2. 当数据点太多无法单独显示时,使用宽度缩放的小提琴图来表示数据点的分布,在图形上可能的情况下(否则仅显示箱线图)。
Para_02
  1. 使用 R 包 'stats' 中的 cor 或 cor.test 函数或 Python 包 'pandas' 版本 1.1.3 中的 corr 函数计算了皮尔逊相关系数和斯皮尔曼相关系数。
Para_03
  1. 所有 UMAP 都是使用 SCANPY 1.7.2 版本的 umap 函数,并采用默认参数创建的。

Reporting summary

报告摘要

Para_01
  1. 关于研究设计的更多信息可在链接到本文的《自然组合报告摘要》中获得。

Data availability

Para_01
  1. 所有数据都可以通过 HTAN 门户网站 https://humantumoratlas.org 和相关 HTAN 出版页面 https://humantumoratlas.org/publications/htapp_mbc_klughammer_2024 从 Synapse 或基因型和表型数据库(dbGaP)(登录号:phs002371)获取。
  2. 为了方便起见,处理后的数据还可在单细胞门户(https://singlecell.broadinstitute.org/single_cell/study/SCP2702)获得,并可通过 CELLxGENE(https://cellxgene.cziscience.com/collections/a96133de-e951-4e2d-ace6-59db8b3bfb1d)进行交互浏览。
  3. 10x Genomics 提供了预构建的 Cell Ranger 参考 GRCh38 版本 3.0.0(2016 年 11 月),包括其剪接版本(scRNA-seq)和前 mRNA 版本(snRNA-seq)(https://www.10xgenomics.com/support/software/cell-ranger/latest/release-notes/cr-reference-release-notes)。

Code availability

Para_01
  1. 用于执行所展示分析的代码可在 GitHub 上获取:https://github.com/klarman-cell-observatory/HTAPP-Pipelines/tree/master/HTAPP_MBC
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Main
  • Results
    • Single-cell and spatial expression profiling of clinical variables
    • Clinical features are associated with cell type composition
    • Clinical features explain variation in expression profiles
    • Comparison of spatial expression profiling methods
    • Spatial profiling of tumor-associated macrophages
    • Spatial interaction and expression phenotypes
  • Discussion
  • Methods
    • Ethics statement
    • Sample acquisition, handling and annotation
    • Generation of snRNA-seq data
    • Generation of scRNA-seq data
    • 10x library generation and sequencing
    • Processing and quality assurance of the sc/snRNA-seq data
    • Cell type annotation in sc/snRNA-seq
    • CNA in the sc/snRNA-seq data
    • Variance analysis in the sc/snRNA-seq data
    • De novo characterization of malignant expression programs using iNMF
    • Scoring of expression programs in sc/snRNA-seq and spatial data
    • Integration of sc/snRNA-seq data or spatial data on a pseudobulk or single-cell/bead/bin level
    • PAM50 molecular subtype assignment
    • Sectioning for spatial expression profiling and H&E staining
    • H&E staining and histopathological annotation
    • Slide-seq data generation
    • CODEX data generation
    • Gene panel design for MERFISH and ExSeq
      • Gene collection
      • Gene filtering
    • MERFISH data generation
    • Targeted ExSeq data generation
    • Processing and quality assurance of the spatial expression data
    • Cell type annotation of the spatial expression data by annotation transfer from the sc/snRNA-seq data
    • Cell type frequency correlation analysis
    • Analysis of cluster congruence using the ARI
    • Cell type co-localization analysis
    • De novo cell type annotation of the cell-segmented MERFISH data
    • Characterization of macrophage subclusters
    • Differential expression analysis between EMT phenotypes
    • Differential cell type composition analysis between EMT defined neighborhoods
    • MERFISH-based differential expression analysis between T/NK proximal and distal malignant cells
    • Statistical analysis
    • Reporting summary
  • Data availability
  • Code availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档