Basic Information 英文标题:ImmuneLENS characterizes systemic immune dysregulation in aging and cancer 中文标题:ImmuneLENS 描述了衰老和癌症中的系统性免疫失调 发表日期:18 February 2025 文章类型:Article 所属期刊:Nature Genetics 文章作者:Robert Bentham | Nicholas McGranahan 文章链接:https://www.nature.com/articles/s41588-025-02086-5 Abstract Para_01 病原体和癌细胞的识别与清除依赖于适应性免疫系统。 因此,对免疫亚群进行精确量化对于精准医学至关重要。 我们提出了从核苷酸测序数据中估计免疫淋巴细胞的方法(ImmuneLENS),该方法可以从低至5倍覆盖度的全基因组测序数据中估算T细胞和B细胞的比例、类别转换及克隆型多样性。 通过将ImmuneLENS应用于十万基因组计划,我们发现了在富含T细胞的肿瘤中富集体细胞突变的基因,显著的基于性别的循环T细胞比例差异,并证明了癌症患者的循环T细胞比例显著低于健康个体。 低循环B细胞比例与癌症发病率增加相关。 最后,循环T细胞的丰度比浸润性T细胞更能预测五年癌症生存率。 Main Para_01 测量免疫细胞的数量、质量和位置对于理解其作用和功能至关重要。 在癌症研究中,研究集中于肿瘤浸润淋巴细胞及其在癌症演变和免疫逃逸中的作用。 Para_02 肿瘤中高T细胞浸润在癌症中具有预后价值,并影响免疫治疗的反应。 然而,B细胞浸润与癌症的促进和抑制都有关联。 将肿瘤浸润的B细胞分类为不同的谱系可能有助于阐明其在癌症中的作用,但如果不通过流式细胞术直接检测B细胞标志物、靶向B细胞受体库测序或单细胞RNA测序(RNA-seq),这种分析颇具挑战性。 Para_03 尽管常规血液检查中的循环免疫细胞计数已被认为与癌症治疗反应和预后相关,但相对于肿瘤浸润免疫细胞及其临床相关性的重要性,尚缺乏系统性的研究。 Para_04 在这里,我们提出了基于核苷酸测序的免疫淋巴细胞估算方法(ImmuneLENS),这是一种从全基因组测序(WGS)数据中量化免疫成分的方法,并可在 https://github.com/McGranahanLab/ImmuneLENS 获得。 除了T细胞含量外,我们的方法还能够预测B细胞的比例和IGH位点的类别转换,并提供T细胞受体(TCR)和B细胞受体(BCR)多样性的估计。 Results Inferring T cell and B cell fractions from WGS data 从全基因组测序(WGS)数据推断T细胞和B细胞比例
Para_01 全基因组测序(WGS)能够深入表征体细胞突变、结构变异和拷贝数改变。 然而,是否可以同时使用 WGS 来估计淋巴细胞浸润尚未得到充分评估。 Para_02 为此,我们创建了 ImmuneLENS。 该工具显著增强了并扩展了我们之前的方法,即 T 细胞 ExTRECT(参见方法部分和图 1a 的概述),该方法最初是为全外显子组测序(WES)设计的。 我们对这种方法进行了三项改进。 首先,我们引入了一种基于片段的模型,能够根据单个 V 和 J 片段的位置进行精确的断裂点拟合。 其次,利用预测的 V 和 J 片段使用情况,该模型可以估算淋巴细胞比例和克隆型多样性。 最后,我们从 IGH 位点引入了 B 细胞比例和免疫球蛋白(Ig)类别转换的估计值,从而能够区分未发生类别转换的 B 细胞(IgM/IgD)和产生 IgA、IgG 或 IgE 抗体的类别转换 B 细胞(扩展数据图 1a 和补充图 1)。 B 细胞比例模型还整合了一个 IGH 位点的生殖系拷贝数变异检测器(补充图 2)。 ImmuneLENS 的示例输出展示在扩展数据图 1b 和 1c 中。 Fig. 1: Overview of ImmuneLENS and validation.
- 图片说明
◉ a,ImmuneLENS 方法的概述。该图由 BioRender.com 创建。◉ b,基于 TRACERx 全基因组测序(WGS)与全外显子组测序(WES)数据计算的 TCRA T 细胞比例的散点图。红色虚线表示 y = x;蓝色线条显示最佳拟合线,并带有浅蓝色阴影的 95% 置信区间(CI)。◉ c,比较来自 TRACERx100 WGS 的 ImmuneLENS 比例和来自 T 细胞 ExTRECT(TRACERx100 WES 数据)的 TCRA T 细胞比例与匹配 RNA 测序样本中与 T 细胞和 B 细胞相关的 Danaher 分数的散点图。蓝色线条表示最佳拟合线,并带有浅蓝色阴影的 95% 置信区间(CI)。◉ d,在 100KGP 队列内,TCRA T 细胞比例、IGH B 细胞比例及 T/B 细胞比值与日期匹配的血液计数数据(淋巴细胞计数、中性粒细胞计数和 NLR 值)之间的相关性。蓝色线条表示最佳拟合线,并带有浅蓝色阴影的 95% 置信区间(CI)。Spearman 的 ρ 相关性的 P 值通过使用相关系数和样本量从双尾 t 分布中得出。CNA,拷贝数变异;CS,类别转换;RDR,读深比值。
WGS enables accurate measurement of T cell and B cell fraction WGS能够实现对T细胞和B细胞比例的精确测量
Para_01 我们首先评估了 ImmuneLENS 在 TRACERx100 肺癌样本上预测的 T 细胞比例的准确性,这些样本同时具有匹配的全外显子组测序(WES)和全基因组测序(WGS)数据(n = 322),或正交 RNA 测序数据(n = 126)。 Para_02 全外显子组测序(WES)和全基因组测序(WGS)的TCRA T细胞比例在血液中显示出正相关性(ρ = 0.70,P = 2.2 × 10−15),在肿瘤样本中也是如此(ρ = 0.72,P = 7.0 × 10−35;图1b)。 值得注意的是,与WES相比,WGS中有更少的样本显示没有T细胞浸润(54个WES样本的T细胞比例小于10−4,而WGS样本中只有两个样本如此),这可能反映了ImmuneLENS更高的灵敏度(方法;补充图3)。 Para_03 αβ T 细胞具有重排的 TCRα 和 TCRβ(由 TCRB 编码)链,而 γδ T 细胞具有 TCRγ(由 TCRG 编码)和 TCRδ 链(由 TCRD 编码)。 TCRB 和 TCRG 可以独立于 TCRA 提供 T 细胞比例的估计值。 这些不同 T 细胞类别的 T 细胞比例估计值彼此均呈正相关,表明每个指标都能独立测量 T 细胞含量(ρ > 0.8,P < 10−70;扩展数据图 1d)。 这一结果有两个重要注意事项。 首先,TCRB 的 T 细胞比例系统性地小于 TCRA(最佳拟合线:y = 0.56x + 0.042),这可能是由于等位基因排斥所致。 其次,TCRG 通常仅在 γδ T 细胞中表达(占 CD3+ T 细胞的 1–5%),但其仍与 TCRA 强烈相关,这表明 αβ T 细胞常常保留重排的 TCRG 位点。 先前的研究表明,αβ T 细胞在承诺成为 αβ 系列之前通常会重排其 TCRG 位点。 因此,TCRG 似乎测量的是总 T 细胞比例,而不仅仅是 γδ T 细胞。 Para_04 我们进一步使用 TRACERx100 RNA-seq 数据(n = 126)验证了 ImmuneLENS。 TCRA、TCRB 和 TCRG T 细胞比例与 Danaher T 细胞特征显著相关,该特征之前已被证明可以反映 T 细胞含量(TCRA:ρ = 0.83,P = 9.2 × 10−37;TCRB:ρ = 0.8,P = 2.4 × 10−31;TCRG:ρ = 0.77,P = 8.7 × 10−28;图 1c)。 与 TIMER、CIBERSORT、xCell 的 RNA-seq 特征以及参考文献中的评分也观察到一致的相关性(扩展数据图 1e)。 同样,IGH B 细胞比例与基于 Danaher RNA-seq 的 B 细胞评分高度相关(图 1c;ρ = 0.74,P = 2.8 × 10−25)。 然而,我们发现不同类别之间的相关性强度有所不同——IgG(ρ = 0.64,P = 6.6 × 10−17)、IgM/IgD(ρ = 0.41,P = 5 × 10−7)和 IgA(ρ = 0.2,P = 0.021)。 因此,可以推测 IgA B 细胞可能在 RNA-seq 数据中被低估或在 DNA 中被高估(补充图 4 和 5)。 这些结果与其他基于 RNA-seq 的 B 细胞特征一致(扩展数据图 1e)。 WGS 推断的 B 细胞比例较高的样本(>中位数)显示所有亚群的 B 细胞基因表达均显著富集,包括 IgA(IgG:校正后 P = 4.4 × 10−4;IgM/IgD:校正后 P = 1.3 × 10−3;IgA:校正后 P = 2.4 × 10−3;扩展数据图 1f)。 Para_05 ImmuneLENS在低至5×的深度下提供了准确的T细胞测量结果,这通过降采样数据得到验证,包括TCRA(R = 0.96),TCRB(R = 0.61)和TCRG(R = 0.72)。 对于B细胞定量分析,需要超过10×的深度才能准确推断种系拷贝数。 类似地,针对可能存在的肿瘤拷贝数变异的校正仅在深度超过20×时才是准确的。 在匹配的高覆盖率和低覆盖率全基因组测序数据中观察到一致的结果。 Para_06 为了进一步验证 ImmuneLENS,我们将该工具应用于来自 10 万基因组计划(100KGP)中 441 名参与者的带有日期匹配的血细胞计数数据的全基因组测序(WGS)样本。 循环 T 细胞比例与淋巴细胞计数呈正相关(ρ = 0.53,P = 7.6 × 10−18),与中性粒细胞计数(ρ = −0.49,P = 1.9 × 10−6)以及中性粒细胞与淋巴细胞比值(NLR)呈负相关(ρ = −0.82,P = 1.6 × 10−21;图 1d)。 这些数据表明 TCRA T 细胞比例可以作为 NLR 的替代指标。 观察到与白蛋白浓度存在微弱的负相关(扩展数据图 3a;ρ = −0.25,P = 2.1 × 10−6)。 虽然白细胞计数与 T 细胞比例(ρ = −0.18,P = 0.0076)和 T/B 细胞比例(ρ = −0.17,P = 0.013)存在微弱的负相关,但未发现与 C 反应蛋白或铁蛋白有显著关联(扩展数据图 3a)。 对于 IGH B 细胞比例也观察到类似趋势(图 1d)。 值得注意的是,T/B 细胞比例与淋巴细胞计数显著相关(ρ = 0.15,P = 0.03),但与中性粒细胞计数(ρ = 0.13,P = 0.27)或 NLR(ρ = 0.06,P = 0.612;图 1d)无显著相关性。 因此,T/B 细胞比例提供了一种独立于中性粒细胞水平的淋巴细胞计数测量方法。 Investigating T cell receptor diversity from WGS data 从全基因组测序(WGS)数据中研究T细胞受体的多样性
Para_01 ImmuneLENS 能够适配单独的 V 段和 J 段,从而使得从全基因组测序数据中进行 TCR 和 BCR 多样性分析成为可能。 Para_02 我们使用三种方法评估了来自全基因组测序(WGS)数据的T细胞受体(TCR)多样性准确性。 首先,我们将ImmuneLENS的输出与TRACERx中的匹配TCR测序(TCR-seq)数据进行了比较。 根据从TCR-seq推断的实际片段使用水平,ImmuneLENS预测的T细胞受体α可变(TRAV)片段比例在不同四分位数之间存在显著差异(Kruskal–Wallis检验,P = 3.3 × 10−31)。 如扩展数据图4b所示,ImmuneLENS可能低估了TCR多样性,表现为较低的TRAV片段使用预测值。 其次,我们将基于WGS衍生的V片段使用计算出的Shannon多样性指数(ImmuneLENS)与通过RNA测序(RNA-seq)数据(使用MiXCR)计算的TCR库多样性进行了比较。 观察到DNA和RNA衍生的TCR多样性评分之间存在显著相关性(扩展数据图4c;ρ = 0.34,P = 7.4 × 10−7)。 第三,通过Jensen–Shannon散度分析,我们发现无论是浸润–浸润还是浸润–循环比较,同一患者样本间的TCR库相似性显著高于不同患者样本间的相似性(Wilcoxon秩和检验P = 9.74 × 10−92和P = 0.011)。 Para_03 因此,这些结果表明,预测的 TRAV 片段能够评估样本内的 TCR 多样性,并实现跨样本的 TCR 库比较。 The immune landscape in the 100KGP cohort 十万基因组计划(100KGP)队列中的免疫图谱
Para_01 在验证了 ImmuneLENS 的准确性后,我们接下来将其应用于来自 100KGP 队列的 90,232 个全基因组测序 (WGS) 样本(见图 2a 和补充数据以获取完整的临床概述)。 这其中包括跨越 33 种不同组织学类型的 14,501 个癌症样本(每种类型超过 100 名参与者),其中 13,870 个有匹配的血液样本。 总计 631 个癌症样本缺乏匹配的血液样本,其中包括 538 个患有血液系统癌症的样本。 此外,分析了来自 100KGP 罕见病队列中作为亲属测序的 30,665 名健康个体的血液样本。 剩余的 30,565 个来自 100KGP 罕见病队列的全基因组测序胚系样本由于来源于罕见病先证者或非血液样本而被排除在我们的主要分析之外。 我们分析了以下两项指标:浸润免疫细胞比例(来自肿瘤 WGS 样本)和循环免疫细胞比例(来自血液 WGS 样本的白细胞层)。 Fig. 2: ImmuneLENS applied to 100KGP.
- 图片说明
◉ 每种癌症组织学的肿瘤样本数量显示在图表上方。◉ 这些面板表示循环和浸润的TCRA T细胞比例以及IGH B细胞比例的蛇形图,每个点代表一个单独的血液或肿瘤样本。◉ 在每个IGH B细胞比例的蛇形图上方,有一条轨迹以热图形式显示,表示每个样本中不同Ig B细胞的比例。◉ 组织学组按照中位数循环TCRA T细胞比例升序排列,并且在每个组内,样本按照每个蛇形图中的值从低到高排序。◉ 右侧为100KGP健康队列中循环T细胞和B细胞比例的蛇形图。◉ 未发现(使用方差分析)循环或浸润样本中B细胞Ig状态在癌症组织学组之间存在显著差异。◉ 水平红线表示每种组织学组的中位数值。◉ GI表示胃肠道。
Para_02 在循环和浸润的 T 细胞中,不同癌症类型之间的 T 细胞比例存在显著差异(Kruskal-Wallis 检验,P = 5.3 × 10−209 和 P = 3.7 × 10−490)。 循环 T 细胞比例在儿童癌症患者中最高(中位数 = 0.19),而在胶质母细胞瘤患者中最低(中位数 = 0.051)。 胶质母细胞瘤患者中较低的循环 T 细胞比例可能与类固醇治疗有关,这种治疗会增加循环中性粒细胞水平。 同样,不同癌症类型之间,浸润和循环的 B 细胞比例也存在显著差异(Kruskal-Wallis 检验,P = 3.8 × 10−291 和 P = 3.3 × 10−42)。 我们发现,在根据年龄调整后,不同癌症类型之间浸润 T 细胞以及 T/B 细胞比例也存在类似的显著差异。 此外,在全基因组泛癌分析(PCAWG)和癌症基因组图谱(TCGA)的全基因组测序(WGS)及全外显子组测序(WES)数据集中也得到了一致的结果。 Para_03 肿瘤样本中的 B 细胞含量比血液样本高(效应值 = 0.181,P = 9.6 × 10−199);相反,T 细胞含量在血液样本中比在肿瘤中更高(效应值 = 0.522,P < 2.22 × 10−308)。 循环和浸润的 T 细胞比例之间没有明显的相关性(R = 0.03,调整后 P = 0.068),但结直肠腺癌除外(R = 0.13,调整后 P = 6.9 × 10−7)。 Para_04 ImmuneLENS揭示了在不同癌症类型中,浸润B细胞与循环B细胞之间的类别转换差异(图2a)。 肿瘤浸润B细胞水平相对于循环B细胞的升高主要是由于类别转换后的IgA和IgG B细胞的富集(IgA:效应量=0.21,P=6.2×10^-270;IgG:效应量=0.046,P=4.1×10^-14)。 IgM/IgD B细胞在循环和浸润部分之间显示出较小但显著的差异(IgM/IgD:效应量=0.023,P=1.3×10^-4)。 这突显了循环B细胞和肿瘤浸润B细胞在功能和组成上的关键差异,强调了B细胞亚型的特异性作用。 例如,循环系统中的IgM抗体在激活补体系统中起重要作用,而在黏膜组织中,IgA抗体对免疫稳态至关重要。 与这些发现一致,我们观察到血液样本中T/B细胞比例显著高于肿瘤样本(效应量=0.61,P<2.22×10^-308)。 Para_05 IGH B细胞亚群,尤其是IgG,在大多数组织学类型中,循环和浸润之间具有很强的相关性(泛癌IGH:R = 0.17,校正后P = 2.7 × 10−86;详见补充数据和扩展数据图6b)。 此外,我们发现TRAV片段在循环和浸润的T细胞之间以及不同癌症类型之间存在显著差异,其中TRAV1–2在黏膜相关癌症中富集。 这可能反映了黏膜相关不变T细胞,这是一种能够识别细菌产生的代谢物的T细胞亚群,该亚群专一使用TRAV1–2片段。 Determinants of circulating leukocyte fraction 循环白细胞比例的决定因素
Para_01 鉴于在健康参与者和癌症患者中循环免疫组分的广泛范围,我们接下来试图研究白细胞组分的关键决定因素。 Para_02 对 10 万基因组计划 (100KGP) 参与者的五年龄段分析显示,无论是在健康人群还是癌症患者中,T 细胞和 B 细胞的比例均随着年龄增长而下降。 对于 B 细胞而言,这种效应在 IgM/IgD B 细胞中最显著,而具有类别转换的 B 细胞比例则随着年龄的增长而增加(图 3a)。 与健康个体相比,癌症患者表现出更低的循环 T 细胞和 B 细胞比例以及更高的类别转换 B 细胞比例。 值得注意的是,平均来看,40 至 45 岁的女性癌症患者的循环 T 细胞比例与超过 80 岁的健康女性相似(0.161 对比 0.157)。 癌症患者的血液中 T/B 细胞比例降低表明,这一效应不仅限于中性粒细胞的相对增加。 因此,在健康个体和癌症患者中,年龄是循环免疫细胞比例的关键决定因素,而癌症患者表现出加速的‘免疫学年龄’。 Fig. 3: Disruption of circulating T cell fraction in patients with cancer.
- 图片说明
◉ a,带状图显示了按健康对照组和癌症队列划分的、以5年为年龄区间分段的ImmuneLENS相关比例。带的宽度代表男性和女性个体之间的性别差异程度,通过双侧 Wilcoxon 秩和检验评估每个年龄组内的显著性,并调整 P 值,同时展示效应值(ES)。◉ b,来自健康队列子集的 IgM/IgD 和 Ig 类别转换 B 细胞比例的箱线图,该子集记录了 WGS 测序后的癌症发病率(来自医院事件统计数据),并与相同规模的、按年龄和性别匹配的倾向队列进行比较。◉ c,来自10万基因组计划(100KGP)健康和癌症队列中血液 TCRA T 细胞比例与遗传推断祖先关系的箱线图。◉ d,10万基因组计划(100KGP)癌症队列中肿瘤 TCRA T 细胞比例与遗传推断祖先关系的箱线图。◉ e,已知 GWAS SNP 与循环 TCRA T 细胞比例关联的火山图。多重假设校正使用 Benjamini–Hochberg 方法完成。b 至 d 中的箱线图展示了中位数及上下四分位数,须线延伸至 1.5 倍的四分位距。双侧 Wilcoxon 秩和检验用于评估 b 至 d 组间显著性。e 中的 P 值来源于 PLINK 软件,该软件使用线性回归模型并对每个 SNP 进行 Wald 检验。对于癌症队列,针对每种组织学类型分别进行分析,P 值通过固定效应模型的荟萃分析结合得到。
Para_03 在癌症和健康人群中,循环免疫组分的性别差异显而易见。 在大多数年龄段中,女性癌症患者的 T 细胞比例显著高于男性患者(所有大于 40 岁的年龄组调整后 P < 0.001;图 3a 和补充数据)。 在健康人群中,性别差异主要体现在较年长的年龄组(>55 岁;图 3a)中,且具有显著性(调整后 P < 0.001)。 同样,癌症患者中性别之间的 T/B 细胞比值差异更为明显,尤其是在 65–69 岁(调整后 P = 2.7 × 10−5,效应量 = 0.11)和 70–74 岁年龄组(调整后 P = 1.1 × 10−4,效应量 = 0.10),而健康人群仅在 60–64 岁年龄组有显著差异(调整后 P = 5.2 × 10−4,效应量 = 0.11)。 这表明中性粒细胞计数可能对健康人群中 T 细胞比例的性别差异有所贡献。 对于健康组中的 IgM/IgD B 细胞比例,从 55 岁开始观察到基于性别的转变:男性个体在 55 岁前较高,而女性个体在 55 岁后较高。 在癌症组中,女性患者在 >55 岁的年龄组中表现出更高的 B 细胞比例。 这些趋势在不同类型的癌症中总体上是一致的(补充图 9 和补充数据)。 Para_04 为了评估循环免疫细胞水平是否可以预测未来的癌症发病率,我们确定了在生殖系血液测序后3年内发展为癌症的100KGP健康队列中的301名参与者。 与按照年龄和性别进行倾向性匹配的一组对照相比,在测序后2年内被诊断出癌症(而非3年内)的参与者显示出显著较低的IgM/IgD水平(2年:P = 0.006,效应量 = 0.14;3年:P = 0.08,效应量 = 0.07)以及较高的Ig类别转换B细胞比例(2年:P = 0.02,效应量 = 0.12;3年:P = 0.07,效应量 = 0.07;图3b)。 这表明循环免疫细胞比例可能作为潜在的癌症标志物。 Association of genetic ancestry with lymphocyte fraction 遗传祖先与淋巴细胞比例的关联
Para_01 除了年龄和性别的影响外,遗传祖先可能会影响免疫浸润和血液中的白细胞计数。 虽然与免疫系统相关的生殖系变异可能会影响癌症的结果,但大多数相关的全基因组关联研究(GWAS)使用的是非癌症患者的样本。 Para_02 100KGP 的参与者被分为根据 1000 基因组计划定义的超级人群。 在健康人群和癌症人群中,通过遗传推断的祖源群体之间观察到循环 T 细胞比例存在显著差异,其中遗传非洲祖源显示出显著更高的免疫比例(图 3c)。 然而,在肿瘤浸润的 T 细胞比例中并未发现基于遗传祖源的显著差异(图 3d)。 Para_03 我们研究了1,635个已知会影响循环白细胞特征的单核苷酸多态性(SNPs),以评估它们是否可以解释个体之间淋巴细胞比例的差异(方法和补充数据)。 在考虑连锁不平衡(LD)后,发现15个SNPs与健康欧洲人群中的循环T细胞比例显著相关,但在欧洲癌症人群中仅有一个SNP显著相关(图3e)。 与中性粒细胞减少症相关的Duffy阴性SNP rs2814778在非洲健康人群中显著相关,但在非洲癌症人群中不显著(图3e)。 在健康欧洲人群中具有显著意义的15个SNPs中,只有7个与欧洲癌症人群中的免疫细胞水平相关(未校正P值<0.05)(扩展数据图7a,b)。 这表明影响T细胞比例的种系SNPs在健康和癌症环境中有所不同(补充图10)。 Quantifying selection pressure due to immune infiltration 量化免疫浸润导致的选择压力
Para_01 我们推测免疫系统可能在癌症进化过程中起到强烈的筛选压力作用。 因此,我们研究了已知癌症基因中的突变是否与肿瘤免疫浸润相关。 Para_02 使用泊松模型,并控制背景突变率、癌症类型、性别和肿瘤纯度,我们确定了七个与浸润性 T 细胞比例显著相关的基因。 PIK3CA、MAP3K1、PTEN、CBFB 和 CDH1 的非同义突变在 T 细胞耗竭的肿瘤中富集,而 MUC16、B2M 和 BAP1 突变在富含 T 细胞的肿瘤中富集。 此外,MUC4 突变与 IgM/IgD B 细胞耗竭的肿瘤相关,而 KMT2C 突变则与富含 IgG B 细胞的肿瘤相关。 Fig. 4: Association of selection with infiltrating T cell fraction.
- 图片说明
◉ 火山图展示了泊松模型的结果,该模型预测了非同义突变的数量作为TCRA T细胞比例和其他协变量(年龄、肿瘤突变负荷、性别和疾病类型)的函数。◉ 图表显示了TCRA变量的估计值和−log10(P),突出了那些显著依赖于T细胞免疫浸润的基因(热肿瘤表示高水平的免疫细胞浸润;冷肿瘤缺乏免疫细胞浸润)。◉ 点的大小代表癌症队列中具有非同义突变的患者数量,排除了患有血液癌症的患者。◉ 测试的基因仅限于Cancer Gene Census中已知的癌症驱动基因。◉ 气泡图展示了泊松模型应用于个别癌症类型时,TCRA浸润T细胞比例的重要性。◉ 在两个图表(a,b)中,P值表示泊松模型中TCRA T细胞比例项的重要性,并通过Wald检验计算得出。
Para_03 还确定了特定疾病的影响(图4b)。 例如,TP53的非同义突变与乳腺浸润性癌雌激素受体阳性(BRCA ER+)肿瘤中T细胞浸润增加相关(估计值=2.56,调整后P值=6×10−4),而PIK3R1的非同义突变与富含T细胞的胶质母细胞瘤相关(估计值=7.23,调整后P值=0.003)。 先前的研究已将TP53的改变与乳腺癌中T细胞浸润增加联系起来。 许多特定疾病的效应也在B细胞亚群中被检测到。 MUC4的非同义突变显著与结肠腺癌中IgM/IgD B细胞减少相关(估计值=−3.7,调整后P值=0.007)。 NOTCH1的非同义突变与BRCA ER+肿瘤中的类别转换和IgA B细胞相关(估计值=10.6,调整后P值=0.003),而DGRC8中的非同义突变与肺腺癌中富集的IgA B细胞相关(估计值=18.7,调整后P值=0.04)。 在子宫内膜癌中,MUC4和KMT2C都被发现具有显著意义,分别与富含IgA的肿瘤(MUC4:估计值=3.58,调整后P值=0.049;KMT2C:估计值=4.80,调整后P值=0.01)和缺乏IgG的肿瘤(MUC4:估计值=−4.85,调整后P值=8×10−5;KMT2C:估计值=−3.82,调整后P值=1)相关。 Para_04 这些发现揭示了肿瘤免疫微环境与癌细胞之间的多样化相互作用。 体细胞突变可能因免疫存在而被选择,或者促进免疫抑制,其影响因癌症类型、组织学特征和免疫细胞类型而异。 Prognostic value of ImmuneLENS lymphocyte fraction ImmuneLENS淋巴细胞比例的预后价值
Para_01 肿瘤浸润淋巴细胞和循环免疫细胞在许多癌症类型中具有预后价值。 然而,对两者的直接比较被证明是具有挑战性的。 因此,我们使用 ImmuneLENS 来比较循环和肿瘤浸润的 T 细胞和 B 细胞比例的预后意义。 Para_02 在泛癌队列中,升高的循环 T 细胞比例与总生存期的显著改善密切相关(图 5a;风险比 (HR) = 0.53,对数秩 P 值 = 2.8 × 10−73,按中位数划分)。 肿瘤浸润 T 细胞显示出显著较弱的相关性(图 5a;HR = 0.86,对数秩 P 值 = 3.2 × 10−6;P = 2.68 × 10−25,基于 HR 对数值的 z 检验)。 升高的循环 IGH B 细胞(HR = 0.79,P = 2 × 10−12)和 IgM/IgD B 细胞(HR = 0.76,P = 4 × 10−16)与更好的预后相关,而浸润 B 细胞和类别转换的循环 B 细胞则无显著意义。 独立于中性粒细胞水平的循环 T/B 细胞比例同样具有显著的预后价值(图 5a;HR = 0.76,对数秩 P 值 = 8.3 × 10−14)。 Fig. 5: Prognostic value of ImmuneLENS lymphocyte fractions in 100KGP.
- 图片说明
◉ 五年生存期的 Kaplan-Meier 曲线图展示了整个 10 万基因组计划(100KGP)泛癌队列的数据,根据循环或浸润的 TCRα(TCRA)T 细胞比例和免疫球蛋白重链(IGH)B 细胞比例的中位数将患者分为高、低两组。◉ Cox 比例风险模型对 100KGP 泛癌队列中的 13,872 名具有完整临床注释的参与者进行了分析,模型考虑了年龄、性别、遗传推断的祖先背景、预处理化疗以及癌症分期的影响。◉ 左侧为泛癌的危险比(HRs)及其 95% 置信区间(CIs)。◉ 右侧为不同癌症组织学类型的 HRs 的热图,其中包括通过随机效应模型进行元分析得到的 I2 分数。◉ 显著性通过 Cochran’s Q 检验计算得出。◉ 多重假设校正使用 Benjamini-Hochberg 方法按行进行。◉ 单个 P 值通过 Cox 模型内的双侧 Wald 检验计算得出。◉ 其中 P < 0.05,P < 0.01, P < 0.001 表示显著性水平。
Para_03 在泛癌队列中,调整临床因素后,循环 T 细胞比例仍具有高度显著性(图 5b,风险比 = 0.76,P = 2.6 × 10−46 和补充数据图 9a),并且在经过多重假设校正后的五种个体癌症类型中也显著——头颈部鳞状细胞癌(风险比 = 0.70,校正后 P = 4.68 × 10−2)、胰腺腺癌(风险比 = 0.74,校正后 P = 4.81 × 10−2)、结肠腺癌(风险比 = 0.85,校正后 P = 1.12 × 10−2)、肺腺癌(风险比 = 0.80,校正后 P = 5.4 × 10−3)和肉瘤(风险比 = 0.68,校正后 P = 1.57 × 10−4)。 相反,肿瘤浸润 T 细胞比例仅在泛癌队列中显著(风险比 = 0.93,校正后 P = 3.99 × 10−3)以及 B 细胞血液癌症中显著,其中较高的浸润与较差的预后相关(风险比 = 1.24,校正后 P = 3.99 × 10−3)。 使用 TCGA 数据,我们观察到大致一致的结果(补充数据图 10a,b)。 此外,我们发现肿瘤浸润 T 细胞比例在不同癌症类型之间存在显著异质性(P = 0.02,Cochran’s Q 检验)。 Para_04 在控制临床变量后,循环 T/B 细胞比例仍与生存显著相关(风险比 = 0.90,校正后 P 值 = 3.4 × 10−6),这表明循环 T 细胞和中性粒细胞都对循环 T 细胞比例的预后价值有贡献。 包含循环 T 细胞比例、T/B 细胞比例及其交互作用的 Cox 比例风险模型显示,这两个因素均具有独立显著性(TCRA:风险比 = 0.7,P 值 = 9 × 10−41;T/B 比例:风险比 = 0.91,P 值 = 0.014;交互项:风险比 = 1.24,P 值 = 2 × 10−8)。 当根据 T/B 细胞比例对患者进行分层时,在低 T/B 细胞比例组(风险比 = 0.45,95% 置信区间:0.40–0.51)和高 T/B 细胞比例组(风险比 = 0.67,95% 置信区间:0.60–0.75)中,循环 T 细胞比例均有预后意义,但在低比例组中显著更强(P 值 = 2.4 × 10−6,z 检验)。 当根据循环 T 细胞比例对患者进行分层时,在低 T 细胞组中,较高的 T/B 比例与更好的结果相关(风险比 = 0.82,P 值 = 2 × 10−4),而在高 T 细胞组中则相反(风险比 = 1.2,P 值 = 0.0013)。 因此,这表明对于血液中中性粒细胞水平相对较低的患者,B 细胞相比 T 细胞能带来更好的预后。 Para_05 我们接下来研究了循环 T 细胞比例在性别特异性预后关联中的作用(图 5b)。 在泛癌背景下,男性(风险比 HR = 0.73,P 值 = 1.5 × 10−27)和女性(HR = 0.79,P 值 = 2.6 × 10−20)个体均显示出高 T 细胞比例与改善预后之间的相似关联。 然而,特定癌症的差异显而易见。 例如,在膀胱尿路上皮癌中,女性较高的 T 细胞比例与显著更好的预后相关(HR = 0.28,校正后 P 值 = 2.53 × 10−3),肺腺癌亦是如此(HR = 0.72,校正后 P 值 = 2.53 × 10−3)。 随机效应荟萃分析显示,循环 T 细胞比例在不同癌症类型中具有一致的预后效应(I2 = 4%,不显著)。 然而,性别特异性的分析揭示了显著的异质性(男性:I2 = 46%,P 值 = 0.006;女性:I2 = 34%,P 值 = 0.03)。 Para_06 综合来看,这些研究结果强调了循环淋巴细胞的临床重要性,以及生物性别与不同癌症中免疫激活之间的相互作用。 Discussion Para_01 我们引入了ImmuneLENS,这是一种从全基因组测序(WGS)数据中推断免疫细胞比例的方法。 在我们之前的方法T细胞ExTRECT的基础上,ImmuneLENS不仅提供了更准确的T细胞含量推断,还扩展了功能以测量B细胞比例、B细胞类别转换和T细胞克隆型多样性。 Para_02 为了评估这种方法,我们将其应用于100KGP队列。 在癌症患者中,循环中的T细胞和B细胞比例相较于健康对照组有所减少,而女性个体的T细胞比例比男性个体高,这表明了显著的性别差异。 尽管健康对照组也显示出性别差异,但这种现象主要出现在55岁之后。 因此,ImmuneLENS量化了循环免疫细胞中的性别差异,这种差异已知在衰老和癌症中都会发生。 Para_03 在健康对照组中,我们发现循环 T 细胞比例与 11 个遗传位点的 15 个单核苷酸多态性(SNPs)之间存在显著关联。 这与参考文献 41 中讨论的近期研究结果一致,在该研究中使用了 ExTRECT6 方法对 207,000 人的全基因组测序(WGS)数据进行分析,并确定了与循环 T 细胞比例相关的 27 个位点。 我们的分析还识别出 FOXP1 基因内的一个 SNP(rs35592432;P = 7.3 × 10−6),这一结果未在参考文献 41 中报道,其变异等位基因与 T 细胞比例增加相关。 我们观察到,超过一半的 SNPs(8/15)与健康个体中的循环 T 细胞比例相关,但在癌症人群中并未发现这种关联。 这种差异突显了进一步研究胚系遗传学如何影响癌症中免疫组成的重要性。 Para_04 我们发现,癌症患者的循环 T 细胞比例比肿瘤浸润的 T 细胞更具预后价值。 这种关系可能反映了肿瘤生长引起的全身性炎症。 T/B 细胞比例与预后的关联表明,淋巴细胞耗竭,而不仅仅是中性粒细胞增加,对此信号有贡献。 循环淋巴细胞比例可能指示‘免疫年龄’,反映免疫系统抑制癌症能力的逐渐减弱。 这一假设得到了我们在健康参与者中观察到的结果的支持:这些参与者后来发展为癌症,其循环 IgM/IgD B 细胞比例降低;然而,我们并未发现与 T 细胞比例有类似的关联。 Para_05 尽管 ImmuneLENS 技术有所进步,但仍存在局限性。 虽然 ImmuneLENS 在 ≥5× 全基因组测序(WGS)覆盖率下可以准确估计免疫细胞比例,但 B 细胞胚系拷贝数校正需要更高的测序覆盖率(>10×),而体细胞拷贝数调整则需要超过 20× 的覆盖率。 此外,从全基因组测序数据中进行 TCR 库分析的准确性不足以与 TCR 测序(TCR-seq)相媲美,并且预测精确的克隆类型仍然是一个挑战。 我们并不认为这种方法会取代 TCR 测序,而是它可以为仅通过全基因组测序的样本中的 TCR 库提供之前缺乏的正交见解。 ImmuneLENS 可以准确估计 B 细胞的比例并分解不同类别转换的比例。 在癌症之外的领域,这种方法也具有很大潜力,例如在自身免疫研究中。 Para_06 总之,随着人口水平的全基因组测序(WGS)数据集规模不断扩大,我们提供了一种工具,无需额外的数据收集即可准确量化淋巴细胞比例。 我们希望 ImmuneLENS 能够推动对免疫失调更深入的探索。 Methods Statistical information 统计信息
Para_01 所有统计检验均在 R 4.0.2 中进行。 没有使用任何统计方法预先确定样本量。 相关性测试使用 R 包 ggpubr (v0.6.0) 中的 stat_cor 函数进行,采用 Spearman 方法,除非我们直接测试两个变量之间是否存在线性关系时使用 Pearson 相关性。 分布比较测试通过 stat_compare_means 函数进行,使用 wilcox.test,根据情况选择非配对选项(执行 Wilcoxon 秩和检验,即 Mann-Whitney U 检验)或配对 Wilcoxon 符号秩检验。 对应 Wilcoxon 检验的效果量值通过 rstatix 包 (v0.7.2) 中的 wilcox_effsize 函数测量。 生存分析包 (v3.1-12) 用于计算 Kaplan-Meier 曲线和 Cox 比例风险模型中的 HR 值和 P 值。 不同模型之间的 HR 值比较通过对其对数形式进行 z 检验完成。 对于所有统计检验,所包含的数据点数量会在相应的图表中绘制或标注。 R 中的绘图和分析还使用了以下包:ggplot2 (v3.4.1),dplyr (v1.1.0),tidyr (v1.3.0),gridExtra (v2.3),tidyverse (1.3.2),gtable (v0.3.2),scales (v1.2.1),lubridate (v1.9.2),survminer (0.4.9),survcomp (1.40.0),RColorBrewer (v1.1.3),GGally (v2.1.2),ggforce (v0.4.1),TCellExTRECT (v1.0.1),MatchIt (v4.5.0) 和 dNdScv (v0.0.1.0)。 P 值校正使用 Holm-Bonferroni 方法或错误发现率 (FDR)/Benjamini-Hochberg 方法进行,其中 FDR 方法用于探索性分析和涉及多次检验的情况。 TRACERx 100 TRACERx 100
Para_01 TRACERx 研究(Clinicaltrials.gov 注册号:NCT01888601)由伦敦大学学院(UCL/12/0279)资助,并已获得独立研究伦理委员会的批准(13/LO/1546)。 本样本中使用的所有 TRACERx 样本均已在此前的研究中被描述过,且每位患者签署知情同意书是参与 TRACERx 研究的强制性要求。 对于前 100 名患者的样本,我们从 TRACERx 研究中获取了全外显子组测序(WES,与 hg19 序列对齐)和 RNA 测序样本;这些样本的处理方法已在之前的研究中描述过。 对于 WES 样本,按照制造商的说明,使用定制版本的 Agilent Human All Exome V5 套件进行了外显子捕获。 Para_02 本分析中使用的TCR-seq TRACERx100数据已先前发表;FASTQ数据已存储在序列读档库(SRA)中,访问码为BioProject(PRJNA544699)。 Para_03 TRACERx的100个DNA样本通过与用于100KGP相同的Illumina测序流程由英国基因组学公司进行测序并与GRCh38对齐,生成平均深度为175×(中位数223×)的全基因组测序(WGS)样本。 然后使用SAMtools(v.1.3.1)提取这些样本中TCRA、TCRB、TCRG和IGH位点的WGS覆盖值,以供ImmuneLENS使用。 除了这些覆盖值外,此分析未使用来自TRACERx队列的任何其他WGS衍生数据。 100KGP WGS cohort 10万基因组计划全基因组测序队列
Para_01 10万人基因组计划(100KGP)已获得东英吉利—剑桥南部研究伦理委员会的伦理批准(研究伦理委员会参考号14/EE/1112,综合研究申请系统ID 166046)。 参与者来自13个英国国家医疗服务体系(NHS)基因组医学中心,所有参与者均提供了书面知情同意。 Para_02 100KGP队列中的所有WGS样本均由Illumina为Genomics England进行测序。 在本分析中使用的所有样本的Illumina流程采用了Issac比对器将序列与GRCh38参考基因组进行比对。 更多详细信息可以在https://re-docs.genomicsengland.co.uk/genomic_data找到。 肿瘤样本的测序深度中位数为97.5倍,而种系血液样本在泛癌队列中的测序深度中位数为32.7倍,在罕见病队列中为39.7倍。 Para_03 对于整个 10 万基因组计划(100KGP)队列,计算了 T 细胞和 B 细胞的比例(肺部数据发布版本 v8(2019 年 11 月 28 日),其余泛癌数据发布版本 v12(2021 年 5 月 6 日),以及罕见病数据发布版本 v12(2021 年 5 月 7 日))。 总计,为 92,905 个全基因组测序(WGS)BAM 文件计算了分数。 Para_04 其中,31,675个BAM文件属于100KGP癌症队列,包括16,294个癌症BAM文件和15,381个生殖细胞BAM文件。 一些参与者有多个肿瘤样本被采集用于全基因组测序(WGS);由于缺乏对多个样本原因的注释(例如,技术重复测序、转移代表、多区域测序或后续原发肿瘤的发生),这些样本从泛癌队列中被移除,最终得到14,501个肿瘤WGS样本。 在我们队列的14,501个肿瘤WGS样本中,有13,868个样本匹配了血液WGS样本。 Para_05 对于罕见病队列,总共计算了61,230个BAM的分数。 限制为从血液样本中获取的样本,导致59,903个BAM,代表29,238个来自患有罕见疾病的先证者的样本和这些先证者的30,665个亲属样本。 这30,665个亲属的血液样本队列被用作我们的健康对照组,以与13,868个癌症患者的血液样本进行比较。 此外,使用R包matchit,根据年龄和性别进行控制,从这个健康队列中为每种癌症组织学创建了倾向评分匹配的队列。 Para_06 使用 WGS 版本的 ImmuneLENS 计算了 T 细胞和 B 细胞的比例;通过 Genomics England 提供的估计值以及使用 CANVAS(v.1.3.1)对 V(D)J 位点附近基因的局部拷贝数呼叫,调整了肿瘤纯度(TCRA—OR10G3;TCRB—PRSS58;TCRG—STARD3NL;IGH—TMEM121)。 Para_07 癌症组织学的疾病和亚型由英国基因组学公司整理,并在英国基因组学研究环境中向研究人员提供的癌症分析表中有描述。 为了与其他泛癌分析(尤其是 TCGA)保持一致,我们使用了英国基因组学设计的组织学分组,尽可能接近 TCGA 的分类标准。 然而,由于年龄对我们的分析有影响,我们保留了英国基因组学公司自己注释的儿童癌症组别。 此外,在数据可用的情况下,我们将乳腺浸润性癌组按激素受体状态进行了细分;对于血液来源的癌症,我们根据起源细胞类型将其分为 B 细胞、T 细胞和髓系细胞来源的癌症。 所有在总队列中发生少于 100 例的癌症类型被归类为其他癌症类型组别,以简化分析并避免任何可能的个人身份特征风险。 TCGA pan-cancer data TCGA泛癌数据
Para_01 T细胞ExTRECT被应用于泛癌种的TCGA全外显子组测序数据集。 对于不同的TCGA队列,使用了不同的外显子捕获试剂盒,并进行了外显子质量控制,以确保在整个TCGA队列中结果的一致性。 简而言之,对于每个捕获试剂盒,使用exonsTcellExTRECT函数计算了所有样本中每个外显子的中位数GC校正后的读取深度比值。 覆盖度低的外显子(中位数读取深度比值 < -0.5)从捕获试剂盒的BED文件中被过滤掉。 Para_02 TCGA样本的祖先呼叫是参考文献50中描述的五种遗传祖先呼叫方法的共识。 1000 Genome cohort 千人基因组队列
Para_01 总共下载了2,544个样本,这些样本具有匹配的高覆盖率和低覆盖率CRAM文件及其索引的CRAI文件,直接从1000基因组队列服务器(ftp://ftp.1000genomes.ebi.ac.uk)使用wget下载。 高覆盖率样本的中位测序深度为34倍,低覆盖率样本的中位测序深度为1.25倍。 随后使用带有SAMtools(v.1.3.1)的ImmuneLENS对这些CRAM文件进行处理,以提取覆盖度并计算T细胞和B细胞的比例。 从Geuvadis项目中下载了465个来自1000基因组计划的淋巴母细胞系的处理过的RNA-seq数据(https://www.ebi.ac.uk/gxa/experiments/E-GEUV-1/Downloads),并使用R软件包limma和edgeR进行RNA-seq分析。 PCAWG 全基因组泛癌分析项目(Pan-Cancer Analysis of Whole Genomes Project)
Para_01 我们的分析仅限于PCAWG中的TCGA部分,其中包含来自MD Anderson重新对齐到hg38的BAM文件中的539对WGS肿瘤-正常样本。 胚系正常样本的中位测序深度为37.3倍,肿瘤样本的中位测序深度为51.2倍。 使用ImmuneLENS/SAMtools (v.1.3.1) 提取IGH和TCRA位点的覆盖度文件,然后利用ImmuneLENS R软件包计算所有T细胞和B细胞的比例。 Low-pass TCGA data 低通量TCGA数据
Para_01 总共下载了317个低通量TCGA BAM文件,这些文件的中位深度为4.95×,来源于具有相应PCAWG高覆盖全基因组测序的样本,使用TCGA GDC客户端进行下载;每个样本的覆盖值从GDC客户端API下载。 scRNA cohort and analysis 单细胞RNA队列和分析
Para_01 使用了参考文献51中描述的肺癌数据集的带有相关元数据的处理过的单细胞RNA数据。 注释了B细胞亚型,并根据IGH类别转换片段的表达来确定类别转换,具有不明确注释的细胞已从分析中移除。 Nested downsampling of WGS files 嵌套下采样的WGS文件
Para_01 使用 SAMtools view (v.1.3.1) 对全基因组测序 BAM 文件进行了嵌套下采样,采用以下选项递归执行: Para_02 samtools view -b -h --subsample FRAC - -subsample-seed SEED BAM CHR_LOC > OUT_BAM 的中文翻译为:使用 samtools 的 view 功能,以二进制格式输出,并进行子采样,指定随机种子,对 BAM 文件在 CHR_LOC 位置进行处理,最终输出到 OUT_BAM。 Para_03 使用 mosdepth(版本 0.3.2)计算了原始 BAM 文件的深度,然后将其下采样到 60×。 每次下采样后,使用 Picard(版本 2.20.3)BuildBamIndex 对每个输出的 BAM 文件进行索引,然后再通过 SAMtools view 进行再次下采样,生成一组嵌套的下采样 BAM 文件,深度分别为 60、50、40、30、20、10、5、2、1、0.5 和 0.1×。 根据 mosdepth 计算出的原始 BAM 文件深度,计算了达到这些深度所需的 FRAC 值。 在每个嵌套下采样中改变了 SEED 值,以避免重复使用相同的种子。 Para_04 上述程序用于生成所有 TRACERx 全基因组测序样本的下采样 BAM 文件,涉及 TCRA(chr14: 21621904–22752132)、TCRB(chr7: 142299011–142813287)、TCRG(chr7: 38240024–38368055)和 IGH(chr14: 105566277–106879844)位点。 这些下采样的 BAM 文件随后被用作 ImmuneLENS 的全基因组测序版本的输入,以计算 T 细胞和 B 细胞的比例。 Differential gene expression analysis and gene set enrichment 差异基因表达分析和基因集富集
Para_01 我们在 TRACERx100 患者中进行了差异基因表达分析,这些患者具有 RNA-seq 数据,根据 IGH B 细胞比例或类别转换 B 细胞比例得分(针对 IGHG1、IGHA1 B 细胞比例或非类别转换的 IgM/IgD B 细胞比例),将队列分为高组或低组。 首先,使用 R 4.0.0 和 edgeR 包(v.3.32.1),对样本特定的 M 值进行了修剪均值归一化;然后通过标准的 edgeR 过滤方法去除低表达基因,再使用 limma R 包(v.3.46.0)中的 limma–voom 方法计算 voom 拟合,并获得基因表达差异的 P 值。 比较过程中以患者和组织学作为阻断因素进行控制,并对 P 值进行了多重检验的 FDR 校正。 随后使用 R 的 EnhancedVolcano 包(v.1.8.0)对结果进行了可视化。 接着使用 fgsea R 包(v.1.24.0)进行基因集富集分析,该包使用了 MSigDB C8 的细胞类型特征基因集(https://www.gsea-msigdb.org/gsea/msigdb/human/genesets.jsp?collection=C8)。 采用自适应多级分割蒙特卡洛方案估计 P 值,完整的分析结果见补充数据。 Calculation of TCR/BCR diversity metrics TCR/BCR多样性指标的计算
Para_01 通过 V 或 J 段使用情况计算的 T 细胞多样性指标由 ImmuneLENS 模型预测。 对于 Shannon 多样性,我们使用了以下公式: 错误!!! - 待补充
Para_03 为了比较两个样本在不同预测片段使用情况下的差异,我们采用了如下定义的 Jensen–Shannon 散度指标: Para_04 D(P|Q) = ∑ Pi log(Pi / Qi),其中 Pi 和 Qi 分别表示样本 A 或 B 中使用的第 i 段的比例。 Para_05 Jensen–Shannon 散度(JSD)的定义如下: Para_06 使用 MiXCR22 直接从 TRACERx 100 RNA-seq 数据中调用 TCR 克隆型。 从这些调用结果中,使用每个样本中发现的 TCR 克隆型的比例计算了香农熵。 Para_07 TRUST4 也被用于调用 BCR 序列,从而推断类别转换的比例。 TRAV segment usage analysis TRAV片段使用分析
Para_01 ImmuneLENS 为整个 100KGP 队列生成了 TRAV 片段预测。 为了分析不同的 TRAV 片段使用情况,我们将样本限制为总 TCRA T 细胞比例 >0.05 的样本。 为了测试不同人群中 TRAV 片段使用的变化,我们使用倾向性匹配来控制 TCRA T 细胞比例,并确保比较人群之间的 T 细胞比例分布相同,从而避免因更高的 T 细胞比例队列与更多多样性相关而产生偏差,因为我们检测 TRAV 片段使用的功率增加。 在创建比较队列后,如果某个 TRAV 片段在 ImmuneLENS 模型中预测使用的 T 细胞比例 >0.001,则定义该片段为被选择的片段。 对于每个片段,我们计算了队列中选择该片段比例 >0.001 的样本百分比。 然后使用 χ2 检验评估队列之间片段使用差异,并对多重假设检验调整 P 值。 100KGP genetic ancestry inference 10万基因组计划遗传祖先推断
Para_01 基因祖先推断由英国基因组学公司为整个10万基因组计划(100KGP)队列提供,使用1000基因组计划第三阶段的种族信息作为真实数据,首先生成主成分,然后将100KGP项目投影到这些主成分上,以确定每位参与者的广泛遗传祖先超级分类。 完整的详细信息可以在 https://re-docs.genomicsengland.co.uk/ancestry_inference/ 查看。 100KGP date-matched blood count data 100KGP日期匹配的血细胞计数数据
Para_01 血液计数数据仅在 100KGP 的罕见病队列中的一部分患者中可用。 我们选择了与基因组样本采集的确切日期时间匹配的血液计数数据,最终获得了441名参与者的数据,这些数据包括日期匹配的血液计数以及计算出的 T 细胞或 B 细胞比例。 从这些数据中,我们进一步筛选出具有匹配白蛋白计数(n = 361)、淋巴细胞计数(n = 222)、中性粒细胞计数(n = 84)以及同时具有中性粒细胞和淋巴细胞计数数据的参与者(n = 84)。 100KGP treatment data 10万基因组计划治疗数据
Para_01 治疗数据是从英格兰基因组学研究环境中的临床数据中提取的,具体来自‘cancer_systemic_anti_cancer_therapy’表的第13版。 dNdScv analysis of selection in protein-coding genes 蛋白质编码基因中选择的dNdScv分析
Para_01 我们使用 dNdScv31 来测量癌症基因普查中与癌症相关基因的预期非同义突变数量。 然后,我们改编了参考文献 53 的代码,该代码使用泊松模型来分析观察到的非同义突变,其中中性背景期望值由 dNdScv 计算得出,并作为受年龄或性别影响的偏移变量,应用于正常膀胱组织中。 在我们的分析中,我们还添加了肿瘤纯度、肿瘤突变负荷和疾病类型作为控制变量。 我们将浸润性 TCRA T 细胞比例、IGH B 细胞比例、总类别转换 B 细胞比例、总非类别转换 B 细胞比例(IgM/IgD)、IgA 或 IgG B 细胞比例加入泊松模型,并识别出这些变量显著相关的基因(模型:观察到的突变 ~ 偏移(log(预期突变)) + 年龄 + 肿瘤突变负荷 + 性别 + 疾病类型 + 免疫比例)。 对于泛癌分析,我们在调整多重假设检验后选择了显著的基因;对于特定疾病类型的模型,我们仅测试了在该疾病类型中包含 ≥10 个含有非同义突变的肿瘤的基因,并且对于主要发生在某一性别中的癌症类型,模型中未包括性别变量。 Analysis of known SNPs associated with leukocyte traits using PLINK 使用 PLINK 对已知与白细胞性状相关的 SNPs 进行分析
Para_01 总共下载了1,962个已知与白细胞特征(包括嗜碱性粒细胞、嗜酸性粒细胞、淋巴细胞、单核细胞、中性粒细胞计数或白细胞计数)相关的SNP数据,这些数据来自参考文献27发布的内容。 其中,只有1,635个SNP列在100KGP提供的VCF文件中,并且其平均等位基因频率高于0.001的阈值。 PLINK被用来测试这些SNP与TCRA T细胞比例、IGH B细胞比例、IgM/IgD B细胞比例、IgG B细胞比例、IgA B细胞比例或T/B细胞比值之间的关联性。 所有T细胞和B细胞的比例首先通过逆正态变换进行转换,以确保数据符合正态分布。 关联性测试在不同的遗传祖先群体中分别进行(由1000基因组计划定义)。 我们的分析集中于具有欧洲遗传祖先推断的参与者,因为这是健康队列和泛癌队列中最大的祖先群体;同时也关注具有非洲遗传祖先推断的参与者,因为该群体在循环T细胞比例上与欧洲祖先群体显示出最显著的差异。 对于健康队列和泛癌队列,年龄、性别以及前十个遗传祖先主成分(PCs)被用作协变量。 PLINK(v1.9)使用这些协变量对每种癌症亚型分别运行分析。 PLINK按照以下步骤运行:(1) 使用选项–indep-pairwise 500 5 0.5对测试的SNP进行连锁不平衡剪枝,每次测试500个SNP,每次移动窗口5个SNP,并使用R2阈值0.5去除高连锁不平衡的SNP。 (2)使用–geno 0.2 –maf 0.01对基因型频率设置阈值,去除缺失基因型率超过20%或次要等位基因频率低于1%的SNP。 (3) 使用–hwe 0.000001进行Hardy-Weinberg过滤,指定P值阈值。 (4) 使用线性回归和–linear选项测试表型的关联性,并使用–freq计算基因型频率。 对于泛癌分析,将每个队列的PLINK输出结果通过R包meta中的metagen函数进行共同效应荟萃分析,输入为每个单独癌症组织学PLINK运行的结果中的治疗效应及其标准误差。 Survival analysis 生存分析
Para_01 在英国基因组学研究环境中,收集了癌症诊断日期、国家统计局的死亡记录以及医院住院统计中最近记录的最新随访时间(版本 v16)等可用数据。 然后对这些数据进行了额外的质量控制,排除任何具有冲突数据的患者,例如由于多次癌症发病导致的随访时间超过 10 年的情况。 总计有 13,348 名参与者同时具备生存数据和血液中的 ImmuneLENS 比例数据,另有 13,342 名参与者同时具备生存数据和肿瘤组织中的 ImmuneLENS 比例数据,可供分析。 Data availability Para_01 本研究中使用的RNA-seq和全外显子组测序(WES)数据(均来自TRACERx研究)是TRACERx421数据集的一个子集,并已存放在欧洲基因-表型档案库中,该档案库由欧洲生物信息学研究所和基因组调控中心共同托管,存取代码分别为EGAS00001006517(RNA-seq)和EGAS00001006494(WES)。 访问权限由TRACERx数据访问委员会控制,以确保患者隐私和数据保密性得到保护,同时促进有意义的科学发现。 如何申请访问权限的详细信息可在相关链接页面上找到。 数据访问委员会的目标是在1周内回复请求。 对于本分析中使用的TCR-seq数据,其FASTQ数据已存放在序列读档数据库(SRA)中,存取代码为BioProject(PRJNA544699)。 来自TRACERx 100样本的全基因组测序(WGS)生成了TCRA、TCRB、TCRG和IGH位点的覆盖文件。 这些用于计算T细胞和B细胞比例的覆盖文件可在Zenodo(https://doi.org/10.5281/zenodo.7785803)上获取,也是本文中唯一从TRACERx WGS分析中衍生的数据。 Para_02 通过遵循 https://www.genomicsengland.co.uk/join-us 中概述的程序,学术用户和行业用户均可向英国基因组学公司申请访问来自 10KGP 的全基因组测序和表型数据。 英国基因组学公司将对 100KGP 数据的访问限制为真正的研究人员,以保护其参与者的敏感基因组数据。 对于学术用户,英国基因组学公司将在十个个工作日内审查所有申请,并在研究人员所在机构确认隶属关系以及完成在线治理培训后的两个工作日内授予访问权限。 Para_03 使用的1000基因组数据是公开可用的,可从https://www.internationalgenome.org/data访问。 包括类别转换和多克隆预测在内的ImmuneLENS计算输出,针对每个LCL细胞系的数据可在Zenodo上获取(https://doi.org/10.5281/zenodo.11093976)。 Para_04 本研究中使用的 PCAWG 数据是通过我们与 MD 安德森癌症中心的合作获得的。 为了获取本研究中使用的 PCAWG 数据中 TCGA 部分的原始全基因组测序(WGS)样本,研究人员需要通过基因型和表型数据库(dbGaP;https://dbgap.ncbi.nlm.nih.gov/aa/wga.cgi?page=login)向 TCGA 数据访问委员会申请。 数据访问受到控制,以尊重和保护研究参与者的利益。 这些样本的计算得到的 ImmuneLENS 输出结果可在 Zenodo 上获取(https://doi.org/10.5281/zenodo.11093961)。 Para_05 TCGA试点项目由国家癌症研究所(NCI)和国家人类基因组研究所共同建立。 数据通过dbGaP授权获取(登录号phs000178.v9.p8)。 有关TCGA以及TCGA研究网络的组成研究人员和机构的信息,可以在http://cancergenome.nih.gov/找到。 要访问TCGA的外显子组测序(WES)和低覆盖全基因组测序(WGS)数据,研究人员需要通过dbGaP向TCGA数据访问委员会(DAC)申请(https://dbgap.ncbi.nlm.nih.gov/aa/wga.cgi?page=login)。 访问受限是为了尊重和保护研究参与者的利益。 本研究中使用的低覆盖全基因组测序样本的T细胞ExTRECT TCRA T细胞比例分数及ImmuneLENS输出结果可在Zenodo上获取(https://doi.org/10.5281/zenodo.7794867)。 Para_06 本分析中使用的单细胞数据之前已有描述,可从 https://cellxgene.cziscience.com/collections/edb893ee-4066-4128-9aec-5eb2b03f8287 获取。 Code availability Para_01 用于生成 T 细胞和 B 细胞比例分数的代码将作为 R 包 ImmuneLENS 提供给学术性非商业研究使用,该包可从 https://github.com/McGranahanLab/ImmuneLENS 下载并安装。 Para_02 分析中使用的所有其他代码和重现图表所需的数据可在 Zenodo 上获取(https://doi.org/10.5281/zenodo.14046632)。 100KGP 数据无法导出到英国基因组学研究环境之外。 用于重现 100KGP 分析的所有数据和代码,包括 T 细胞和 B 细胞比例,均可在英国基因组学研究环境内的文件夹‘/re_gecip/shared_allGeCIPs/rbentham/ImmuneLENS_figure_code/’中获取(有关使用研究环境的信息,请参见 https://re-docs.genomicsengland.co.uk/access/)。 研究人员可以通过按照 https://www.genomicsengland.co.uk/join-us 中概述的程序向英国基因组学公司申请,从而获得对英国基因组学研究环境及其相关数据的访问权限。