前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >生信程序 | 量化癌症进化谱系中的细胞分裂 | Nature Genetics

生信程序 | 量化癌症进化谱系中的细胞分裂 | Nature Genetics

作者头像
生信菜鸟团
发布于 2025-04-04 07:51:50
发布于 2025-04-04 07:51:50
1150
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:Quantifying cell divisions along evolutionary lineages in cancer
  • 中文标题:量化癌症进化谱系中的细胞分裂
  • 发表日期:04 February 2025
  • 文章类型:Article
  • 所属期刊:Nature Genetics
  • 文章作者:Martin Blohmer | Kamila Naxerova
  • 文章链接:https://www.nature.com/articles/s41588-025-02078-5

Abstract

Para_01
  1. 细胞分裂推动了体细胞进化,但对其进行量化具有挑战性。
  2. 我们开发了一种框架,通过分析与DNA复制相关的多聚鸟苷酸同聚物突变来计数细胞分裂。
  3. 通过对来自37名患者的505个样本进行分析,我们研究了结直肠癌进化的关键阶段。
  4. 原发肿瘤在创始细胞分裂约250次时出现多样化,而远处转移的分化则显著更晚,发生在约500次分裂时。
  5. 值得注意的是,远处转移而非淋巴结转移起源于经历了额外分裂的原发肿瘤区域,这将亚克隆扩增与转移能力联系起来。
  6. 随后,我们分析了一个包含73例多灶性肺癌的队列,并证明肿瘤共同祖先的细胞分裂负担可以区分独立的原发肿瘤和肺内转移,并且与患者生存率相关。
  7. 在肺癌中,转移能力同样与更为广泛的增殖相关。
  8. 使用我们简单的框架,人类癌症的细胞分裂历史易于获取,并且包含有价值的生物学和临床信息。

Main

Para_01
  1. 在整个生命过程中,严格控制的细胞分裂对于组织维持至关重要,而其失调与疾病相关,并且是癌症的一个定义特征。
  2. 然而,量化一个细胞群体在其生命周期内经历的细胞分裂次数具有挑战性。
  3. 虽然现在测量细胞的突变负担已经变得简单,但缺乏易于获取且可扩展的方法来测量细胞分裂负担。
  4. 以前,通常通过单核苷酸变异(SNVs)来估算分裂次数,假设 SNVs 随细胞分裂线性积累;然而,最近的证据表明许多 SNVs 的产生与 DNA 复制无关。
  5. 一部分 SNVs,具有 SBS1 突变特征,可能与复制相关,但由于即使是像神经元这样的非分裂细胞也会累积 SBS1 突变,这种关系必定是部分性的。
  6. SBS1 是由未在复制前修复的甲基化胞嘧啶脱氨基引起的;这一机制意味着细胞分裂与 SBS1 突变之间存在非线性关系,因为分裂更快的细胞将有更少的时间修复脱氨基作用,从而在每次分裂中累积更多 SBS1 突变。
  7. 此外,癌症中的甲基化变化可以全局改变 SBS1 突变的发生率。
  8. 因此,一个问题随之而来:另一种类型的突变是否能提供更合适的细胞分裂测量方法?
Para_02
  1. 在本文中,我们探讨了通过插入和删除(indels)来测量细胞分裂的可能性,这些插入和删除发生在被称为微卫星的重复DNA区域。
  2. 这些突变主要是在DNA合成过程中由于聚合酶滑动而产生的。
  3. 因此,它们可能比单核苷酸变异(SNVs)更能忠实反映细胞分裂,因为SNVs是在更多样化的条件下产生的。
  4. 每单位基因组长度上,微卫星indels的发生率远高于其他类型的突变,例如SNVs。
  5. 多项研究将微卫星突变转化为癌症和正常细胞谱系中的分裂次数,但这些数据仅限于小规模的错配修复(MMR)缺陷型癌症队列。
  6. 长期以来,人们认为MMR功能正常(MMRp)细胞中的微卫星突变率过低,无法实现有效的谱系重建。
  7. 然而,最近我们发现,在突变最快的微卫星类型——多聚鸟嘌呤重复序列中,indels的发生率足够高,即使在MMRp癌症中也能实现高效的体细胞进化重建。
  8. 在这项研究中,基于我们和其他人广泛开展的微卫星基因分型数据和理论工作,我们通过体外实验对多聚鸟嘌呤片段进化的数学模型进行了校准,实验对象包括MMR缺陷型(MMRd)和MMRp细胞系。
  9. 然后,我们将该数学框架应用于推断从受精卵到癌症起始再到转移过程中结直肠癌(CRC)和肺癌的细胞分裂情况,展示了一个简单且可靠的框架,该框架可以轻松扩展以用于高通量分析。

Results

Translating polyguanine mutations to cell divisions

将多聚甘氨酸突变转化为细胞分裂

Para_01
  1. 富含多聚鸟嘌呤的重复序列中存在大量具有谱系信息的变异,因为在 DNA 复制过程中经常引入插入缺失突变(图 1a)。
  2. 我们将一个细胞群体的‘多聚鸟嘌呤指纹’定义为一组多聚鸟嘌呤片段上的等位基因分布。
  3. 为了从理论上理解等位基因分布在细胞众多谱系历史中的意义,我们结合了经典的数学模型:假设样本的祖先树来源于分支过程,并且多聚鸟嘌呤片段沿分支独立地遵循对称随机游走。
  4. 根据这一框架,样本中某个片段长度分布的均值近似等于该样本最近共同祖先中的片段长度(图 1b),这一点我们之前在理论上进行了证明,并在本文中通过计算方法展示。

Fig. 1: Polyguanine fingerprints count cell divisions.

- 图片说明

◉ a,DNA聚合酶滑动导致多聚鸟嘌呤重复序列中插入缺失的示意图。◉ b,多聚鸟嘌呤突变在发育过程中积累,并作为分子条形码发挥作用。为简化起见,仅显示一个等位基因。◉ 多克隆正常组织样本的平均等位基因长度接近合子,因为它包含许多胚胎细胞谱系的后代。◉ 类似地,肿瘤样本的平均等位基因长度代表该样本最近共同祖先(MRCA)的基因型。◉ c,系统发生重建工作流程。◉ 左侧,患者TM32的四个样本中Sal21多聚鸟嘌呤区域的等位基因分布。◉ 红色虚线框表示正常样本的等位基因分布,用于与癌症样本进行比较。◉ 每个分布(方框)的平均值近似表示采样细胞MRCA的基因型。◉ 顶部中间:相对于正常样本,各样本中等位基因的平均长度。◉ 绿色表示缺失,紫色表示插入。◉ 顶部右侧:样本之间的成对L1距离。◉ 底部:基于此距离矩阵,构建了邻接法系统发生树。◉ d,L1距离随细胞分裂呈线性增长。◉ 模拟20个(左)或50个(右)多聚鸟嘌呤区域经过1,000次细胞分裂,每次分裂每个等位基因突变概率为µ。◉ 蓝线表示1,000次模拟的平均L1值;灰条表示模拟L1值的2.5和97.5百分位数;虚线表示细胞分裂次数与µ的乘积。◉ 数据通过在十次细胞分裂上应用滚动平均进行了平滑处理。◉ e,L1距离主要反映了从合子到肿瘤创始细胞之间的分裂次数。◉ 我们通过沿单一谱系模拟500次分裂(代表肿瘤启动前的分裂)来近似肿瘤的生命史,然后通过分支过程启动克隆扩增再进行500次分裂(代表肿瘤生长)。◉ 在肿瘤生长阶段后取样(10,000个细胞),我们发现L1距离仅比初始时增加了2.0%。

Para_02
  1. 我们的多聚鸟嘌呤面板包含58个位点,这些位点通过PCR和片段长度分析进行检测(方法)。
  2. 图1c显示了来自一位多灶性肺癌患者的四个样本中Sal21区域的等位基因分布情况。
  3. 样本N1代表正常肺组织,而P1和P2是两个不同的癌结节。
  4. P2在两个不同区域a和b进行了分析。
  5. 样本之间等位基因分布的差异(图1c)反映了它们不同的细胞分裂历史。
  6. 为了获得两个样本之间的遗传距离,我们计算了它们所有位点上平均微卫星长度的L1(曼哈顿)距离,并按位点数量进行归一化。
  7. 这一度量估计了突变率与沿两个样本最近共同祖先(MRCA)到当前样本路径上的细胞分裂次数的乘积(补充说明1和公式(2))。
  8. 将L1距离应用于肿瘤并构建邻接连接系统发生树,我们观察到肿瘤P1和P2的最近共同祖先发生在距合子(由N1样本基因型近似表示)L1距离为0.04的位置,而肿瘤样本P2a和P2b的最近共同祖先发生在稍后的位置(L1 = 0.07),这与其源自同一结节一致(图1c)。
Para_03
  1. 理论预测,L1距离将随着细胞分裂次数的增加而近似线性增长。
  2. 我们通过模拟突变过程验证了这一点(图1d和方法部分),并且进一步观察到,这种线性关系对突变率、采样片段数量的变化以及全基因组复制具有鲁棒性(扩展数据图1)。
  3. 模拟还证实,合子与克隆扩增随机样本之间的L1距离主要反映了到样本最近共同祖先的细胞分裂次数,扩增期间的分裂贡献有限(图1e)。
  4. 这些特性使得L1距离成为一个生物学上有意义的度量标准。
  5. 如果已知突变率,我们可以确定两个细胞群体之间分离的细胞分裂次数。
  6. 因此,我们着手在体外确定这一突变率。

Estimating polyguanine mutation rates in vitro

体外估算多聚鸟嘌呤突变率

Para_01
  1. 为了测量我们58个聚甘氨酸片段的平均突变率,我们通过扩展单细胞,让它们以已知的分裂次数增殖,并进一步创建单细胞扩展(方法)(图2a,b),进化了同基因的MMRp和MMRd HCT 116结直肠癌细胞。
  2. 我们在每次扩展阶段结束时获取聚甘氨酸指纹(补充图1),并计算所有样本对之间的L1距离,从而获得每个实验的遗传距离矩阵和系统发育树(图2c,d)。
  3. 已知的树拓扑结构和推断的树显示出高度显著的相似性(P < 10^-4;扩展数据图2)。
  4. 将线性回归应用于遗传距离与分裂距离之间的关系中,回归线的y截距表示样本内谱系多样性及测量噪声,而斜率反映突变率(图2e,f)。
  5. 我们分别估计了MMRp和MMRd细胞每条片段每细胞分裂的突变为9.43 × 10^-5(95%引导置信区间(CI) = 1.20 × 10^-5 到 2.23 × 10^-4)和4.72 × 10^-4(2.92 × 10^-4 到 6.86 × 10^-4)。
  6. 接下来,我们在四个额外的来自不同组织的细胞系中验证了MMRp的突变率。
  7. 微卫星稳定的HT-29 CRC细胞(2.38 × 10^-5)、A549肺癌细胞(3.40 × 10^-5)、永生化的人乳腺上皮细胞(8.41 × 10^-5)和永生化的人肾上皮细胞(6.91 × 10^-5)中的突变率非常接近(扩展数据图3和补充图2)。
  8. 为了确认聚甘氨酸突变确实更快地积累在快速分裂的细胞而非缓慢分裂的细胞中,我们还分析了从单克隆肠隐窝衍生的类器官和从五只老年(20-24个月大)小鼠克隆扩增的造血干细胞(HSCs)。
  9. 隐窝与HSCs之间的L1距离比HSCs彼此之间的距离更大;隐窝间的成对距离高于HSCs间的成对距离(扩展数据图4)。
  10. 假设隐窝和HSCs之间不存在显著的共同胚胎谱系,这些结果表明,每两天分裂一次的肠道干细胞自受精卵以来获得了更多的聚甘氨酸突变,而HSCs被认为每57天分裂一次。
  11. 这些数据表明(尽管并未正式证明),聚甘氨酸突变是作为细胞分裂的函数产生的,这与关于复制滑动的广泛文献一致。
  12. 接下来,我们测量了癌症进化前后的细胞分裂。

Fig. 2: In vitro evolution reveals polyguanine mutation rates.

- 图片说明

◉ a 和 b,分别表示体外进化过程中 MMRp HCT-116-ch3 (a) 和 MMRd HCT-116-ch2 (b) 细胞的示意图。样品按照主要克隆进行着色。◉ c 和 d,基于图 1c 中描述的 L1 距离,重建了 MMRp (c) 和 MMRd (d) 的邻接树。◉ e 和 f,所有唯一样本对之间的细胞分裂和 L1 距离呈相关性(对于 MMRp (e),r = 0.63,P = 5.10 × 10−13,n = 105;对于 MMRd (f),r = 0.64,P = 2.55 × 10−13,n = 105)。每个重复单位每次分裂的突变率被推断为 L1 距离与细胞分裂之间线性回归的斜率。线条显示根据线性回归得出的平均 L1 距离,而阴影区域则显示估计值的标准误差。

Divisions en route to colorectal carcinogenesis

结直肠癌发生过程中的分裂

Para_01
  1. 我们将我们的框架应用于现有的31例MMRp和6例MMRd转移性结直肠癌患者队列。
  2. 使用正常组织(n = 73)、腺瘤(n = 17)、多区域采样的原发肿瘤(n = 183)、淋巴结转移(n = 130)和远处转移(n = 102)的多聚鸟嘌呤指纹构建了系统发生树,其分支代表细胞世代,从而生成了人类结直肠癌进化主要里程碑的细胞分裂时间线(图3a)。
  3. 突变数据和系统发生树可在补充图3中获取。

Fig. 3: Cell divisions during CRC evolution.

- 图片说明

◉ 结直肠癌(CRC)进化中的关键步骤(系统发育来自C31)。◉ 从受精卵到腺瘤的最近共同祖先(MRCA,n = 3)或结直肠癌的最近共同祖先(n = 31)的细胞分裂过程。◉ 诊断年龄与从受精卵到肿瘤MRCA的细胞分裂次数相关。展示了线性回归的均值(线)和估计的标准误差(阴影区域),并给出了皮尔逊相关系数及其相关的双侧P值(n = 31)。排除了腺瘤的数据。◉ 正常结肠干细胞(从癌症数据推断)和正常肠道干细胞扩增的分裂速率估计。数字表示中位数。◉ 从肿瘤MRCA到腺瘤(n = 13)、原发肿瘤(n = 183)、淋巴结转移(n = 130)和远处转移(n = 69)样本的细胞分裂次数。仅包括同步转移。在显著的Kruskal-Wallis检验(P = 5.95 × 10−7)后,使用事后双侧Dunn检验确定P值;多重假设检验通过Holm方法进行校正。◉ 长转移特异性分支的示意图(系统发育来自C57,来自同一转移的多个样本用字母表示)。◉ 晚期转移分化的示意图(系统发育来自C100)。◉ 从转移分化到样本的细胞分裂次数。线条连接了同步转移中同一患者的中位数值(n = 19)。P值通过双侧配对Wilcoxon检验确定。◉ 从肿瘤MRCA到原发肿瘤多样化(n = 36)、淋巴结转移分化(n = 31)和远处转移分化(n = 19)的细胞分裂次数。仅包括同步转移。P值通过双侧配对Wilcoxon检验确定,并通过Holm方法校正多重假设检验。◉ 与转移最密切相关的原发肿瘤区域从肿瘤MRCA经历了比其他原发肿瘤区域更多的分裂。线条连接了同一患者的数据值。深灰色虚线表示中位数。仅分析了中位转移分化发生在原发肿瘤多样化之后的患者(n = 24)。P值通过双侧配对Wilcoxon检验确定。◉ 结直肠癌进化的典型时间表。在箱线图中,中心线表示中位数;箱子的上下限表示下四分位数和上四分位数;须线表示在1.5倍四分位距(IQR)范围内的最低和最高值。L,淋巴结转移;M,远处转移;N,正常组织;P,原发肿瘤。

Para_02
  1. 我们首先研究了‘树干’,即正常组织样本与来自特定患者的全部癌变样本的最近共同祖先(MRCA)之间的谱系。
  2. 我们假设多克隆正常组织基因型近似于受精卵。
  3. 在具有错配修复功能(MMRp)肿瘤的患者中,我们发现最近共同祖先与受精卵之间平均经历了1,347次分裂,标准差为640次分裂(图3b;患者层面的数据见扩展数据图5a)。
  4. 错配修复缺陷(MMRd)肿瘤被排除在外,因为错配修复功能丧失的时间点未知,无法将其定位在主干谱系上。
  5. 这种变异部分可以通过诊断时的年龄来解释(图3c)。
  6. 三个腺瘤最近共同祖先的细胞分裂负担(中位数 = 906次分裂,标准差 = 484次分裂)低于癌变样本,但处于相似范围(图3b,c),这反映了之前在MMRd背景下获得的结果。
Para_03
  1. 接下来,我们将细胞分裂负担转化为树干沿线的细胞分裂率。
  2. 以患者诊断年龄减去4.25年作为所有癌样本最近共同祖先(MRCA)存在的时间点的代理,我们计算出树干谱系上的细胞平均每17天分裂一次(图3d)。
  3. 树干包括癌症启动前正常细胞的分裂以及启动后但在MRCA之前的分裂。
  4. 为了明确正常细胞中的分裂率,我们分析了来自五个不同年龄段个体(4-66岁;补充图4)的正常肠干细胞的克隆扩增情况。
  5. 我们估计细胞大约每15天分裂一次,这与癌症树干谱系上的分裂率非常相似(图3d)。
  6. 从正常肠细胞和肿瘤推断出的分裂率相似性表明,通过多区域采样重建的癌症MRCA密切代表原始肿瘤创始细胞,并不立即支持在后期致癌过程中发生的肿瘤范围内的克隆清扫。
Para_04
  1. 基于多聚鸟嘌呤的细胞分裂估计存在多个潜在问题。
  2. 体细胞拷贝数变异(SCNAs)可能在与细胞分裂无关的情况下影响多聚鸟嘌呤指纹特征。
  3. 因此,我们从体外实验和癌症数据中移除了所有在错配修复正常结直肠癌(MMRp CRCs)中反复出现SCNAs的染色体,并重新进行了突变率和细胞分裂推断。
  4. 通过这一调整,我们估计从受精卵到肿瘤最近共同祖先(MRCA)的细胞分裂次数减少了24%(扩展数据图6a),相当于结肠干细胞每20天分裂一次。
  5. 如果已知肿瘤的SCNA特征,可以通过正交方法校正多聚鸟嘌呤指纹中的SCNA效应(补充注释2);如果有单倍型分相数据,可以通过将两个等位基因视为两个独立位点来获得不受SCNA影响的细胞分裂估计值(补充注释3)。
  6. 另一个潜在问题是正常细胞混杂,这会降低受精卵与癌组织样本之间的L1距离(补充注释4)。
  7. 本研究分析的所有结直肠癌均经过仔细审查以确保肿瘤密度;如有必要,通过显微解剖确保高纯度。
  8. 淋巴结转移灶通常较小且富含淋巴细胞,因此经过筛选,仅包括大而高质量的病灶(补充图5和6)。
  9. 此外,纯度不足的样本通过计算管道标记,并从所有分析中移除。
  10. 总体而言,癌症与单一肠道干细胞克隆扩增之间经年龄校正后的总突变负担相似,表明杂质和SCNA效应相对较小。
  11. 我们还发现(常为非整倍体的)MMRp肿瘤和(大多接近二倍体的)MMRd肿瘤的细胞分裂负担之间无显著差异。

Divisions during CRC progression

结直肠癌进展期间的分裂

Para_01
  1. 接下来,我们量化了将不同肿瘤区域与癌症最近共同祖先(MRCA)分离开的细胞分裂次数(图3e),重点关注同步转移,以避免因生长时间差异引起的任何失真。
  2. 腺瘤样本自从MRCA以来经历了与原发癌样本相似数量的分裂(中位数=632,标准差=502)(原发癌样本:中位数=811,标准差=691),这表明这两种肿瘤类型的增殖历史在很大程度上是一致的。
  3. 淋巴结转移与肿瘤MRCA之间的分裂次数显著更多(中位数=1,013,标准差=703);而对于远处转移样本,这一数字进一步增加(中位数=1,421,标准差=748)(图3e)。
  4. 下面将进一步介绍的、不依赖纯度的细胞分裂距离版本得出了相同的结果,表明系统性纯度差异不会干扰这一分析(扩展数据图6c)。
Para_02
  1. 转移灶的高细胞分裂负担可以用至少两种不同的情景来解释:(1)在转移过程中克隆扩增暴露了沿祖先谱系的分裂事件,这些事件在原发肿瘤中通常以低频率隐藏。因此,转移灶具有相对较长的独立分支,但在系统发育树上其他方面与其他样本类型表现相似;
  2. (2)转移灶分歧,定义为转移灶与原发肿瘤样本之间的最后一个共同祖先,发生在细胞分裂次数增加之后。
  3. 转移灶播种区域的最近共同祖先经历的分裂次数比原发肿瘤的其余部分平均值更多。
  4. 这种模式很可能是由亚克隆扩增引起的。
  5. 区分可能性 1 和 2 在生物学上非常重要。
  6. 确认 1 并排除 2 将表明转移谱系在原发肿瘤中没有表现出异常的增殖特性。
  7. 另一方面,若发现证据支持 2,则表明转移播种谱系在原发肿瘤进化过程中受到正向选择。
Para_03
  1. 为了研究这两种情景,我们首先量化了远处转移与转移分歧之间的分裂次数(对应于‘转移特有’分支;图3f),发现这一数字远高于原发肿瘤区域完成的分裂次数,这与情景1一致(图3h)。
  2. 值得注意的是,淋巴结转移并非如此(补充数据图6d)。
  3. 接下来,我们将注意力转向情景2。
  4. 为了为每位患者的转移分歧创建一个内部参考标准,我们将‘原发肿瘤多样化’定义为所有可能的原发肿瘤样本对的中位分歧时间(补充数据图6e)。
  5. 我们发现原发肿瘤在最近共同祖先(MRCA)存在后不久就开始多样化(中位数 = 252次分裂,标准差 = 449次分裂;图3i;患者水平数据见补充数据图5b-d)。
  6. 淋巴结转移分歧(中位数 = 372次分裂,标准差 = 498次分裂)发生在原发肿瘤多样化之后,但这种效应并不具有统计学意义。
  7. 另一方面,远处转移显著更晚发生(中位数 = 507次分裂,标准差 = 535次分裂)。
  8. 我们使用同时性和异时性转移重复了这一分析,因为切除时间点不应影响分歧时间,并得到了相同的结果(补充数据图6f)。
  9. 此外,我们发现几乎在所有患者中(26例中的24例,92.3%),远处转移是在原发肿瘤多样化之后发生的。
  10. 这些结果与一种在原发肿瘤中亚克隆扩展的远处转移谱系一致。
  11. 因此,产生远处转移的原发肿瘤区域应该经历了比其余原发肿瘤更多的分裂(补充数据图6g)。
  12. 实际上,我们发现确实如此(图3j)。
  13. 淋巴结转移并未显示出与亚克隆扩展的这种关联(补充数据图6h)。
  14. 我们得出结论,结直肠癌中的远处转移是一种‘晚期’事件,通常发生在原发肿瘤多样化之后,并且显著地伴随着亚克隆扩展。
  15. 淋巴结转移不表现出相同的模式。
  16. 这可能是由于扩散发生得早得多,或者正如我们之前所展示的那样,淋巴结转移隔室中亚克隆混合度更高。
Para_04
  1. 转移分歧反映了转移可能发生的最早时间,我们可以通过简化近似值来估计这一时间,即细胞分裂以恒定速率发生。
  2. 假设每4天分裂一次,我们队列中远处转移播种的最早可能时间是在肿瘤启动后中位数为5.6年(扩展数据图6i),并在诊断前中位数为2.3年。
Para_05
  1. 整合所有432个肿瘤样本的数据后,出现了一个典型的结直肠癌(CRC)进化细胞分裂时间线(图3k)。
  2. 腺瘤和癌的创始细胞是一个具有年龄相关细胞分裂负担的肠细胞。
  3. 它与受精卵相隔约1350次分裂,具体取决于患者的年龄。
  4. 肿瘤的多样化发生在启动后不久,在最近共同祖先(MRCA)之后约250次分裂时。
  5. 这与中性进化模型一致,在该模型中,只有早期出现的变异体在整体水平上达到可检测频率。
  6. 我们发现原发肿瘤中的细胞死亡率很高,出生与死亡比率的中位数为0.943,这与之前的报道一致。
  7. 淋巴结转移与原发肿瘤的多样化几乎同时发生。
  8. 这可能是因为淋巴结转移中存在广泛的亚克隆混合,将遗传异质性的淋巴结驻留肿瘤细胞的最近共同祖先推向了更早的进化时间。
  9. 最后,远处转移在距离最近共同祖先约500次分裂时发生,显著晚于原发肿瘤的多样化,并且与累积了高细胞分裂负担的原发肿瘤区域相关,这可能是由于亚克隆扩增所致。

Cell division histories of multifocal lung adenocarcinomas

多灶肺腺癌的细胞分裂历史

Para_01
  1. 接下来,我们希望在具有临床意义的背景下研究细胞分裂。
  2. 我们选择研究多灶性肺癌,因为大约 15% 的非小细胞肺癌患者存在多灶性疾病,但病变的进化历史通常不清楚。
  3. 多灶性肿瘤可能代表具有短暂共同谱系的独立原发肿瘤,也可能是具有较长共同细胞分裂历史的肺内转移瘤。
  4. 尽管这种区分在临床上非常重要,因为存在转移表明预后不良,但目前尚未出现标准化的鉴别方法。
Para_02
  1. 我们分析了34名多灶性肺腺癌患者组成的队列(图4a;临床信息见扩展数据图7a和补充表1)。
  2. 85%的患者有两个肿瘤被切除,15%的患者有三个肿瘤被切除,共形成73个独立病灶和44对独特的肿瘤对。
  3. 对于每位患者,我们构建了系统发育树,并估计了两个肿瘤共同谱系在多少次细胞分裂后分离。
  4. (突变数据和系统发育树见补充图7。)
  5. 通过评估每对肿瘤及其从受精卵到最近共同祖先的距离,我们观察到了广泛的结果范围(图4b)。
  6. 在某些肿瘤对中,最近共同祖先仅距受精卵约100次分裂,而在其他对中,它已经分裂超过1000次。
  7. 这些结果表明,多聚鸟嘌呤指纹捕捉到了多种谱系历史,这与该队列包含独立原发肿瘤和肺内转移瘤混合体的观点一致。

Fig. 4: Cell divisions during multifocal lung cancer evolution.

- 图片说明

◉ a,队列和分析概述。◉ b,所有肿瘤对的细胞分裂情况。红色点表示最近共同祖先(MRCA);蓝色点表示肿瘤样本。◉ c,从受精卵到肺癌(n = 73)和错配修复正常结直肠癌(MMRp CRC)样本(n = 348)的细胞分裂情况。P值通过双侧 Wilcoxon 秩和检验确定。◉ d,癌症基因组图谱(TCGA)肺腺癌和(MMRp 和 POLE 野生型)结直肠癌的总外显子突变数(n = 501 和 n = 386)。P值通过双侧 Wilcoxon 秩和检验确定。◉ e,肺癌中外显子(TCGA,n = 501)和多聚鸟嘌呤(本研究,n = 73)突变负担的方差。归一化是突变计数除以人群中的中位数。P值通过双侧 Levene 检验确定。◉ f,从受精卵到肺肿瘤对最近共同祖先(MRCA)的细胞分裂密度。基础数据点为图 b 中的红色点。虚线表示密度的第一个局部最小值。◉ g,h,根据组织学(g,n = 18 独立和 n = 19 转移性)和下一代测序(NGS)分类(h,n = 15 独立(Ind)和 n = 21 转移性(Met),来自 Yang 等人的研究)分层的从受精卵到肺肿瘤对最近共同祖先(MRCA)的细胞分裂情况。P值通过双侧 Wilcoxon 秩和检验确定。◉ i,根据淋巴结转移的存在与否分层的从受精卵到肺肿瘤对最近共同祖先(MRCA)的细胞分裂情况(n = 22 无转移和 n = 12 有转移)。对于有多对肿瘤的患者,使用分裂次数最多的 MRCA。P值通过双侧 Wilcoxon 秩和检验确定。◉ j,具有独立(Ind)或至少一个转移性(Met)肿瘤对的患者的无进展生存期(PFS)。P值通过双侧对数秩检验确定。◉ k,在不同时间点切除的转移性肿瘤(使用 h 中定义的 NGS 方法,n = 7)从受精卵到转移性肿瘤的分裂情况。线条连接来自同一患者的值。P值通过双侧配对 Wilcoxon 秩和检验确定。◉ l,根据 NGS 分层的从受精卵到肿瘤对的细胞分裂情况。线条显示线性模型拟合;阴影区域显示估计的标准误差。P值通过双侧 Pearson 相关系数确定。◉ m,从受精卵到独立肿瘤(n = 15)和转移性肿瘤(n = 21,使用 NGS 分层)的细胞分裂情况。独立肿瘤显示平均值,转移性肿瘤显示最小值。P值通过双侧 Wilcoxon 秩和检验确定。在箱形图中,中心线代表中位数;箱子限代表下四分位数和上四分位数;须线代表在 1.5 倍四分位距范围内的最低和最高值。

Para_03
  1. 在进行正式分类之前,我们做了一些总体观察。
  2. 与结直肠癌(CRC)相比,肺癌的细胞分裂负担较低(图4c,肺癌中位数为912次分裂(标准差=451),而MMRp型结直肠癌中位数为2,432次分裂(标准差=968))。
  3. 为了排除系统纯度差异作为混淆因素,我们在一个独立的肺癌和结直肠癌样本队列中重复了这一分析,该队列已知纯度。
  4. 在计算校正纯度后的细胞分裂负担后(详情见补充注释1和4),我们发现结直肠癌与肺癌之间的细胞分裂比例(扩展数据图7b)与最初观察到的比例相似(分别为2.89与2.67)。
  5. 这一结果与外显子单核苷酸变异(SNV)负担形成对比,后者在肺癌中更高(图4d;如先前参考文献所述)。
  6. 这证实了多聚鸟嘌呤突变捕捉的信息与总SNVs不同。
  7. 尽管患者间的外显子SNV负担差异超过700倍(可能反映了对诱变剂如香烟烟雾的不同暴露程度),但多聚鸟嘌呤突变负担的差异不到十倍(图4e)。
  8. 与结直肠癌相比,肺腺癌中与SBS1相关的突变负担也较低(扩展数据图7c)。
Para_04
  1. 为了将肺癌对分类为独立原发性肿瘤还是肺内转移瘤,我们评估了从受精卵到两个肿瘤最近共同祖先(MRCA)的距离。
  2. 任何两个肺上皮细胞之间平均共享的分裂次数未知,因此我们对独立肿瘤之间的共有谱系没有强烈的先验假设。
  3. 对于转移性肿瘤,其长度可能相当显著。
  4. 我们评估了受精卵-MRCA距离的分布,并注意到一个明显的模式,大约在300次分裂处(图4f)。
  5. 分布的其余部分没有显示出明显的峰值,这与独立癌症的MRCA存在于明确的胚胎阶段以及转移性肿瘤的共有谱系更为多变是一致的。
  6. 我们对比了推断出的受精卵-MRCA分裂距离与之前基于组织学检查(图4g)和半导体测序技术对409个癌症驱动基因的分类结果(图4h)。
  7. 我们发现两者具有很强的一致性:MRCA存在于早期分裂时间的肿瘤大多被这些方法判定为独立肿瘤。
  8. ‘年轻’的MRCA也更少与淋巴结转移相关联(图4i)。
  9. 因此,我们将所有MRCA在早期分化(< 520次细胞分裂,对应于图4f中的局部最小值)的肿瘤对视为独立的,而其余的则被归类为转移性肿瘤。
Para_05
  1. 接下来,我们研究了两组之间的生存差异。
  2. 至少有一个转移性肿瘤对的患者无进展生存期(PFS)显著更差(图4j)。
  3. 将合子-MRCA距离输入Cox比例风险模型得出的结果相同(P = 0.002)。
  4. 对于总生存期(OS),结果也相似(扩展数据图7d),这与之前关于转移病例预后较差的文献一致。
  5. 此外,在转移性肿瘤对中(而非独立病例;扩展数据图7e),首次切除的肿瘤细胞分裂负担显著低于第二次切除的肿瘤(图4k),这与转移过程相符。

错误!!! - 待补充

Measuring the divergence time of potentially impure samples

测量可能不纯样本的分歧时间

Para_01
  1. 由于多聚鸟嘌呤测定法在使用来自福尔马林固定和石蜡包埋(FFPE)组织的 DNA 时表现良好,并且产生的数据易于解释,因此它适合用于高通量临床应用。
  2. 然而,常规收集的临床样本可能具有不同的肿瘤细胞纯度,这可能会混淆对细胞分裂的推断。
  3. 因此,我们希望为多聚鸟嘌呤指纹创建一个对纯度不敏感的解释框架。
  4. 一种潜在的解决方案是考虑突变的方向(插入或缺失)而不是其幅度,因为前者与纯度无关,而后者则有关(图5a)。
  5. 我们使用两个癌症样本指纹之间的皮尔逊相关系数作为对相似性的纯度不敏感测量方法,因为它是对共享祖先细胞分裂次数与总分裂次数之比的统计一致估计量(图5b)(数学细节见补充说明1)。
  6. 因此,我们将在此上下文中使用的相关系数称为聚合比率(CoaR)。
  7. 例如,患者TM18同步肿瘤P1和P2中的插入缺失高度一致(图5c),导致CoaR为0.9(图5d)。
  8. 现在假设肿瘤P1的纯度降低。这将导致其相对于正常的多聚鸟嘌呤片段的平均长度按比例变化,但不会影响CoaR(图5d)。

Fig. 5: Timing divergence of impure samples.

- 图片说明

◉ 将正常细胞(灰色)与肿瘤细胞(橙色)混合不会改变肿瘤突变的方向(插入或删除)。◉ 红色表示共享的分裂;蓝色表示私有的分裂。左侧:低 CoaR。右侧:高 CoaR。◉ 患者 TM18 的系统发育树和热图(如图 1c 所示)。◉ 纯度对两个样本多聚鸟嘌呤平均长度相关性的影响。灰色显示观察数据(每个点是一个多聚鸟嘌呤片段,n = 30);红色显示模拟数据,其中肿瘤 2 的纯度人为降低了 50%。线条表示根据线性回归模型计算的平均值,阴影区域表示估计的标准误差。R 表示皮尔逊相关系数或 CoaR。◉ 从受精卵到肺肿瘤对最近共同祖先的细胞分裂数与 CoaR 的关系。线条表示独立和转移性肿瘤在细胞分裂数(520)和 CoaRs(0.52)之间的临界值。◉ 个体间肺腺癌肿瘤对(即不同患者的肿瘤相互比较,n = 1,973)、结直肠癌转移瘤(队列中同一患者原发肿瘤与配对转移瘤的成对数据,n = 537)以及多灶性肺癌对(同一患者成对数据,n = 44)的 CoaR。虚线灰线表示独立肿瘤的第 95 百分位数(0.52)。CoaR 大于 0.52 表示转移性;低于 0.52 表示独立性。◉ 无进展生存期的 Kaplan-Meier 曲线。每位患者由具有最高 CoaR 的肿瘤对表示。P 值通过双侧对数秩检验确定。◉ Cox 比例风险模型的三维表示,显示连续范围 CoaRs 的无进展生存概率,并调整诊断年龄、性别、吸烟状态、最大肿瘤大小、局部区域淋巴结转移的存在与否以及肿瘤切除之间的时间间隔。每位患者由具有最高 CoaR 的肿瘤对表示。◉ 两名具有多个鳞状细胞癌病灶且临床判断可能(i)和不确定(j)为转移起源的患者的概述。解剖位置的草图标注了 CoaRs。箱线图中,中心线表示中位数;箱子上下限表示下四分位数和上四分位数;须线表示 1.5 倍四分位距范围内的最低和最高值。图形 i 和 j 使用 BioRender.com 创建。

Para_02
  1. 我们采用这种方法重新审视了我们的肺癌队列,发现肿瘤对的 CoaR 与其合子-MRCA 距离之间存在强烈的关系(图5e)。
  2. 为了开发一种有原则的分类方法,我们计算了来自不同患者的1,973对肺腺癌肿瘤指纹之间的成对 CoaR,并发现分布的中位数接近于零(图5f;独立CRC对的类似结果见扩展数据图8a)。
  3. 接下来,我们计算了537对匹配的结直肠癌原发肿瘤-转移瘤对之间的 CoaR。在这种比较中,大多数 CoaR 聚集在接近1的位置。
  4. 通过将肺癌队列与这些基准分布进行对比,我们观察到数值广泛分布,其中位数介于两个参考组之间,这与独立和转移性病例混合的 CoaR 一致。
  5. 选择无关肺癌分布的第95百分位作为阈值来区分组别,将26对(59.1%)多灶性肺癌归类为转移性(图5f和补充表2)。
  6. 将这些结果与基于 MRCA 的分类进行比较,我们发现两者具有良好的一致性(Fisher 精确检验 P < 0.001)。
  7. CoaR 在预测无进展生存期(PFS)(图5g)和总生存期(OS)(扩展数据图8b)方面表现略好。
  8. 重要的是,我们排除了独立肿瘤和转移性肿瘤患者之间显著生存差异依赖于特定 CoaR 截断值的可能性(扩展数据图8c,d)。
  9. 在考虑临床协变量的同时将生存建模为 CoaR 的连续函数,Cox 回归显示 CoaR 是唯一显著与 PFS 相关的风险因素(图5h和扩展数据图8e)。
Para_03
  1. 最后,为了进一步确认 CoaR 在肿瘤类型之间的可移植性,我们分析了两名患有头颈部鳞状细胞癌(HNSCC)的患者。
  2. 一例患者的颈椎部位有一个病灶,根据组织学分析,该病灶可能为转移性来源。
  3. 我们测量到这两个肿瘤之间的 CoaR 值为 0.98,从而验证了这一判断(图 5i)。
  4. 另一名 HNSCC 患者肺部存在一个鳞状细胞病变,但临床检查无法排除原发性肺癌的可能性。
  5. CoaR 值为 0.92 使我们能够有把握地将肺部病灶分类为转移瘤(图 5j),这说明了 CoaR 如何辅助临床决策。

Discussion

Para_01
  1. 我们提出了一种框架,用于量化体细胞谱系中的细胞分裂情况,该框架建立在之前研究微卫星不稳定性结直肠癌(MMRd CRCs)细胞分裂历史的工作基础之上。
  2. 我们方法的主要进步在于其适用于具有完整DNA错配修复功能的正常谱系,使我们能够研究MMRp肿瘤中的细胞分裂,并测量此前无法获取的、具有生物学重要意义的指标,例如恶性谱系从受精卵开始的整个分裂历史,而不仅仅是从微卫星不稳定肿瘤中错配修复丢失的时间点开始。
Para_02
  1. 为什么专门用于计算细胞分裂次数的方法是有用的?
  2. 在许多情况下,使用单核苷酸变异(SNVs)来测量谱系长度可能会得出相似的结论。
  3. 例如,通过全基因组测序可以非常准确地区分独立的原发癌症和转移性癌症。
  4. 然而,判断SNVs是由于细胞分裂还是其他与复制无关的诱变过程引起的并不简单;在某些情况下,区分细胞分裂的变化和突变机制的变化是很重要的。
  5. 例如,独立的肺癌的细胞分裂负担低于转移性肿瘤的细胞分裂负担,这表明其潜在生物学机制存在差异。
  6. 考虑到总SNVs数量,肺癌中总的突变负担的较大差异可能会掩盖分裂相关突变的相对较小差异,从而使这一结果变得模糊。
Para_03
  1. 我们对 MMRp 结直肠癌 (CRC) 细胞分裂历史的研究确认了已知的事实,并提出了几个新的观察结果。
  2. 我们发现,淋巴结和远处转移与肿瘤的最近共同祖先 (MRCA) 之间的分裂次数比原发肿瘤样本多。
  3. 这一直观的结果在单核苷酸变异 (SNV) 水平上也能看到,尽管表现得较为缓和:CRC 转移灶平均比匹配的原发肿瘤多约 20% 的 SNVs。
  4. 然而,在当前分析中,我们可以进一步探讨,通过详细多区域的原发肿瘤采样,来研究这些额外的分裂来自何处。
  5. 我们发现,这些分裂不仅是由转移瓶颈暴露出来的,还来自于原发肿瘤亚克隆扩张期间播种谱系所积累的分裂。
  6. 类似的研究结果最近在肺癌中由 TRACERx 提出。
  7. 该结果表明,原发肿瘤中克隆的增长率与其形成转移的能力之间存在普遍联系。
  8. 这也表明,在 CRC 中,远处转移与有利的可遗传性状的出现相关联。
  9. 我们发现远处转移几乎都发生在‘晚期’,即在原发肿瘤多样化之后,这与切除小型 CRC 通常能够治愈的事实一致。
  10. 这与之前关于 CRC 转移早期分化的结论相反。
  11. 当前研究中对原发肿瘤区域更广泛的采样(平均每名患者五个区域,而参考文献 3 中为两个)可能解释了这种差异。
  12. 在肺癌中,我们获得了几个与 CRC 中这些发现相似的见解。
  13. 肺癌中的转移行为也与更复杂的细胞分裂历史相关:独立的肺癌不仅具有低细胞分裂负担的 MRCA,而且在切除时也表现出低细胞分裂负担,这表明缺乏亚克隆扩张。
  14. 因此,原发肿瘤中的选择性克隆与远处转移有着特殊的联系。
Para_04
  1. 最后,在更实际的层面上,我们证明了我们的高度可扩展的多聚鸟嘌呤指纹分析方法是解决临床医生在制定治疗决策时经常面临的许多问题的强大工具。
  2. 为了实现临床应用,我们构建了一个理论框架,使得即使样本纯度不理想,多聚鸟嘌呤指纹数据也能被准确解读。
  3. 因此,癌症的细胞分裂历史应该对任何希望研究它的人开放。

Methods

Tissue samples

组织样本

Para_01
  1. 作为两项先前研究的一部分,收集了CRCs和正常肠干细胞的多聚鸟嘌呤指纹,其中样本选择和处理在这些研究中有详细描述。
  2. 简而言之,通过审查马萨诸塞州总医院(MGH)病理数据库确定了合适的患者,该审查得到了MGH机构审查委员会的批准(协议号为2012P001135)。
  3. 根据已废弃组织协议,在豁免知情同意的情况下收集组织(由于所有诊断研究已完成且隐私泄露风险被认为极小,病例回顾为回顾性进行)。
  4. 由胃肠病理学家(J.K.L.)对FFPE样本的苏木精和伊红染色切片进行了审查;高肿瘤密度区域被圈出并用于采样。
  5. 高纯度的大块肿瘤区域使用活检冲孔器(1.5或2毫米)采样,而较小区域则在显微镜下手动宏分离以确保高肿瘤细胞纯度。
  6. 样本经脱蜡处理后用蛋白酶K消化。
  7. DNA通过酚-氯仿提取,并随后通过醋酸钠沉淀。
Para_02
  1. 肺肿瘤样本在台北退伍军人总医院收集,方法如先前所述。
  2. 该研究已获得当地机构审查委员会的批准。
  3. 通过机构病理数据库确定了2000年至2016年间至少接受两次肺腺癌病灶手术切除的患者。
  4. 排除标准包括胸膜转移、淋巴管癌栓、过去15年内患有其他恶性肿瘤(非肺腺癌),以及接受过新辅助治疗的患者。
  5. 此外,表现出明确临床多发独立肺癌迹象的患者也被排除,这些迹象定义为存在原位腺癌、微浸润性腺癌或贴壁型腺癌的情况。
  6. 同样地,如果能够通过临床检查确认存在肺内转移(例如,两处肿瘤具有相同的组织学类型,除了腺癌成分外还包含鳞状细胞癌成分),则患者也会被排除在外。
  7. 使用Thermo Fisher Scientific公司的FFPE组织总核酸提取试剂盒从福尔马林固定石蜡包埋的肿瘤和匹配正常组织中提取DNA。
  8. 通过病历回顾收集患者的年龄、性别、吸烟状态、肿瘤位置和大小、淋巴结分期、疾病复发情况及生存状态等临床数据。
Para_03
  1. 从患有 HNSCC 的患者中在 MGH 收集了组织样本。
  2. 福尔马林固定石蜡包埋(FFPE)的组织块被切成 10–20 个 8 微米的切片,并在显微镜下仔细进行宏分离。
  3. 使用酚-氯仿方法提取 DNA,并用醋酸钠沉淀。
  4. 以相同方式从相邻的 FFPE 正常组织块中提取正常组织的 DNA。

In vitro evolution and estimation of polyguanine mutation rates

体外进化与多聚鸟嘌呤突变率的估算

Para_01
  1. 分别从 Koi 等人处获得了 MMRp 和 MMRd 细胞系,即 HCT-116-ch3 和 HCT-116-ch2。
  2. HCT 116 细胞由于错配修复基因 MLH1 的纯合突变而天然表现为 MMRd(错配修复缺陷型)。
  3. Koi 等人引入了一条携带功能性 MLH1 基因的额外 3 号染色体,从而创建了 MMRp(错配修复正常型)版本的细胞系。
  4. 他们还单独向原始细胞系中引入了一条额外的 2 号染色体,以创建在超数染色体方面可比的 MMRd 版本。
  5. 使用 Multiplexion 的多重细胞系认证方法验证了这些细胞系为 HCT 116。
  6. 这两种细胞系均在补充有 10% 雌性胎牛血清和 1% 青霉素/链霉素的 DMEM(Gibco)中培养。
  7. 细胞在含 5% CO2 的 37°C 湿润培养箱中维持生长。
Para_02
  1. 通过有限稀释系列获得单个HCT-116-ch3和HCT-116-ch2细胞,并通过显微镜确认单个细胞的存在。
  2. 允许细胞增殖并记录确切的分裂次数。
  3. 然后,使用有限稀释从这个根群体中分离出单个细胞以获得新的亚克隆。
  4. 这些亚克隆再次被允许增殖,并再次计数确切的细胞分裂次数。
  5. 单个细胞的分离和生长又重复了两次,总共从根样本中进行了三代。
  6. 每一代之后,一半的细胞被快速冷冻,并使用DNeasy Blood and Tissue Kit (QIAGEN)提取DNA。
Para_03
  1. 为了估计 HT29 (CVCL_0320)、A549 (CVCL_0023)、HMEC (PCS-600-010,使用人端粒酶逆转录酶永生化,ATCC 提供) 和 RPTEC (CVCL_K278,使用人端粒酶逆转录酶永生化;后两种细胞系由 S. Elledge 赠送) 细胞系中的突变率,上述实验方法进行了轻微调整。
  2. 我们没有构建完整的体外进化树,而是为每个细胞系衍生了一个克隆根群体。
  3. 然后让这个根群体增殖,并在之后的 1-5 个时间点尽可能多地从其中采样单个细胞 (扩展数据图 3)。
  4. 单个细胞经过少量分裂 (直到有足够的 DNA 可以对其进行基因分型),并从所有样本中获取多聚鸟嘌呤指纹,包括根样本。
  5. 记录了每个时间点的确切细胞分裂次数。
  6. 使用 AMPure XP Beads (Beckman Coulter) 提取 DNA。

Mouse samples

小鼠样本

Para_01
  1. 实验已获得哈佛医学院动物伦理委员会的批准。
  2. 所有用于造血集落扩增和肠隐窝类器官培养的小鼠均为 C57BL/6J 品系,年龄为 20–24 个月。
  3. 小鼠在 22°C 和 60% 湿度下群居饲养,采用 12:12 小时的明暗循环,并自由获取标准小鼠饲料和水。
  4. 研究方案经麻省总医院和哈佛医学院的机构动物照护与使用委员会审查并批准;所有动物实验均符合相关监管标准。
  5. 对于造血干细胞(HSC)分选,每只小鼠的两个股骨、两个胫骨和脊柱被粉碎后,用 0.5% BSA 和 0.5 mM EDTA-PBS 处理以分离整个骨髓。
  6. 使用改良的磁珠辅助细胞分选(MACS)方案(STEMCELL Technologies),结合抗生物素磁珠和生物素标记的抗体(CD11b、Gr1、Ter119、B220、CD19 和 CD3e,均稀释 1:500)进行谱系耗竭操作。
  7. 单细胞分选在 FACSAria II 工作站(BD Biosciences)上完成。
  8. 补充图 8 显示了 HSC 分离的代表性分选策略。
  9. HSC 被定义为:谱系阴性(所有抗体稀释比例同上)、cKit+(1:100 稀释)、Sca1+(1:200 稀释)、FLT3−(1:100 稀释)、CD48−(1:100 稀释)、CD150+(1:100 稀释)和 EPCR+(1:200 稀释)。
  10. 单个 HSC 被分选到 96 孔板的每个孔中,每孔含 100 μl MethoCult GF M3434(STEMCELL Technologies),并在 5% CO2 培养箱中培养 10–14 天。
  11. 单个肠隐窝类器官通过以下方法获得:将小鼠的整个肠道切成小块,用 PBS 洗涤后,在 5 mM EDTA 中孵育 15 分钟,随后在 2 mM EDTA 中孵育 30 分钟。
  12. 通过剧烈振荡 1 分钟将隐窝从组织中释放出来。
  13. 单个隐窝的悬浮液随后被接种到 Matrigel 凝胶中,并培养 10 天。
  14. 10 天后,溶解 Matrigel 并挑取单个类器官。
  15. 隐窝和 HSC 的 DNA 使用 AMPure XP Beads 提取。

Polyguanine fingerprinting

多聚鸟嘌呤指纹分析

Para_01
  1. 生成了肺癌、头颈鳞状细胞癌(HNSCCs)、其匹配的正常对照以及体外进化样本的多聚鸟嘌呤指纹,具体方法如先前所述。
  2. 以下是简要概述。
  3. 对于每个样本,在多重 PCR 反应中扩增了 9-58 个独特的多聚鸟嘌呤重复序列,使用的引物序列来自先前研究。
  4. PCR 产物的长度通过毛细管电泳(3730xl DNA 分析仪,Applied Biosystems)进行解析。
  5. 为了确保数据的高质量和稳健性,所有 PCR 反应都生成了技术重复样本。
  6. 肺癌和体外进化样本进行了三重分析,而 HNSCC 样本进行了双重分析(由于有限的 DNA 可用性,无法进行第三次重复)。
  7. 基因型以制表符分隔的文本文件形式导出,使用微卫星分析工具(Thermo Fisher Scientific)。
  8. 如果某个患者和多聚鸟嘌呤重复序列的 PCR 产物荧光强度低于该患者平均强度的 10%,则排除这些重复样本的分析。
  9. 使用 Jensen–Shannon 差异(JSD)比较技术重复样本中的等位基因分布;如果所有技术重复样本对之间均不一致(定义为 JSD > 0.11),则将该多聚鸟嘌呤序列从分析中移除(关于此阈值的详细分析参见先前研究)。
  10. 如果至少有两个重复样本在等位基因分布形状上达成一致(JSD < 0.11),则选择其中荧光强度最高的重复样本作为该患者和标记的代表性重复样本。
  11. 仅包含在患者所有样本中具有有效代表性重复样本的多聚鸟嘌呤序列用于进一步分析。
  12. 如果某个样本缺少 30% 或更多多聚鸟嘌呤重复序列的代表性重复样本,则排除该样本。
Para_02
  1. 用于扩增小鼠聚甘氨酸指纹的引物来源于 Salipante 等人的研究。
  2. 数据的处理方式与人类聚甘氨酸指纹的数据相同。
  3. 唯一的区别在于,对于小鼠的聚甘氨酸指纹,即使某些聚甘氨酸片段在小鼠的所有样本中没有有效的代表性重复,只要两个被比较的样本在此标记上具有有效的基因型,这些片段仍被用于计算 HSC 和隐窝之间的成对距离。
  4. 因此,所有能够在两个样本中成功扩增的聚甘氨酸片段都被包括在内,以计算它们的成对遗传距离。

Calculating cell division numbers

计算细胞分裂次数

Para_01
  1. 在每个聚鸟嘌呤序列处测量的等位基因分布根据其平均长度进行总结。
  2. 因此,每个样本由长度为 L 的向量表示(L = 被检测的聚鸟嘌呤重复次数),其条目是所测量位点的平均等位基因长度。
  3. 该向量估计了组织样本中所有细胞的最近共同祖先(MRCA)的基因型(补充说明 1)。
  4. 假定多克隆正常样本的平均长度向量接近合子的基因型。
  5. 为了获得肿瘤样本的体细胞聚鸟嘌呤指纹,从肿瘤样本的平均长度向量中减去了正常组织的平均长度向量。
  6. 在小鼠造血干细胞(HSCs)与肠隐窝的细胞分裂分析中,我们使用随机选择的造血干细胞(每只小鼠中)作为参考样本,以与其他所有样本(在同一小鼠中)进行比较。
Para_02
  1. 两个组织样本之间的细胞分裂次数与它们的平均长度向量之间的归一化曼哈顿距离(L1距离)成正比。
  2. 将L1距离转换为细胞分裂次数需要知道基因分型多聚鸟嘌呤位点的突变率,该突变率是通过体外进化实验测量得到的。
  3. 对于HCT-116-ch3和HCT-116-ch2实验中的每一对样本,我们计算了(1)细胞分裂次数和(2)它们之间的L1距离。
  4. 然后通过每个体外进化实验中细胞分裂次数与L1距离之间的线性回归模型的斜率获得突变率。
  5. 将L1距离除以突变率即可得到两个样本之间的细胞分裂次数。
  6. 在A459、HT29、HMEC和RPTEC细胞中验证HCT-116-ch3衍生的突变率时,按照上述方法进行,唯一的区别在于对于HMEC细胞,由于所有样本中扩增效率较低,即使某些多聚鸟嘌呤序列在所有样本中没有有效的代表性重复,仍将其包含在L1距离计算中。
Para_03
  1. 对于具有微卫星不稳定性(MSI)的结直肠癌(CRC),我们需要使用错配修复缺陷(MMRd)突变率来根据L1距离确定细胞分裂次数。
  2. 我们的临床信息包括通过免疫组化评估主要DNA错配修复蛋白(MLH1、MSH2、PMS2、MSH6)的表达,但这种方法无法识别所有MSI病例。
  3. 因此,我们利用自身聚鸟苷酸数据的特定特性筛选额外的MSI病例。
  4. 由于错配修复缺陷肿瘤携带比微卫星稳定肿瘤更大的缺失,我们将MSI定义为至少10%的聚鸟苷酸重复序列中存在大于1个碱基对缺失的癌症(补充图9)。
  5. 这种方法将患者C6、C12、C38、C92、C95和C102的结直肠癌分类为MSI。
  6. 回顾临床信息证实,在这些肿瘤中,除了C102外,至少一种错配修复蛋白的表达丧失了。
  7. 所有其他结直肠癌以及所有肺癌和头颈部鳞状细胞癌被分类为错配修复正常/微卫星稳定。
  8. 我们排除了所有分析中的错配修复缺陷肿瘤,因为在从受精卵到癌症最近共同祖先的谱系中,错配修复功能丧失可能发生在任何时间点。
Para_04
  1. 为了探讨 SCNAs 对我们细胞分裂估算的影响,我们在排除了位于反复改变的染色体上的多聚鸟嘌呤重复序列后,重新分析了我们的数据(包括体外进化实验和癌症样本中的细胞分裂估算)。
  2. 对于我们的结直肠癌患者队列,我们根据 TCGA 数据排除了 7、8、13、18 和 20 号染色体上的 24 个多聚鸟嘌呤重复序列。
  3. 通过基于下一代测序 (NGS) 的多聚鸟嘌呤指纹分析方法获得的数据(手稿正在准备中)表明,人类基因组中的大多数多聚鸟嘌呤重复序列是纯合的。
  4. 由于在纯合位点上的 SCNAs 只有在 SCNA 发生前引入插入缺失的情况下才会改变平均多聚鸟嘌呤长度,因此其高纯合性使得多聚鸟嘌呤重复序列对 SCNAs 在细胞分裂推断中的扭曲效应不那么敏感。
Para_05
  1. 为了获得纯度校正的细胞分裂数量,我们分析了先前发表的肺腺癌和结直肠癌样本中的多聚鸟嘌呤重复指纹。
  2. 对于肺腺癌样本,我们使用了来自全外显子组测序数据以及 ABSOLUTE 算法 v.1.5 的纯度估计值;而对于结直肠癌样本,则使用了低覆盖度全基因组测序数据(~1×),并通过 QDNASeq v.1.30.0 和 ACE v.1.12.0 R 包进行分析。
  3. 将多聚鸟嘌呤平均长度除以癌症样本的纯度,得到纯度校正后的平均长度(更多细节请参见补充说明 1 第 7 节和补充说明 4)。

Phylogenetic reconstruction

系统发育重建

Para_01
  1. 基于 L1 距离矩阵的系统发育树通过经典邻接法(neighbor-joining method)重建,该方法在 R 包 ape56 v.5.7.1 中实现。
  2. 使用 R 包 phytools57 v.1.5.1 中的‘reroot’函数将系统发育树以正常样本为根,并使用 ggtree R 包58 v.3.7.2 可视化。
  3. 系统发育树上样本的最近共同祖先(MRCA)通过 ape 包中的 mrca 函数确定。
  4. 原发肿瘤的多样化定义为从肿瘤 MRCA 到每对独特原发肿瘤样本 MRCA 的距离中位数(扩展数据图 6e)。
  5. 转移分歧定义为从肿瘤 MRCA 到每个转移病灶及其最近原发肿瘤区域 MRCA 的距离中位数(图 3g);95% 置信区间通过重新抽样多聚鸟嘌呤重复序列并考虑突变率估计的不确定性来计算。
  6. 具体而言,我们通过对位点进行 1,000 次自助重抽样生成了分裂次数估计值的自助分布,其中每次自助复制独立估计了突变率和 L1 距离,从而获得自助分裂次数估计值。
  7. 自助分布的 2.5% 和 97.5% 分位数给出了置信区间的上下界(扩展数据图 5)。
Para_02
  1. 通过计算体外进化树和重建树之间的四分体相似性,测试了体外进化树和多聚鸟嘌呤树的相似性。
  2. 四分体相似性为一表示树木完全相同,而零表示两棵树完全不同。
  3. 通过将真实的系统发育与实验系统发育的10,000个标签排列进行比较,生成了一个零分布。
Para_03
  1. 通过对从受精卵到肿瘤最近共同祖先(MRCA)的细胞分裂次数除以患者的诊断年龄加上从受精到出生的9个月再减去5年(考虑癌症起始与切除之间的时间),推断出正常结肠干细胞的分裂率。
  2. 对于正常的肠道干细胞扩增,从受精卵到肿瘤最近共同祖先的细胞分裂次数直接除以样本收集时患者的年龄加上从受精到出生的9个月。

Simulations of polyguanine evolution

多聚鸟嘌呤进化模拟

错误!!! - 待补充

Mutational burden analyses

突变负荷分析

Para_01
  1. 外显子单核苷酸突变负荷(每位患者的 SNVs 总数)从 cBioPortal for Cancer Genomics 获取的 TCGA 数据中确定。
  2. 仅包括错配修复正常 (MMRp) 和 POLE 野生型的结直肠癌 (CRC)。
  3. 归一化的突变负荷通过将每位患者的突变负荷除以所有患者的中位突变负荷计算得出。
  4. 由突变特征 SBS1 归因的突变负荷来自 Alexandrov 等人的补充数据。
  5. 具体来说,2019 年 10 月 18 日的表格 ‘PCAWG_sigProfiler_SBS_signatures_in_samples.csv’(ID syn11738669)从 Synapse 在线存储库 (https://www.synapse.org/Home:x) 中获取。

Independent classification of multifocal lung cancers

多灶性肺癌的独立分类

Para_01
  1. 我们队列中大多数多灶性肺癌患者(34例中的31例)的肿瘤也通过组织学分析和基于半导体的面板测序进行了评估,这是之前一项研究的一部分。
  2. 组织学和测序基础分类算法的详细描述可以在参考文献中找到。
  3. 简而言之,对于组织学分类,三位病理学家审查了癌症的组织学特征,并通过多数投票达成分类。
  4. 对于测序基础分类,在Ion Torrent S5 Prime平台上对409个与癌症相关的基因进行测序,比较了肿瘤之间的单核苷酸变异和插入缺失突变。
  5. 如果两个肿瘤共享一个被归类为‘致癌驱动因子’的突变以及至少一个‘非致癌驱动因子’突变,则它们被归类为转移瘤。

Statistics and other analyses

统计学和其他分析

Para_01
  1. 使用 Jupyter Notebook v.6.2.0 中的 R v.4.1.2 进行了统计分析。
  2. 统计检验为双侧检验,具体描述见图例说明。
  3. 在适当的情况下对多重假设检验进行了校正,仅显示调整后的 P 值。

Reporting summary

报告摘要

Para_01
  1. 有关研究设计的更多信息可在与本文相关联的《自然组合》报告摘要中获取。

Data availability

Para_01
  1. 包含所有多聚鸟嘌呤基因型的数据,可用于无限制地重现所有分析和图表,可从 https://doi.org/10.5281/zenodo.14269963 获得。

Code availability

Para_01
  1. 运行所展示的所有分析的代码可从 https://doi.org/10.5281/zenodo.14269963
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Main
  • Results
    • Translating polyguanine mutations to cell divisions
    • Estimating polyguanine mutation rates in vitro
    • Divisions en route to colorectal carcinogenesis
    • Divisions during CRC progression
    • Cell division histories of multifocal lung adenocarcinomas
    • Measuring the divergence time of potentially impure samples
  • Discussion
  • Methods
    • Tissue samples
    • In vitro evolution and estimation of polyguanine mutation rates
    • Mouse samples
    • Polyguanine fingerprinting
    • Calculating cell division numbers
    • Phylogenetic reconstruction
    • Simulations of polyguanine evolution
    • Mutational burden analyses
    • Independent classification of multifocal lung cancers
    • Statistics and other analyses
    • Reporting summary
  • Data availability
  • Code availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档