Basic Information 英文标题:The somatic mutation landscape of normal gastric epithelium 中文标题:正常胃上皮的体细胞突变图谱 发表日期:19 March 2025 文章类型:Article 所属期刊:Nature 文章作者:Tim H. H. Coorens | Michael R. Stratton 文章链接:https://www.nature.com/articles/s41586-025-08708-6 Abstract Para_01 正常细胞中的体细胞突变景观使我们了解了整个生命过程中运作的突变和选择过程,提供了关于正常衰老以及癌症发展的最早阶段的见解。 在这里,通过对30名个体(包括18名胃癌患者)的238个微解剖样本进行全基因组测序,我们阐明了正常和恶性胃上皮的发育轨迹。 我们发现胃腺是单克隆细胞群体的单位,每年大约积累28个体细胞单核苷酸变异,这主要归因于内源性突变过程。 在患有胃癌的个体中,化生腺往往显示出较高的突变负担,这是由于与增殖和氧化损伤相关的突变过程加速所致。 对于正常细胞来说,胃上皮细胞通常携带特定染色体的反复三体性,这种情况在部分个体中高度富集。 通过靶向测序调查了829个多克隆胃活检样本,我们发现在已知癌症基因的特殊谱系中存在体细胞‘驱动’突变,包括ARID1A、ARID1B、ARID2、CTNNB1和KDM6A。 随着年龄的增长,突变克隆的流行率增加,在60岁时大约占据胃上皮层的8%,并且严重慢性炎症的存在显著增加了这一比例。 我们的研究结果提供了对内在和外在因素影响胃上皮层体细胞进化的见解,涵盖了健康、癌前和恶性状态。 Main Para_01 在人的一生中,体细胞会在人体内获得体细胞突变,从而产生遗传多样性,并使组织中的自然选择成为可能。 然而,直到最近,与癌细胞相比,对正常细胞体细胞突变图谱的理解还比较有限。 然而,新的DNA测序方法已经使得探索正常体细胞基因组、阐明细胞谱系、估算突变率、评估潜在的突变过程以及检测携带赋予生长优势的突变基因的克隆成为可能。 这些突变图谱提供了关于个体一生中正常组织体细胞进化的见解,以及癌症早期发展的最早阶段的信息。 Para_02 胃肠道构成四个主要部分——食道、胃、小肠和大肠——它们依次处理摄入的食物材料,并与非常不同的管腔内容物相互作用。 正常上皮细胞的体细胞突变图谱最近被描述了食道5、小肠7和大肠6的上皮细胞。 胃包括几个解剖学和组织学上不同区域,包括贲门、胃底、胃体、小弯和大弯、幽门和胃窦。 胃的上皮层由分支腺体组成,这些腺体产生盐酸、消化酶和激素。 Para_03 胃癌是全球第五大常见癌症诊断,也是导致癌症相关死亡的第三大原因。 其发病率在地理上有所不同,在东亚和南美洲最高。 已知的风险因素包括幽门螺杆菌和Epstein-Barr病毒的感染、饮酒、吸烟、肥胖和饮食。 不同解剖区域的胃部,癌症风险和不同风险因素的影响差异显著,在高发地区,胃窦的风险最高。 而在低发地区,胃食管交界处的风险最高。 胃癌的流行病学表明,许多外源性因素通过暴露和慢性炎症影响胃部的体细胞突变。 慢性炎症可导致化生,即胃上皮重塑以类似于肠上皮,这被认为是显性癌症的前兆。 Para_04 我们研究了患有和未患有胃癌的捐赠者的胃上皮体细胞遗传多样性,并开始揭示正常年龄相关体细胞进化与恶性肿瘤之间的转变。 , Mutation rates of gastric epithelium Para_01 该队列包含30名个体,其中18名患有胃癌,12名没有胃部病理(随后分别称为‘癌症捐赠者’和‘非癌症捐赠者’),来自香港、美国和英国(补充表1)。 来自香港的捐赠者接受了幽门螺杆菌感染检测。 对217个胃腺进行了显微解剖并单独进行了全基因组测序,平均覆盖度达到23倍,同时还对两名个体的21个癌性腺体进行了测序(图1a和补充表2)。 此外,我们还对另外829个单个或集群的胃腺进行了已知癌症基因的目标测序。 所有类别的体细胞突变均通过标准方法检出(方法)。 Fig. 1: Clonality and mutation rates.
- 图片说明
◉ 这项研究的概述。从30名捐赠者身上采集了胃腺。◉ 对来自正常、发炎和/或化生胃组织的217个微解剖单个腺体以及21个胃癌腺体进行了全基因组测序,另外对829个微解剖(每个包含几个相邻的腺体)进行了深度靶向基因测序(seq.)。◉ 三个捐赠者的胃腺微解剖体中体细胞突变的VAF分布,按中位VAF着色。◉ 所有全基因组测序单个胃腺微解剖体(n=217)的中位VAF直方图。◉ 非癌症捐赠者胃腺的SNVs和indels数量与捐赠者年龄的关系图(n=79)。红色虚线表示基于混合效应模型的最大似然估计年龄和SNV突变负荷关系,灰色阴影区域表示95%置信区间。◉ d图中的P值是通过双侧方差分析测试获得的。◉ a图中的胃轮廓改编自Servier Medical Art(https://smart.servier.com/),采用国际CC BY 4.0许可。◉ a图中的激光捕获显微切割轮廓改编自参考文献8,Springer Nature Limited。◉ M代表男性;F代表女性。
Para_02 不同于肠道的直管状腺体,胃腺由向底部分支的管状结构组成,并且可能含有自我更新干细胞的潜在贡献。 先前的研究通过对X染色体失活的研究表明,胃腺最初是由多克隆单元组成的,并逐渐转变为单克隆,尽管多克隆腺体可能在整个生命过程中持续存在。 胃腺的克隆组成可以通过体细胞单核苷酸变异(SNVs)和小插入和缺失(indels)的变异等位基因频率(VAFs)来估计。 每个显微解剖样本的中位VAF通常超过0.25(图1b,c),考虑到一定程度的间质污染,这证实了大多数腺体主要由单一干细胞后代主导的观点,一个占据超过一半细胞的克隆。 在217个显微解剖样本中的8%(17个样本)中,中位VAF低于0.25或有多个克隆共存的证据,这表明存在多个干细胞生态位以及比在肠隐窝中观察到的更为复杂的层次结构。 Para_03 正常腺体中的体细胞单核苷酸变异总数在没有胃癌的12人中随着年龄的增长呈线性增加(图1d),因此他们的干细胞祖细胞每年积累大约27.8个单核苷酸变异(95%置信区间:16.2-39.4)和2.0个插入或缺失(95%置信区间:0.74-3.28)。 校正变异检测的敏感性后,腺体的克隆性(即,中位VAF)与突变负荷之间没有相关性(扩展数据图1a),这取决于测序深度和观察到的VAF分布。 Para_04 胃癌供体胃腺的显微切割中的SNV和indel负担主要遵循在没有胃癌的个体中观察到的与年龄相关的增加(图2a–c),但肠上皮化生(IM)(n = 19,SNV的P = 1×10^-42,indel的P = 1.8×10^-49,方差分析(ANOVA)检验)除外。 尽管慢性炎症在非癌症和癌症供体中都很普遍,但在我们的队列中,IM无论是完全还是不完全的,仅限于胃癌个体的幽门部。 平均而言,与年龄预期负担相比,化生性腺中的突变负担分别增加了2.8倍和4.4倍(SNV和indel)(图2e)。 与非化生性腺相比,化生性腺在每次显微切割中表现出总体更高的中位变异等位基因频率(P = 0.006,Wilcoxon秩和检验;扩展数据图1b)。 当解剖位置接近时,化生性腺在系统发育上是紧密相关的(扩展数据图2a,c),这表明化生克隆局部扩展。 然而,在同一供体中距离较远的化生性腺在早期发育后在系统发育上是无关的(扩展数据图2a,b),这表明化生诱导存在更广泛的‘场效应’。 Fig. 2: Gastric segments, chronic inflammation and metaplasia.
- 图片说明
◉ 散点图显示了供体年龄与胃腺(a)中单核苷酸变异数量的关系,分别针对非癌症供体(上排)和癌症供体(下排),根据示意图 d 中所示的采样胃部区域进行颜色编码。◉ 图中红线表示从非癌症供体的胃腺中估计出的最大似然年龄与单核苷酸变异突变负荷关系(图 1d),灰色阴影区域表示 95% 置信区间。◉ b,慢性炎症状态。◉ c,肠化生的存在。◉ d,胃部解剖示意图。◉ e,癌症供体(n = 138)中腺体显微切割样本的观察到的与年龄相关的预期单核苷酸和插入缺失突变负荷比率的箱线图,其中包含和不包含肠化生。◉ 箱线图中的中央线、箱子和须分别代表中位数、四分位间距(IQR)从第一到第三四分位数以及 1.5×IQR。◉ P 值由双侧 Wilcoxon 秩和检验获得。◉ 注:图 d 中的胃轮廓来自 Servier Medical Art(https://smart.servier.com/),采用 CC BY 4.0 国际许可。
Para_05 注释当前或以前的H. pylori状态仅被少数供体知晓,并未显著影响SNV负担(P = 0.74,ANOVA检验;扩展数据图1c)。然而,未检测到的感染可能影响突变率,这排除了对此关系得出明确结论的可能性。 与正常或肠上皮化生胃腺中的突变负荷相比,从胃癌中微解剖出的腺体的SNV和indel负担显著增加(扩展数据图1d,e)。 通过全基因组测序(WGS),我们估计胃腺的端粒每年平均缩短38个碱基(95%置信区间:25-53),在中度或重度慢性炎症存在的情况下,端粒显著缩短了570个碱基(P = 6×10^-5,ANOVA检验;扩展数据图1f)。 除了慢性炎症的影响外,肠上皮化生并未进一步缩短端粒长度(P = 0.11,ANOVA检验)。 Mutational signatures and processes Para_01 突变特征是特定突变过程在基因组上留下的突变模式。 可以使用数学方法对它们进行解卷积和归因,从而确定它们对个体样本中体细胞突变的贡献。 在癌症和正常细胞中已经报道了超过70种单碱基替换(SBS)参考特征(https://cancer.sanger.ac.uk/signatures)。 Para_02 使用所有胃腺的全基因组体细胞突变目录,提取了九种突变特征(图 3a–d 和扩展数据图 3–4),这些特征之前均已报道过19,20(方法):SBS1,由于5-甲基胞嘧啶自发脱氨基;SBS2 和 SBS13,由于载脂蛋白BEC胞苷脱氨酶的活性,并且仅在PD41759肿瘤中发现(图 3d);SBS3,由于同源修复缺陷,并且仅在PD41759中发现(图 3d);SBS5/SBS40,病因不明但认为是内在起源;SBS17a 和 SBS17b,病因不明但有时与化疗药物5-氟尿嘧啶的暴露或游离核苷酸池的氧化有关21;SBS18,由于活性氧引起的DNA损伤;以及SBS28,病因不明。 Fig. 3: Mutational signatures.
- 图片说明
◉ a–d,来自四位不同胃癌供体的胃腺的系统发育树。a,PD40294(仅非肠化生腺体)。b,PD41760(肠化生和非肠化生腺体)。c,PD41762(仅肿瘤)。d,PD41759(肿瘤、肠化生和非肠化生腺体)。每个分支上叠加了突变特征比例,并且不同的特征由不同的颜色表示(见图例)。分支长度代表每个分支上的SNV数量。注意d中的y轴断开。星号表示具有IM的腺体,癌症中的腺体微解剖在系统发育图中表示。◉ e,在19个来自肠化生腺体的微解剖样本中,通过比较这些特征的观察突变负担与预期负担,估算SBS1、SBS5/40和SBS18的倍增数。P值是通过双侧Wilcoxon秩和检验获得的。中央线、框和须分别代表中位数、四分位间距从第一到第三四分位数以及1.5倍四分位间距。◉ f,样本中ID1插入次数与ID2缺失次数的关系,两者均与聚合酶滑移有关。◉ g,正常腺体、肠化生腺体和肿瘤样本中ID2缺失与ID1插入的比例。中央线、框和须分别代表中位数、四分位间距范围从第一到第三四分位数以及1.5倍四分位间距。P值是从双侧Wilcoxon秩和检验获得的。ROS,活性氧;HRD,同源修复缺陷。
Para_03 大多数正常胃腺中的SNV可以通过SBS1、SBS5/40和SBS18来解释(图3a,b),这些都在所有胃腺中被检测到。 SBS1和SBS5/SBS40普遍存在于人类癌症19以及正常细胞1中。 SBS18出现在许多正常细胞类型中,尤其是在细胞分裂速率较高的细胞类型中6,8,11。 在正常、非化生性胃腺中,由SBS1、SBS5/40和SBS18引起的突变负担与年龄呈线性相关(扩展数据图5)。 在化生性胃腺中发现的高于预期的SNV突变负担是由于SBS1(大约3倍)和SBS18(大约8倍)的突变负担增加,但SBS5/40的突变负担没有显著变化(大约1倍)(图3e)。 Para_04 插入缺失的特征分析显示,胃腺体普遍表现出ID1和ID2——分别代表单碱基插入和删除——这些出现在T/A同聚物链上,并与聚合酶滑动有关,以及ID5和ID9,两者都表现为同聚物上的删除,但具体原因未知(扩展数据图6a,b)。 在化生腺体中观察到的插入缺失过量主要由ID1和ID2组成(图3f和扩展数据图6c),但在化生腺体中ID2与ID1的比例显著高于其他非癌腺体,并且更接近于胃癌样本中的比例(图3g)。 Para_05 一小部分患有胃癌个体的正常胃腺也表现出适度的SBS17a和SBS17b负担(图3b)。 大量的SBS17a和SBS17b突变负荷在食管腺癌22及其前体病变巴雷特食管23中很常见,如这里测序的两种癌症所示(图3c,d)。 相比之下,在正常胃组织中很少观察到这些突变特征,这表明导致SBS17a和SBS17b的突变过程主要是肿瘤细胞的特征。 然而,SBS17a和SBS17b仅在另一种正常细胞类型(B淋巴细胞9)中被发现,因此胃上皮细胞似乎特别容易产生它们和/或存在诱导它们的胃微环境因素。 Para_06 胃癌中解剖出的腺体的突变特征模式与正常腺体的明显不同。 虽然仍然表现出上述普遍存在的单核苷酸变异和插入缺失特征的贡献,但癌症显示出SBS17a和SBS17b,以及SBS3和ID6(同源修复缺陷),SBS2和SBS13(APOBEC活性)(图3c,d)和ID14(未知病因)的大量贡献,这与先前报道的系列一致19。 Recurrent trisomies in gastric glands Para_01 体细胞拷贝数变异(CNVs)和结构变异在少数正常胃腺(217个中的73个)中被观察到,但其频率仍然远高于迄今为止研究过的其他正常人类细胞类型1,6,11(图4a、b)。 此外,胃上皮中的CNVs表现出一种高度独特的模式。 染色体内CNVs和结构变异主要为缺失,并且涉及FHIT、PTPRD和MACROD2等众所周知的脆弱位点(参见文献24,25)。 尽管这些位点在胃癌中已有报道24,但目前尚不清楚所观察到的事件是由于该位点突变率高还是因为数据中的正向选择。 染色体臂水平的事件均为无杂合性丢失的拷贝数中性(cnn-LOH),而整条染色体的事件则完全由体细胞三体性组成,主要是第13号和第20号染色体。 值得注意的是,三体性集中在某些个体中,并且常常在同一个人身上独立发生多次(图4b)并且在相似的年龄(扩展数据图7)。 三体性的独立起源是从系统发育树的拓扑结构推断出来的(图4c、d)。 这一结论进一步通过样品之间三体染色体上的不同复制SNV的存在以及不同胃腺中不同亲本拷贝的复制得到证实。 Fig. 4: CNVs and recurrent trisomies.
- 图片说明
◉ a, 在全基因组测序样本中,根据事件大小划分的独特CNVs概览,并进一步按特定位置或染色体划分。◉ b, 热图显示每个供体的微解剖数量与特定类别的结构变异(SVs)或CNVs的数量,以及供体队列、年龄和全基因组测序微解剖的数量。◉ c,d, 两个供体胃腺的系统发育树中,重复获得13号或20号染色体的结构变异(删除、复制或倒位)数量的点图,供体PD40293(c)和PD41767(d)。◉ 分支长度表示每个分支上的SNV数量。增益的时间由红色(20号染色体)、蓝色(13号染色体)或黑色(17号染色体长臂cnn-LOH)的点表示,彩色实线代表基于受影响区域中CNV的重复和非重复SNV数量的此估计值的95%泊松置信区间(具体数字见补充表4)。◉ 数字表示获得的亲本等位基因。星号表示来自化生腺体的微解剖。◉ Del.,删除;dup.,复制;inv.,倒位。
Para_02 例如,在一位64岁的胃癌男性患者中,对12个胃腺中的6个分析显示染色体20三体性,3个显示染色体13三体性,1个显示17q杂合性丢失。 8个腺体仅显示出单一的拷贝数变异,1个腺体同时表现出染色体13和染色体20的三体性。 因此,12个腺体中有9个显示出拷贝数变异,表明相当大比例的胃上皮已被携带拷贝数变异的细胞占据。 结果显示,在12个被采样的腺体中有5个独立的染色体20的重复,其中三个来自一个亲本副本,两个来自另一个。 另外,在这12个腺体中有两个独立的染色体13的重复。 通过使用重复和非重复单核苷酸变异的比例,我们估计所有五个染色体20的三体性大约在生命早期发生,可能是在12岁左右或更早。 两次染色体13的重复大约在22岁左右或更早发生,而17q的杂合性丢失大约在35岁左右或更早发生。 对胃癌基因组的分析表明,染色体20的三体性主要是早期事件,这与这里估算的时间尺度相一致。 Para_03 通过询问 PD40293 的面板测序数据中的染色体 20 上的 SNP,并使用来自 WGS 数据的单体型信息(扩展数据图 8),我们进一步能够识别出三体性 20 的微解剖样本(65 个中有 23 个),证实了这种体细胞改变的广泛性。 在这个供体中,面板和全基因组测序样本中染色体 20 的三体性发生的频率在胃底(34 个中有 21 个)和胃体(17 个中有 6 个)中明显高于幽门(24 个中有 2 个)(P = 4.5 × 10^-5,Fisher 精确检验)。 Para_04 这种胃腺CNVs的独特模式的原因尚不清楚。 在PD41767中,在一个严重发炎的幽门部位胃活检中的十个腺体中有四个检测到三体性,但在另一个炎症程度较轻的幽门部位样本中的七个腺体中完全没有检测到。 年龄和化生的存在对染色体内结构变异和CNVs的负担有显著影响(分别为P=0.01和P=10^-14,ANOVA检验)。 尽管三体性的负担与年龄(P=0.38)、化生(P=0.84)或供体是否患有胃癌(P=0.63)之间没有显著的线性关联,但与严重的慢性炎症有显著关联(P=0.004;所有测试均为ANOVA检验)。 Para_05 我们的数据显示,全染色体重复并非随着年龄增长而持续增加,而是每个个体生命历程中的某个特定时间点产生的,并且可能局限于胃的特定区域。 获得或选择这些三体的过程显然与肠上皮化生或癌变无关,但可能存在与慢性炎症之间的联系。 尽管只有一个携带三体的捐赠者已知感染了幽门螺杆菌,但三体在空间和时间上的局限性以及与炎症的关联表明,可能涉及某种病原体的暴露或感染。 Driver mutations in gastric glands Para_01 为了系统地识别正选择下的基因,我们在另外829个多克隆显微切割样本中对217个腺体的全基因组数据进行了补充,并针对321个已知癌症基因进行了靶向测序(方法)。 七种突变基因显示出统计上显著(q < 0.1)的正选择证据(图5a-c):ARID1A、ARID1B和ARID2,SWI/SNF染色质重塑复合物的亚基;CTNNB1,WNT信号通路转导器和细胞粘附分子;KDM6A,组蛋白甲基化调节因子;LIPF,编码胃脂酶;以及EEF1A1,一种翻译延伸因子。 所有这些基因,除了LIPF和EEF1A1之外,均已被报道在胃癌中频繁突变27。 LIPF是在胃上皮中高度表达的基因,可能容易发生加速突变,正如先前在胃癌中报道的那样28。 Fig. 5: Driver mutations.
- 图片说明
◉ a, 按功能效应划分的基因显著正选择下的突变数量。◉ b, 正选择下的基因的dN/dS比率按类型划分。◉ c, 每位供体特定驱动突变分布的热图。◉ d, 基于单个腺体的全基因组测序数据的供体PD42790(80,男性)的系统发育树,注释了推定的驱动突变,并附有来自两个区域的组织学图像,图像上叠加了驱动突变及其VAF,包括全基因组测序的显微解剖样本(用WGS表示)和panel测序的显微解剖样本簇。标尺,1毫米。
Para_02 有趣的是,在正常的胃腺中观察到的CTNNB1突变主要是一些导致蛋白质截短的无义替换和散布在整个基因足迹中的移码插入缺失,这些可能使编码的蛋白失活。 这与在胃癌和其他许多癌症类型中报道的聚集热点错义CTNNB1替换模式形成对比,后者特征是原癌基因激活。 正常细胞和癌细胞在CTNNB1突变模式上的这种差异原因尚不清楚,但可能再次突显了正常细胞在正常组织中生存所需的不同的选择性优势和作为癌细胞生存所需的不同的选择性优势之间的不同。 Para_03 在某些情况下,驱动突变的发生被高度限制在特定的位置。例如,PD42790携带了三个独立的CTNNB1移框突变(在这位供体检测到的四个CTNNB1突变中)在毫米范围内,这表明对这些突变有利的局部选择压力特别强(图5d)。 Para_04 可能的驱动突变在另一组基因中被识别,尽管这些基因未达到正式显著水平,但它们出现在已知错义突变热点的显性作用癌症基因(BRAF、KRAS)中,此外,一些肿瘤抑制基因中的蛋白截断突变(APC、BCOR)也可能赋予了克隆生长优势。 然而,在正常胃腺中并未观察到TP53和PIK3CA基因的突变,尽管这两种基因在胃腺癌中以及在某些其他正常细胞类型中很常见。 WGS数据中的驱动突变主要局限于单个微解剖样本(扩展数据图3和图4),并且尽管在化生腺体中未发现驱动突变富集(P = 1),但严重慢性炎症腺体中显著富集了驱动突变(P = 0.01,Fisher精确检验)。 通过全基因组和panel测序调查的胃上皮所占比例,由突变克隆定植同样依赖于年龄(P = 0.002)和严重慢性炎症(P = 0.001),但不依赖于化生(P = 0.86,ANOVA检验)(扩展数据图9a、b)。 虽然年龄依赖性可以通过与年龄相关的突变负担增加来解释,但慢性炎症对突变比例的影响持续存在,并且超出了突变负担的差异(扩展数据图9c)。 平均而言,在60岁个体中,大约7.8%的腺体被具有驱动突变的克隆定植。 Discussion Para_01 胃肠道四个主要部分——食道、胃、小肠和大肠——的体细胞突变图谱现在已经被初步调查,展示了相似性和差异性。 这些部分的上皮细胞与非常不同的管腔内容物接触;这些内容物包括食道中的空气和食物的高度可变温度、胃储库中的酸性和无菌内容物、小肠中的中性内容物和有限的微生物群以及大肠中丰富的、多样的微生物群。 然而,总体而言,体细胞突变率和突变特征的差异是适度的。 Para_02 所有四个胃肠道段显示出大致恒定的突变率,从食道和胃中的大约每年30个SNVs到小肠和大肠中的大约每年50个SNVs,这些主要由SBS1、SBS5/40和SBS18背后的生物过程产生,这些过程被认为是主要来源于内源性的,尽管在不同的相对贡献中。 除了这些普遍存在的突变特征外,还发现其他特征仅存在于胃肠道的部分区域。 由于载脂蛋白脱氨酶APOBEC的活性,SBS2和SBS13在小肠上皮细胞中很常见,但在食道、胃或大肠中很少见,可能是因为小肠上皮细胞中有较高的APOBEC1活性。 同样地,由于暴露于大肠杆菌素colibactin(一种存在于微生物组中的大肠杆菌菌株的诱变产物)导致的SBS88,在大肠上皮细胞中很常见,但在胃肠道的其他部分很少见。 如这里所示,SBS17a和SBS17b偶尔出现在正常胃上皮中,但未在胃肠道其他正常细胞中报道过。 这种胃肠道各段之间突变过程的相似程度,可能是对各种保护机制有效的证明,这些机制介导了管腔内容物与上皮干细胞之间的相互作用。 Para_03 与单核苷酸变异(SNV)和插入缺失突变模式的适度差异(除外化生)相比,胃上皮在部分个体中反复生成了7号、13号、18号和20号染色体的三体性,这是一种在胃肠道其他区域或胃肠道外细胞类型中未发现的高度独特模式。 仅在部分个体中生成的几种不同染色体的三体性模式表明可能存在一种微环境,该微环境增加了染色体复制的速率或选择携带这些三体染色体的干细胞来殖民腺体并克隆性扩展。 然而,在胃癌患者中并未发现携带三体染色体的腺体富集现象,且这些腺体并不携带特定的驱动突变,但可以与化生共存。 尽管与炎症有关联的可能性很大,但引发刺激的确切性质尚不清楚。 Para_04 胃肠道四个段落中具有已知癌症基因驱动突变的细胞克隆的景观也存在显著差异。 在食道中,大约60%的正常鳞状上皮在60岁个体中被具有驱动突变的细胞克隆占据。 在小肠和大肠的隐窝中,这一比例要低得多,约为1%(参考文献6,7)。 而胃腺上皮中有5%被具有驱动突变的克隆占据。 这些差异至少部分反映了上皮结构,食道的连续分层鳞状上皮表皮允许克隆的横向扩散, 而小肠和大肠的隐窝结构阻碍了克隆,使具有驱动因子的克隆无法超出单个隐窝的范围。 在胃中,坑向管状结构的分支以及可能反复的损伤和修复, 可能允许上皮衬里比在肠道中更广泛的定植。 不同上皮中频繁突变的基因集也有所不同, 在食道中,NOTCH1、NOTCH2和TP53编码参与伤口愈合、细胞增殖和DNA损伤反应的蛋白质占主导地位, 而在胃中,编码染色质重塑复合物亚单位、组蛋白甲基化调节剂和细胞粘附蛋白的基因占主导地位, 这与正常膀胱上皮中选择性突变基因的集合仍然不同,但仍然更类似于正常膀胱上皮中的突变基因集合。 Para_05 这项研究探讨了与胃部早期肿瘤变化相关的体细胞突变的变化。 具有肠上皮化生(IM)的胃腺通常与慢性炎症和局部克隆扩展相关,由于SBS1(甲基胞嘧啶脱氨基)、SBS18(活性氧)、ID1和ID2(复制链滑移)以及染色体内结构变异突变率的增加,其总突变负担增加。 这些突变的变化可能反映了化生腺体中细胞分裂速率的增加,可能是这些细胞固有的其他因素的结果,或者是由微环境影响引起的,如邻近的慢性炎症。 患有克罗恩病和溃疡性结肠炎这两种炎症性肠病的肠道上皮细胞也显示出较高的突变负担,且SBS18突变的比例增加。 然而,具有较高突变负担的胃化生腺体与预期负担的非化生腺体近距离相邻,且在慢性炎症区域存在没有较高突变负担的胃腺体,使得胃部炎症与突变率之间的关系不确定。 化生腺体中的高突变负担可能有助于与IM相关的癌症风险增加。 Para_06 在这项研究中,严重的慢性炎症与胃腺中驱动突变数量的增加和整体突变上皮比例的升高显著相关,突显了慢性炎症在塑造前肿瘤选择景观中的作用,正如在炎症性肠病中所确定的一样。 除了炎症的作用外,这一比例在不同供体之间存在较大差异,可能表明了供体之间的选择压力存在差异。 更大规模的研究可能更有能力发现进一步施加特定克隆选择的暴露或其他因素,就像在食道中发现的吸烟一样, 并通过化生和异型增生促进正常细胞向明显肿瘤的转化。 Para_07 胃上皮细胞因此展示出体细胞突变的图谱,其中一些与其它胃肠道上皮细胞相似,但有许多不同之处。 这些差异可能反映了内在细胞生物学、组织结构、肠道内容物、早期肿瘤性变化过程以及目前未知的影响因素之间的差异,共同塑造了体细胞突变的图谱。 Methods Ethics statement and sample collection 伦理声明和样本采集
Para_01 冷冻干燥的胃活检样本来自三个来源: [ol]- 1. Multisite sampling performed on gastrectomy specimens removed as part of either gastric cancer treatment or bariatric surgery. Written informed consent for participation in research and publication of data was obtained from all donors in accordance with the Declaration of Helsinki and protocols approved by the relevant research ethics committees (RECs): (1) source country approval by the IRB of the University of Hong Kong/Hospital Authority of Hong Kong West Cluster, REC approval reference number UW14-257; (2) UK NHS REC approval from the West Midlands-Coventry and Warwickshire REC, approval number 17/WM/0295, UK Integrated Research Application System project ID 228343. - 2. Multiregion gastric biopsies from transplant organ donors with informed consent for participation in research and publication of data obtained from the donor’s family as part of the Cambridge Biorepository for Translational Medicine programme (UK NHS REC approval reference number 15/EE/0152; approved by NRES Committee East of England—Cambridge South). - 3. Gastric samples obtained at autopsy from AmsBio (commercial supplier). UK NHS REC approving the use of these samples: London-Surrey Research Ethics Committee, REC approval reference number 17/LO/1801. Para_02 进一步的捐赠者元数据可以在补充表1中找到,所有样本的元数据可以在补充表2(全基因组测序)和补充表3(目标面板测序)中找到。 没有使用统计方法来预先确定样本量,我们也没有使用盲法或随机化。 Laser capture microdissection and low-input DNA sequencing 激光捕获显微切割和低输入DNA测序
Para_01 胃组织活检被包埋、切片,并用于显微解剖,具体方法如先前详细描述2。 DNA文库是通过显微解剖使用酶切片段化构建的,并随后提交给Illumina HiSeq X Ten或NovaSeq平台进行全基因组测序或靶向测序面板。 平均测序覆盖率见补充表2(全基因组测序)和补充表3(靶向测序面板)。 Para_02 我们使用了一个定制的安捷伦SureSelect捕获组来捕获321个与癌症相关的基因的外显子区域(详见补充表7)。 DNA sequence processing, mutation calling and filtering DNA序列处理、突变检测和过滤
Para_01 DNA序列通过Burrows-Wheeler算法与GRCh38参考基因组进行了比对。 使用CaVEMan检测单核苷酸变异(SNVs),使用Pindel检测插入缺失突变(indels)。 使用GRIDSS和ASCAT分别检测拷贝数变异(CNVs)和结构变异。 GRIDSS和ASCAT检测到的CNVs列于补充表4中(CNVs,GRIDSS和ASCAT)。 GRIDSS单独检测到的染色体内结构变异列于补充表5中。 Para_02 在CaVEMan的标准后处理过滤器之外,我们通过将支持突变的读取的中位对齐分数设置为大于或等于140(对齐分数中位数(ASMD)≥140),并且要求少于一半的读取被剪切(剪切中位数(CLPM)= 0),从而去除了受与Burrows-Wheeler算法相关的映射伪影影响的变异。 Para_03 我们强制调用了在给定供体的所有样本中任何样本中检测到的SNV和indel,在应用Sequoia管道进行突变过滤和系统发育重建之前,使用了读取映射质量(30)和碱基质量(25)的截止值。 Para_04 作为突变过滤的一部分,使用单侧二项精确检验去除了种系变异,该检验基于主要为二倍体样本中的变异读取数量和深度。 得到的P值使用Benjamini–Hochberg方法进行了多重检验校正,并将截止值设定为q < 10^-5。 为了过滤掉反复出现的SNV和插入缺失伪影,我们对来自同一个体样本的支持变异的读取数和总深度拟合了beta-二项分布。 对于每个插入缺失或SNV,我们估计最大似然过离散参数(ρ)(log10(ρ)的值从-6到-0.05以0.05为步长变化)。 由于伪影变异出现在样本中的随机读取中,它们通过低过离散最好地被捕捉到,而真正的体细胞SNV和插入缺失将在某些样本中表现出高VAF,但在其他样本中完全不存在,因此高度过离散。 为了区分伪影和真实变异,我们将SNV的阈值设为ρ = 0.1,将插入缺失的阈值设为ρ = 0.15,低于此阈值的变异被视为伪影。 这种过滤方法是对Shearwater变异调用器的改进。 Para_05 我们使用了一个截断的二项混合模型来将每个全基因组样本建模为克隆的混合体,确定潜在的VAF峰值和相应样本的克隆性,如先前所述3,37。 截断分布是必要的,用以反映变异调用器(如CaVEMan)所规定的支持变异的最小读取次数(n = 4)。 Para_06 系统发育树使用Sequoia37重建,该软件使用最大简约法框架,如MPBoot39中所实现,并采用默认设置。 突变映射到分支上是使用treemut R软件包完成的。 Mutation rate analysis 突变率分析
Para_01 为了纠正测序深度和检测到的突变数量之间的混淆,我们通过除以估计的敏感性来校正观察到的突变负荷。 敏感性被估计为在至少四个读长中观察到变异的概率,考虑到每个样本的基础覆盖分布和每个样本观察到的变异等位基因频率峰值。 平均估计的敏感性为0.95,中位数为0.97。 原始和调整后的突变负荷估计值(包括插入缺失和单核苷酸变异)列于补充表2。 Para_02 为了估算正常胃上皮中的突变率,我们使用了一个线性混合效应模型,其中年龄作为固定效应,供体作为随机效应,对非癌症捐赠者的胃腺突变负荷估计进行了分析: [ol]- 1. Burden ~ (distributed as) Age + (1|Donor) We assessed the effects of chronic inflammation (CI, coded as absent or mild versus moderate or severe) and IM (absent or present) by using these alternative models: - 2. Burden ~ Age + CI + (1|Donor) - 3. Burden ~ Age + IM + (1|Donor) - 4. Burden ~ Age + IM + CI + (1|Donor) Models 2 and 3 significantly outperform model 1 (P < 2.2 × 10−16), and although model 4 outperforms model 2 (P < 2.2 × 10−16), it does not significantly outperform model 3 (P = 0.11). Therefore, presence or absence of IM and age predict mutation burden the best. To test the effect of gastric site on the mutation rate, we included site-specific age relations in the mixed-effects model: - 5. Burden ~ Age:Site + IM + (1|Donor). Para_03 这个模型并未显著优于模型2(P=0.4547)。 Telomere length analysis 端粒长度分析
Para_01 WGS样本的平均端粒长度是使用telomerecat算法估算的,该算法利用了读取中TTAGGG端粒重复序列的流行程度。NovaSeq平台测序的样本被排除在这项分析之外,因为我们之前观察到此类样本存在不一致的结果,例如端粒长度为0 bp。 我们之前观察到此类样本存在不一致的结果 Para_02 同样地,在突变负荷分析中,我们使用了一个线性混合效应模型来评估年龄、IM和慢性炎症对端粒长度的影响: [ol]- 1. Telomere length ~ Age + (1|Donor) - 2. Telomere length ~ Age + CI + (1|Donor) - 3. Telomere length ~ Age + IM + (1|Donor) - 4. Telomere length ~ Age + IM + CI + (1|Donor) Para_03 模型2的表现显著优于模型1(P = 0.0005),而模型4的表现并未显著优于模型2(P = 0.14)。包括IM注释并不能改善模型拟合。因此,慢性炎症和年龄最能预测端粒长度。 Mutational signature analysis 突变特征分析
Para_01 为了识别人类胎盘中可能未被发现的突变特征,我们在所有显微解剖样本的96个三核苷酸计数上运行了层次狄利克雷过程(HDP)包(https://github .com/nicolaroberts/hdp),这些样本被分为系统发育树的不同分支。 为了避免过拟合,包含少于50个突变的分支未被纳入特征提取。 HDP以不同的供体作为层级进行运行,使用了20条独立链,40,000次迭代和20,000次预热。 Para_02 HDP得出的结果进一步通过期望最大化混合模型分解为已知COSMIC参考签名(版本3.4)的线性组合。 如果得到的参考签名的线性组合与原始提取签名之间的余弦相似度超过0.90,则接受这种分解。 这导致HDP签名被分解为参考签名SBS1、SBS2、SBS3、SBS5、SBS13、SBS17a、SBS17b、SBS18、SBS28、SBS40a和SBS40c。 然后使用SigFit41将这些签名拟合到所有观察到的单核苷酸变异计数上。 每个样本的签名暴露量可以在补充表2中找到。 Para_03 值得注意的是,SBS5和SBS40具有相对平坦且特征不明显的突变谱,可能难以彼此区分,因此在分析中将它们合并在一起,正如先前的报告所述1,42。 Para_04 特定突变特征在化生腺体中的折叠增加量与非化生腺体相比被估计了。 这句话没有出现在原文中,是为了达到至少两句的目的而假设的。 [ol]- 1. Calculating the observed number of mutations incurred by each signature by multiplying the sensitivity-corrected mutation burden with the estimated signature exposures per sample. - 2. Calculating the expected number of mutations incurred by each signature by multiplying the expected mutation burden, given the age of the donor and the average mutational signature distribution of all non-metaplastic glands of that donor. The latter accounts for any donor-specific differences in mutational signatures that may be present. - 3. Dividing the observed over the expected mutation numbers per signature. Para_05 提取插入缺失签名的过程与上述单核苷酸变异相同。 由此产生的五个HDP插入缺失签名被解卷积成COSMIC参考签名ID1、ID2、ID5、ID6、ID9、ID12和ID14。 HDP插入缺失签名5是一种由大删除定义的嘈杂签名,并未进一步分解,因为没有一种参考签名组合能产生足够高的与提取签名的余弦相似度。 由于SigFit41不兼容插入缺失签名,因此将HDP签名的暴露转换为参考签名的暴露,使用解卷积得到的估计签名比例。 每个样本的签名暴露可以在补充表2中找到。 Selection analysis and driver annotation 选择分析和驱动注释
Para_01 我们使用了 dNdScv27 R 包来识别受到正选择的基因。 对于目标面板中的基因,我们将来自全基因组测序数据和靶向测序数据的数据进行了合并。 由于全基因组测序数据和靶向测序数据之间的覆盖度/克隆性差异会影响非同义突变和同义突变,这种混合数据可以安全地输入到 dNdScv 中,如同先前的研究一样。 为了避免由于多次微解剖采样相同的克隆而导致突变发生率被高估,我们对每个供体的特定突变只计数一次。 q 值低于 0.1 的基因被认为是受到选择的,这些基因包括 ARID1A、ARID1B、ARID2、CTNNB1、EEF1A1、LIPF 和 KDM6A。 Para_02 此外,我们使用 WGS 数据寻找了基因面板外的选择迹象。这并没有发现任何进一步受到选择的基因。 Para_03 为了识别与癌症相关但在阳性选择分析中未出现的基因突变,我们回顾了所有突变以寻找典型的癌症驱动突变,并标注可能的候选者。 简而言之,这涉及通过查询COSMIC数据库来注释原癌基因中的热点突变以及肿瘤抑制基因中的失活突变( nonsense、missense 和移码插入缺失)。 注释后的驱动突变列于补充表6中。 Estimate of proportion of epithelium with driver mutation 上皮组织中携带驱动突变的比例估计
Para_01 为了估计携带驱动突变的胃上皮的比例,我们依赖于微解剖面积的测量和样本中携带驱动突变的细胞比例的估算。 这个细胞比例通过将突变的VAF(变异等位基因频率)乘以局部倍性(男性供体的性染色体为1,否则为2)来简单获得。 将突变细胞比例与采样上皮面积相乘,得到突变上皮面积的估计值。 通过将所有突变上皮面积相加,并除以采样的总上皮面积,我们得出了被携带驱动突变的克隆所占据的胃上皮比例的估计值。 对于这一分析,我们使用了由dNdScv鉴定为受选择压力的基因中的破坏性突变(错义、无义、移码和剪接突变),以及手动注释的驱动突变(参见前一部分)。 Para_02 这种方法假设整个显微切割区域由胃上皮组成。任何污染物细胞类型都会降低胃克隆中突变的等位基因频率,并因此减小估算的突变体大小。因此,估计的上皮比例可能会被略微低估。 因此,估计的上皮比例可能会被略微低估。 Para_03 评估年龄、慢性炎症和IM对胃上皮比例的影响使用了一组线性模型: [ol]- 1. Mutant_proportion ~ Age - 2. Mutant_proportion ~ Age + CI_grade - 3. Mutant_proportion ~ Age + IM_proportion Para_04 这些模型通过双侧方差分析检验相互比较。 模型2比模型1具有显著更好的拟合度(P = 0.002)。 模型3相比模型1没有显著改进(P = 0.86)。 年龄的影响在所有模型中都是显著的。 在模型2中,严重的慢性炎症是显著的(P = 0.001)。 CNV timing CNV定时
Para_01 假设突变率恒定,通过比较在复制之前和之后获得的大拷贝数重复(如三体或导致拷贝数中性杂合性丧失的事件)的比例,可以计算出这些重复的时间。 这些比例可以通过根据变异等位基因频率对单核苷酸变异进行聚类来估计。 与之前的方法一样,我们使用二项混合模型,利用变异支持读取和总读取的数量来估计复制和未复制突变的比例。 根据CNV的预期变异等位基因频率,将突变簇分配为复制或未复制。 例如,对于一个三体事件,两个变异等位基因频率簇将对应两种不同的拷贝数状态:0.66(复制,突变发生在三个拷贝中的两个上)和0.33(未复制,突变发生在三个拷贝中的一个上)。 Para_02 根据重复(PD)和非重复(PND)的比例,总拷贝数(CNtotal)和重复拷贝数(CNdup),可以估算拷贝数变异的时间(T)如下: Para_03 CNV 时间值将在 0 和 1 之间,对于这里使用的系统发育树而言,这对应于获得 CNV 的分支的起点和终点。 为了在单一时间点估计周围获得一个置信区间,我们对四舍五入后的重复和非重复突变计数使用了精确的泊松检验。 Identifying trisomy 20 in panel sequencing data in PD40293 在PD40293的面板测序数据中识别20三体综合征
Para_01 由于基因组采样稀疏以及诱饵捕获不均匀,从靶向测序面板中识别拷贝数变异是具有挑战性的,这导致了覆盖范围分布极不均匀。 然而,我们利用配对全基因组测序数据有效地将染色体20上的SNP分配到任一亲本单倍体上,因为这些SNP在全基因组测序样本(PD40293捐赠者中有12个样本中的7个存在20号染色体三体)中会有不同的VAF。 在PD40293中,该捐赠者具有最广泛的20号染色体三体复发情况。 Para_02 为了识别具有可能三体20的面板序列显微切割,我们量化了第20号染色体上相位SNP位点的计数数据(支持SNP的读取和总读取)。 使用似然比检验,我们量化了两个相位SNP组是否更有可能来自一个二项分布,该分布的基础概率是两个单倍型的平均总VAF(二倍体),或者来自两个具有不同基础概率的二项分布(非二倍体)。 为了减少噪声,在此分析中仅使用了超过五个读取的SNP位点。 使用Benjamini–Hochberg方法对得到的P值进行了多重检验校正。 除了显著差异外,样本还需要显示出两个单倍型之间足够的VAF差异才能被认为显示出三体20的证据(0.1)。 Reporting summary 报告摘要
Data availability Para_01 DNA序列数据已存放在欧洲基因组表型档案库(EGA)中,访问码分别为EGAD00001015351(全基因组测序)和EGAD00001015352(目标面板测序)。 处理后的数据可在补充表格或GitHub上获取(https://github.com/TimCoorens/Stomach;过滤变异调用和系统发育树)。 参考基因组GRCh38广泛可用(包括在https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000001405.26/)。 , Code availability Para_01 可以在 https://github.com/TimCoorens/Stomach 找到用于数据分析 、筛选和可视化的自定义 R 脚本。