Basic Information
- 英文标题:The Somatic Mosaicism across Human Tissues Network
- 中文标题:跨人类组织的体细胞镶嵌网络
- 发表日期:02 July 2025
- 文章类型:Perspective
- 所属期刊:Nature
- 文章作者:Tim H. H. Coorens | The Somatic Mosaicism across Human Tissues Network
- 文章链接:https://www.nature.com/articles/s41586-025-09096-7
Abstract
Para_01
- 从受精开始,人体内的细胞在其DNA序列中逐渐获得变异,这种变异被称为体细胞突变。
- 这些合子后突变源于DNA复制和修复过程中的内在错误,以及暴露于诱变剂的影响。
- 体细胞突变已被认为与某些疾病有关,但对健康人体组织中突变频率、类型和模式的基本了解仍然有限。
- 这主要是由于个体内携带特定体细胞变异的细胞比例很小,使得它们比遗传变异更难检测。
- 在此,我们介绍了跨人类组织网络的体细胞嵌合现象,旨在建立一个包含19个不同组织位点的体细胞突变及其克隆模式的参考目录,数据来自150名无疾病供体。
- 该网络还致力于开发新的技术及计算工具,以检测体细胞突变并评估其表型后果,包括克隆扩增。
- 这一策略能够全面研究人体突变图谱,并为疾病中的体细胞突变提供比较基准。
- 这将加深我们对整个生命周期中体细胞突变和克隆扩增的理解,以及它们在健康、衰老中的作用,并通过对比分析揭示其在疾病中的作用。
Main
Para_01
- 人类群体内的遗传多样性已有充分的描述。
- 人类基因组计划首次近乎完整地绘制了人类DNA序列图谱
- 随后又开展了大规模的研究项目,例如千人基因组计划和泛基因组计划,这些项目绘制了个体与群体之间的遗传多样性。
- 现在人们越来越认识到,在个体内部的不同组织和细胞之间存在广泛的遗传变异。
- 在首个人类基因组草图完成二十年后,跨人体组织体细胞镶嵌(SMaHT)网络计划将绘制个体内部不同组织和细胞中的遗传多样性。
Para_02
- 从受精开始,人体内的细胞会不断经历基因组损伤,这种损伤要么来自内在因素,要么是暴露于诱变剂所致4,5,6,7,8,9。
- 尽管绝大多数DNA损伤都会被修复,且基因组复制具有极高的保真度,但细胞在整个生命过程中仍会逐渐积累体细胞突变。
- 个体内的所有细胞都含有体细胞突变,但任何特定的突变只存在于一部分细胞中,甚至可能仅存在于单个细胞中。
- 因此,体细胞突变通常被描述为镶嵌型的10,11。
Para_03
- 检测体细胞突变具有一定的挑战性。
- 与遗传变异不同,体细胞突变仅存在于小部分且比例可变的细胞中,其存在范围从胚胎突变(存在于大部分细胞中)到仅存在于单个细胞中的突变不等(图1a)。
- 在DNA文库制备和测序过程中引入的类似低频突变的人为错误和误差进一步加剧了这一挑战12。
- 目前的短读长测序技术限制了基因组重复区域中突变的检测,并且可能不太适合检测体细胞结构变异。
Fig. 1: Somatic mutations, causes and patterns.
- 图片说明
◉ a,遗传变异、早期体细胞突变和晚期体细胞突变之间的示意图比较。◉ b,体细胞突变的原因及类型概览。EN,核酸内切酶;ME,可移动元件;ORF,开放阅读框;RT,逆转录酶;ssDNA,单链DNA。◉ c,不同发育阶段和组织中报道的体细胞单核苷酸变异(SNV)突变率概览。第一次细胞分裂的数据6,7,59 和后续细胞分裂的数据6,7,59 为每次细胞分裂每细胞的SNV数目。◉ 早期中枢神经系统(CNS)9 和胎盘62 的胎儿发育数据为每天每细胞的SNV数目。◉ 成年阶段的数据以每年为单位,估算对象包括生精小管48、造血干细胞26,52,144、B淋巴细胞52、神经元63,145、T淋巴细胞52、支气管上皮53、胃上皮146、子宫内膜上皮79、肝细胞19、小肠上皮19,115、结直肠上皮19,24,29 以及心肌细胞49。◉ ZGA,合子基因组激活。
Para_04
- 尽管大多数体细胞突变可能在功能上是中性的,但其中一些突变可以深刻改变细胞的表型,并与多种疾病相关。
- 许多研究进展来自于对癌症基因组的测序研究,这是由体细胞突变引发疾病的最著名例子,但肿瘤中的诱变过程通常被加速,且基因组不稳定性扭曲了正常的突变模式。
- 最近的研究则侧重于绘制正常组织中的体细胞突变图谱,这一方向的研究实例包括脑体细胞嵌合网络(Brain Somatic Mosaicism Network)及其他相关研究,这些工作揭示了体细胞突变在发育综合征、神经系统疾病以及炎性疾病中也发挥作用。
- 尽管已有这些努力,目前仍缺乏一个全面的参考数据集,用以涵盖大量供体多个组织中的体细胞嵌合情况。
Para_05
- 在本观点文章中,我们描述了由NIH共同基金发起的SMaHT网络,其目标是从19个非患病组织部位的150名捐献者中生成体细胞变异参考目录。
- 为推动该领域的发展,SMaHT网络将在前所未有的规模上进行全面发现和分析各种类型的体细胞突变:对每位捐献者的多种组织中的嵌合现象进行联合分析;通过长读长测序和捐献者特异性组装技术,可靠地发现结构变异(SVs);以及在各个测序中心广泛且可靠地应用超灵敏测序技术,例如双链测序。
- 此外,除了大规模应用已确立的测序分析方法外,SMaHT网络还高度重视工具和技术的发展,以支持下一代体细胞突变研究。
- 在详细描述该网络的目标之前,我们简要回顾了目前关于健康与疾病中体细胞突变的知识,以及突变检测中的技术挑战。
- SMaHT网络的很大一部分将专注于开发技术和计算工具,以提高所有类型体细胞变异的检测能力。
Somatic mutations in healthy tissues
Para_01
- 从受孕到死亡的整个生命过程中,细胞在其DNA中会不断积累突变6,7,8,9,40(图1b)。
- 这些体细胞突变可能是由于受损DNA碱基或DNA链断裂的错误修复、复制过程中的错误、染色体分离异常或移动元件的插入所导致。
- 体细胞突变可以分为不同类型41:置换,其中绝大多数是单核苷酸变异(SNVs);小片段插入和缺失(indels),即小于50个碱基对的变异;结构变异(SVs),包括节段性重复、大片段缺失、染色体重排、倒位、移动元件插入(MEIs)以及复杂的结构变异,如染色体碎裂(chromothripsis)和染色体连锁重排(chromoplexy);以及其他较大的染色体异常,例如整条染色体的获得或丢失。
- 重复、缺失以及整条染色体的获得或丢失也被称为拷贝数变异(CNVs)或嵌合染色体改变。
- 这些变异类型在致病原因、组织分布模式以及对细胞表型的影响方面存在显著差异。
- 在正常组织中,SNVs是迄今为止最常见的体细胞变异类型,其次是indels。
- SVs和大的染色体异常出现频率较低27,但通常影响更多的碱基对,因此可能产生更显著的功能影响。
- 然而,大多数关于体细胞突变的先前研究依赖于短读长DNA测序技术,这可能导致多种类型的SVs无法被检测到。
- 生殖系差异的研究表明,SVs的数量要多得多,但其中大多数都无法通过短读长测序方法检测到42。
Para_02
- 不同的诱变过程会导致不同的体细胞突变模式,这取决于所发生的DNA损伤类型以及负责DNA损伤修复的途径。
- 过去十年的研究已将这些模式解析为突变特征,并将某些特征与特定的诱变因素联系起来,例如紫外线、烟草烟雾、化疗或自然衰老过程中内源性突变的积累。
- 突变特征最常应用于单核苷酸变异(SNVs)。
- 但它们也已被定义用于其他类型的体细胞突变,包括插入缺失(indels)。
- 染色体改变和结构变异(SVs)。
- 在单核苷酸变异(SNVs)的背景下,突变特征反映了特定碱基变化在其三核苷酸序列环境中的分布情况。
Para_03
- 所有正常组织,包括有丝分裂后的细胞,都表现出与类似时钟的内源性过程相关的单核苷酸变异(SNV)突变特征(单碱基替换特征1(SBS1)或SBS5),在较小程度上还表现出氧化损伤相关特征(SBS18)。
- 与诱变暴露相关的突变特征可能局限于特定器官,例如皮肤中的紫外线损伤(SBS7)或皮肤驻留T淋巴细胞中的损伤、肺部支气管上皮中烟草烟雾引起的损伤(SBS4)以及大肠中接触产毒性的大肠杆菌菌株(SBS88)引起的损伤。
- 这些暴露差异导致了人体不同组织中观察到的体细胞突变类型存在一定的差异。
- 此外,不同的突变过程显示出与基因组特征(如复制时间、复制链和转录链)不同的相关性,反映了DNA损伤和修复的基因组偏差。
Para_04
- 体细胞突变率在人类不同的组织和生命阶段有所差异(图1c)。
- 在最初的胚胎细胞分裂过程中,体细胞单核苷酸变异(SNVs)以每个分裂周期大约三个的高速率积累,这可能是因为细胞分裂速率高以及合子基因组的激活被延迟6,7,59。
- 随后,在胎儿发育阶段,突变率下降(每个分裂周期约一个SNV),无论是胚胎组织(如胎儿大脑9,60,61)还是胚外组织(如胎盘62),均是如此。
- 出生后,突变率进一步下降了5到10倍,并且在不同组织间存在显著差异,从神经元等终末分化细胞每年积累16–20个SNVs21,50,61,63,到结肠干细胞每年积累44个SNVs24(图1c)。
- 生殖细胞具有目前已知最低的体细胞突变率,这也与父母年龄对新生生殖系突变影响的结果一致48。
- 尽管分裂率可能会影响内源性体细胞突变率,但还有其他因素可能调节着DNA损伤的诱变过程和修复机制64,65,66。
Para_05
- 大型体细胞突变,例如结构变异(SVs)、染色体改变和转座元件插入(MEIs),其检出频率远低于单核苷酸变异(SNVs)和插入缺失(indels)。
- 尽管体细胞非整倍性似乎较为罕见,但亚染色体水平的结构变异影响了13–41%的神经元。
- 频繁出现的拷贝数变异(CNVs),主要是可能起源于发育过程中的重复事件,在脑体细胞嵌合网络联盟(Brain Somatic Mosaicism Network consortium)提供的约7%的大脑样本中被检测到。
- 在英国生物样本库(UK Biobank)的血液样本中,约5%观察到了嵌合染色体改变。
- 对富含移动元件的文库或全基因组的单神经元DNA测序揭示了发生在发育过程中、并在人脑中产生嵌合现象的转座元件插入事件。
- 通过群体测序方法也在大脑以外的组织中检测到少量的体细胞转座元件插入事件,包括心脏、成纤维细胞和肝脏。
- 最近对结直肠上皮单细胞克隆进行的体细胞转座元件插入分析表明,这些插入事件在胚胎早期发生率达到峰值。
- 考虑到这些大型突变对基因序列、剪接或表达的潜在影响,了解它们在人类发育和衰老过程中在各种组织中的普遍性具有重要意义。
Para_06
- 尽管大多数体细胞突变对细胞的表型没有明显影响,但一些体细胞突变在不同组织中会受到选择。
- 这类驱动突变可能会使细胞及其子代获得增殖优势或更高的存活率,从而导致组织中的克隆扩增。
- 癌症是体细胞进化的典型例子,通常涉及关键体细胞突变的逐步积累以及基因组不稳定性。
- 与癌症相关的突变通常在正常组织中随着年龄增长而大量存在。
- 作为比较,在一个典型的60岁个体中,大约90%的子宫内膜上皮含有驱动突变,而结肠上皮中这一比例仅为约1%。
- 尽管后者的体细胞突变率要高得多。
- 这种差异可能是由子宫内膜的月经周期造成的脱落和再生长所致。
- 可能由于发育或衰老过程中类似的克隆扩增,大约6%的个体大脑中可检测到的单核苷酸变异(SNVs)数量比平均水平高出3到20倍。
- 这些克隆扩增细胞群体的不同比例可能反映了组织结构、细胞更替、再生能力和选择压力的差异,但其中还有很多尚不清楚。
Para_07
- 尽管在正常组织中发现的许多驱动突变可能与相应癌症类型中的突变完全相同,但它们的丰度和表型结果可能会有显著差异,因为正常组织所经历的选择压力可能不同于癌症。
- 例如,在正常的食管上皮中,携带NOTCH1突变的克隆极其丰富,其出现频率甚至高于食管癌中的水平。
- NOTCH1突变克隆恶性转化的可能性较低,并且在食管中甚至能够战胜癌前克隆。
- 这些观察结果表明,为了理解这些突变在癌症等病理现象中的作用,对正常人群中体细胞突变图谱进行描绘将是至关重要的。
Para_08
- 最后,体细胞突变可用作内在条形码来构建系统发育树并追踪细胞的祖先关系,从而使人们有可能通过对成年人供体中确定的体细胞突变进行定量研究来了解人类发育过程。
- 这种方法已被用于研究胚胎发生、整个生命周期中的克隆扩增以及儿童癌症的起源。
- 由于突变的等位基因频率反映了在一个细胞群体中携带该突变的细胞所占的比例,因此该方法可用于定量评估胚胎前体细胞对成年个体的贡献。
- 此类研究发现,受精卵的两个子细胞中,其中一个通常至少比另一个多出两倍以上的后代细胞。
- 这可能是由于胚胎发生过程中的细胞瓶颈、发育过程中的细胞死亡或迁移模式所致,并证实了早先在小鼠中的观察结果。
Para_09
- 这些关于正常组织中体细胞突变的初步研究共同表明,不同组织之间突变的发生率、变异模式和选择具有多样性。
- 然而,个体之间这些模式的变异程度如何,以及不同类型的体细胞突变与遗传基因背景、环境暴露或其他行为特征之间的相关性仍不清楚。
- 此外,在基因组中难以比对的区域,例如端着丝粒染色体、着丝粒区域和重复序列区域,突变的发现受到严重限制,因此这些区域的突变模式在很大程度上仍未明确。
- 因此,在特定器官背景下识别组织和个体之间突变模式的差异可能具有深远的临床意义。
Somatic mutations and disease
Para_01
- 体细胞突变可以深刻地改变细胞的表型,并且已被证实与人类疾病相关。
- 除了癌症之外,各种其他疾病和状况也可能是体细胞突变的结果,包括心血管异常、免疫系统和神经系统疾病。
- 值得注意的是,早期的体细胞突变可能导致克隆扩增以及前体细胞分化程序的改变,随后可能引发儿童癌症和器官过度生长。
- 在最早被描述的体细胞突变实例中,涉及大脑的PI3K-AKT-mTOR通路突变与导致难治性癫痫的大脑畸形有关。
- 其他例子包括导致先天性黑色素细胞痣的NRAS突变,以及造血干细胞中的UBA1突变导致VEXAS综合征,这是一种罕见且严重的炎症性疾病。
- 大脑中短串联重复序列的体细胞扩增可导致细胞死亡和神经退行性病变。
- 这种扩增也是亨廷顿舞蹈症的病因。
- 大片段结构变异(SV),包括拷贝数变异(CNVs)和转座元件插入(MEIs),也与神经发育和神经退行性疾病相关联。
Para_02
- 体细胞突变的影响可能对发生时机和起源组织具有高度特异性。
- 例如,发育过程中获得的PIK3CA激活突变可能导致多个器官的广泛过度生长以及血管畸形。
- 然而,发育完成后获得的PIK3CA突变则可能导致脑部的海绵状血管瘤,并且该突变也是在正常的结肠和子宫内膜上皮中常见的一种驱动突变。
Para_03
- 克隆扩增还可能间接导致或影响其他疾病。
- 一个例子是意义未定的克隆性造血(CHIP),其特征是由体细胞突变驱动的造血干细胞区室内的克隆扩增。
- 在正常衰老过程中,CHIP现象非常普遍。
- 除了作为潜在的癌症前体克隆发挥作用外,CHIP还与多种非癌症疾病相关,例如心血管疾病风险增加以及感染风险增加。
Para_04
- 相反,疾病也可以选择具有某些适应性体细胞突变的克隆。最近的研究显示,炎症性肠病会导致携带IL-17和Toll样受体通路突变的克隆更易重塑结肠上皮。
- 同样,慢性肝病会选择能够逃避疾病所施加毒性的肝细胞克隆,尤其是通过在FOXO1、CIDEB和GPAM中发生的反复且独立的突变来实现,这些基因均参与脂质代谢。
Para_05
- 综上所述,近年来的研究表明,体细胞进化在正常组织中普遍存在,并且对于我们理解疾病的成因、机制和影响以及正常的衰老过程至关重要。
The SMaHT Network
Para_01
- 由美国国立卫生研究院(NIH)共同基金资助的SMaHT网络旨在增进我们对人类细胞中体细胞变异如何影响生物过程的理解。
- 为实现这一目标,SMaHT网络将通过以下三个方向开展工作:(1) 生成涵盖多种人体组织的全面的体细胞变异数据集(图2);
- (2) 开发工具和技术以优化各类体细胞变异的检测与特征描述;
- 以及(3) 创建一个广泛供研究人员和公众使用的体细胞突变数据库,并实现与其他类似数据集的互操作性。
Fig. 2: Tissue sampling.
- 图片说明
◉ 概述了来自19个主要组织位点的样本,涵盖了三个发育胚层(内胚层、中胚层和外胚层)以及生殖细胞。◉ 尽管器官代表了来源于不同胚层的细胞混合物(例如,皮肤表皮(外胚层)与真皮(中胚层),肾上腺髓质(外胚层)与皮质(中胚层)),但我们标明了每个器官所代表的主要胚层。◉ 性腺代表的是生殖细胞及其支持结构(中胚层),而口腔拭子则是不同胚层(中胚层和外胚层)的可变混合物。
Para_02
- 该网络由五个基因组特征鉴定中心(GCC)、14个工具与技术开发项目(TTD)、一个组织中心(OC)、一个数据分析中心(DAC)和一个组织采购中心(TPC)组成,并包括来自52个机构的250多名研究人员。
- 基因组特征鉴定中心的任务是利用组织采购中心收集的多种组织样本,为SMaHT网络生成体细胞突变的核心数据集,而工具与技术开发项目的任务则是开发新的实验分析方法和计算工具。
- 数据分析中心将整合基因组特征鉴定中心和工具与技术开发项目所产生的数据,构建体细胞突变目录、数据门户以及分析工作平台。
- 组织中心将协调整个网络的活动,并致力于对外合作与其他基因组联盟建立联络。
- SMaHT网络已经制定了一系列政策(https://smaht.org/policies/),其中包括允许外部研究人员申请成为网络联合成员的政策。
Para_03
- 网络将分析的人体组织包括来自人体三个胚层和生殖细胞的组织,这将有机会明确所有组织中普遍存在的早期体细胞突变,以及某些特定组织独有的后期突变(图2)。
- TPC正在与美国多家器官获取组织(OPO)合作,对遗体器官和组织捐献者的组织进行筛选、授权和获取。
- 这些组织将在器官移植获取后收集,包括升结肠和降结肠、食道、肺和肝脏(主要是内胚层来源)。
- 还包括血液、心脏、主动脉和骨骼肌(主要是中胚层来源)。
- 以及大脑、肾上腺、暴露于阳光下的皮肤和未暴露于阳光下的皮肤(主要是外胚层来源)。
- 我们还计划收集口腔拭子样本,以评估从活体捐献者临床上可获取的组织中能够获得多大范围的体细胞突变信息。
- 为了研究生殖细胞中的诱变过程,我们还计划收集卵巢和睾丸组织。
- 最后,为了支持需要活细胞的各种实验技术,我们将从真皮(皮肤)中提取成纤维细胞培养物。
- 在SMaHT组织采集过程中,要求从每一位捐献者那里尽可能多地获取所有组织。
- 每位捐献者所采集的样本数量和类型会根据其授权情况和资格条件(见方框1)有所不同,但目标是从单一捐献者身上尽可能多地获取多种组织。
- 为了研究整个生命周期中体细胞嵌合现象的机制及其影响,这些遗体捐献者的年龄范围将覆盖18岁至85岁以上。
- 捐献者的种族和族裔背景通过单问题框架进行评估。
Para_04
- 为了使该数据集在科学和临床上产生最大的影响,TPC将在捐献和生物样本采集过程中收集大量的供体元数据,这些做法借鉴了基因型-组织表达(GTEx)项目107和发展中的GTEx项目108中形成的经验。
- 去标识化的供体层级数据将包括人口统计信息、医学病史、基于样本的实验室检测结果以及死亡情况。
- 样本层级的数据将包括组织类型和位置、缺血时间以及病理评估中的组织指标。
- 病理图像将公开提供。
- 在可能的情况下,组织采样将与其他大型项目的通用坐标框架结构保持一致。
- 对于所有这些生物样本,将收集并保存足够量的新鲜冷冻材料,以支持所有核心分析实验以及新兴新技术的应用。
- 用于病理评估的固定样本将从新鲜冷冻样本相邻部位采集,每种组织类型都将采用标准化的采集方案进行采集。
Para_05
- 为了追求人口统计学上稳健且性别分布均衡的捐献者群体,SMaHT网络包含了一项符合美国人类遗传学协会关于解决人类基因组研究中代表性不足问题建议的伦理、法律及社会影响项目,该项目强调通过有意义地让代表性不足的社区参与其中来改善现状。
- 这一伦理、法律及社会影响子研究在整个SMaHT网络运行期间,吸纳了在地理、种族、民族和社会文化背景方面多样化的利益相关者,其中包括家庭决策者、组织请求者、社区咨询委员会成员以及多学科专业委员会成员。
- 来自社区利益相关者的反馈将被用来指导沟通和招募工作,以及研究成果的传播。
Para_06
- SMaHT网络具有独特的优势,可以与其他多个大型联盟和项目开展合作。
- 这些合作包括与人类泛基因组参考联盟的合作,以借鉴构建单倍型分相基因组组装的方法;
- 与基因组变异对功能影响联盟的合作,以了解遗传变异的功能性后果;
- 与发育阶段GTEx项目合作,以获取早期发育阶段组织的数据集;
- 与人类肿瘤分析网络及癌前图谱合作,以通过体细胞突变进一步理解正常细胞向肿瘤细胞的演变过程;
- 以及与PsychENCODE合作,以阐明大脑体细胞嵌合现象的表型后果。
- 这些合作将丰富各个独立研究的内容,并最终通过数据整合和跨网络分析,进一步加深我们对体细胞突变背景及其后果的理解。
[div_box]
Producing the somatic mutation catalogue
Para_01
- 为了生成体细胞突变目录的第一阶段成果,SMaHT 网络将在标准基因组检测与定制化检测之间取得平衡:前者由基因组中心(GCCs)统一应用于所有组织的标准检测流程,后者则由组织图谱开发(TTD)项目开发,专注于新颖的技术方法。
- 作为 SMaHT 项目初始阶段的一部分,基准测试工作即将完成,该测试使用了原代人类组织和细胞系进行评估。
- 我们通过这一基准测试来确定最佳测序覆盖度,比较变异检测算法的准确性,并评估来自多个 GCC 的不同测序平台上所产生的长读长和短读长测序数据的实用性。
Para_02
- GCCs 将在所有符合质量标准的组织样本中实施三项核心检测:深度短读长全基因组测序(WGS;超过 300× 覆盖度)、长读长 WGS(超过 30× 覆盖度)测序和 RNA 测序(超过 5000 万次读取)。
- 深度短读长 WGS 将有助于发现胚胎发育早期获得的组织中高等位基因频率的体细胞突变,以及生命后期出现的大规模克隆扩增现象。
- 由于这些核心检测将在由多种不同类型细胞组成的整体组织上进行,因此只有等位基因变异频率相对较高(超过 1–2%)的突变才能在所建议的测序深度下被准确检测到。
- 长读长 WGS 将促进复杂结构变异(SVs)、移动元件插入(MEIs)以及使用短读长数据难以准确研究的复杂遗传位点中的变异检测,例如主要组织相容性复合体(MHC)区域、着丝粒、端粒、包括核糖体 DNA 和其他基因组串联重复区域在内的随体 DNA。
- 超长读长测序将使我们能够为至少 50 个供体生成接近端粒到端粒的个体特异性参考基因组组装,并通过减少错配,增强对个体内部多样变异类型的发现能力,包括复杂的体细胞 SVs 以及其他此前无法比对区域中的突变。
- 最后,RNA 测序可能帮助我们评估早期突变和晚期克隆扩增的转录后果,并且通过与单细胞 RNA 测序图谱进行比较,分析异质性组织中的细胞类型组成。
Para_03
- 除了这些核心检测方法外,GCCs 将采用三种专门设计用于分析低频体细胞突变的方法:双端测序、单细胞全基因组测序以及基于转录本的突变检测。
- 尽管这些技术已经发表并经过充分验证,但它们代表了近期的创新成果,尚未在测序中心范围内得到系统性的应用,也未在大规模研究中使用。
Para_04
- 由于传统的DNA测序平台具有不可忽视的测序错误率(约为每1,000到10,000个碱基中出现一个错误)。
- 为了确认一个可能的突变不是人为造成的,需要在多个独立的测序读段中检测到该突变。
- 然而,通过对每个独立DNA双链分子的正向和反向链分别进行测序,可以大幅降低这种错误率。
- 这种降低后的错误率远低于大多数组织中预期的体细胞突变数量。
- 因此,通过较浅的全基因组双端测序覆盖(0.5–2×),就可以获得平均突变负荷和突变特征。
- 对大量组织样本进行双端测序非常适用于发现细胞群体中单核苷酸变异(SNVs)和插入缺失(indels)的平均突变负荷和特征谱。
- 但是一般较低的测序深度通常无法检测到体细胞拷贝数变异(CNVs)和结构变异(SVs)。
- 也无法精确推断特定突变的变异等位基因频率。
Para_05
- 即使测序错误率有所降低,批量DNA测序仍会平均掉所有细胞的突变模式,无法评估细胞间突变模式的差异性,也无法重建细胞谱系。
- 相反,对单个细胞或由单细胞衍生的克隆进行测序将能够最详细地发现体细胞突变。
- 这可以通过在体外扩增单细胞,或者通过激光捕获显微切割技术来分离自然发生的细胞克隆群实现。
Para_06
- 此外,直接的单细胞DNA测序适用于所有类型的细胞,包括不分裂的细胞。
- 然而,全基因组扩增可能导致等位基因或位点丢失、基因组覆盖不均以及生化扩增过程中引入人为变异。
- 直接文库制备(DLP+)方法避免了全基因组扩增,并能够在单细胞水平准确检测拷贝数变异(CNVs)以及在群体水平检测其他突变。
- 初级模板引导扩增(PTA)方法相比之前的单细胞扩增方法在数据质量上有显著提升,从而实现了更均匀的基因组覆盖和更少的人为变异。
- PTA的一个较新版本ResolveOme方法能够从同一个单细胞中同时分析转录组和基因组。
- 如果得到验证,这种方法将代表在允许同时进行新突变检测和细胞表型分析方面的一大进步。
- 对单细胞中的体细胞突变进行分析将使我们能够描述突变模式及突变类型之间的关联,并重建正常细胞的系统发育树。
- 在多倍体细胞的情况下,体细胞突变的变异等位基因频率可能偏离预期的0.5值,在下游分析中需要考虑倍性的影响。
Para_07
- 最后,至少某些体细胞突变可以从RNA中推断出来。
- 允许对单细胞全长转录组进行分析的方法,例如Smart-seq3(参考文献122)或STORM-seq123,可以促进检测体细胞突变,例如SNVs、插入缺失(indels)以及融合基因等在基因组转录区域中的变异。
- 这使得评估特定遗传变异克隆扩增的细胞类型特异性成为可能。
- 此外,STORM-seq能够在单细胞分辨率下量化转座元件的表达,而这一任务已被证明使用其他单细胞RNA测序方法具有挑战性。
- 单细胞数据还为更精确地解卷积批量组织中的细胞类型提供了参考。
Para_08
- 这些用于检测体细胞嵌合变异的方法各有优劣,因此它们是互补的(表1)。
- 例如,尽管全基因组双端测序具有较低的测序错误率,并且在从群体水平推断整个生命周期中积累的短突变模式方面表现出色,但其测序深度较低,因而无法检测特定变异的精确等位基因频率。
- 中高覆盖度(300×)的大规模测序只能检测组织中频率足够高的变异(即1–2%),而这些变异大多是在早期胚胎发育过程中产生的。
- 单细胞测序原则上可以检测单个细胞中存在的所有变异,并允许重建细胞系统发育关系,但需要大量成本和努力来解决基因组扩增带来的技术偏差。
- 基于RNA的突变发现方法能够将突变信息与转录组数据直接整合,但其本质上仅限于基因组中表达的区域。
- 总体而言,这些基因组检测方法作为互补的技术手段可用于检测体细胞突变,并使人们能够在人类不同组织中稳健地研究突变模式。
Table 1 Comparison between somatic mutation discovery methods 表1 体细胞突变发现方法之间的比较
Areas of technological development
Para_01
- 随着具有更高分辨率或灵敏度的检测体细胞突变的新技术不断涌现,SMaHT网络的很大部分致力于开发新的工具和技术(方框2)。
- 第一个创新领域旨在通过进一步降低背景噪声,提高单细胞或单分子突变检测的准确性。
- 对于单细胞全基因组测序(WGS),进行有限的克隆步骤以创建少量细胞池可以减少等位基因丢失和扩增伪影。
- 同时,SMaHT网络旨在通过双端测序技术的各种改进方法来降低单细胞和单分子扩增及测序的错误率。
- 这些方法将能够高精度地研究单细胞以及复杂多细胞组织中的体细胞变异图谱,这对于研究没有大规模扩增能力的组织至关重要。
Para_02
- 其次,SMaHT 网络旨在提高对单个分子或细胞中结构变异(SV)检测的灵敏度。
- 由于 SV 的长度通常超过短读长测序的范围,长读长测序技术能够实现整个基因组范围内的 SV 检测,尤其是在重复区域中的移动元件插入(MEIs)和其他重排事件的检测上表现突出。
- 然而,许多单细胞 DNA 扩增方法产生的都是短片段。
- 因此,我们正在将长读长测序技术应用于克隆群体,例如诱导多能干细胞系,这些细胞系已被用于替代单细胞进行谱系重建研究,因为它们可以通过扩增后进行批量测序分析,从而避免体外 DNA 扩增带来的问题。
- 此外,由于每个转座子亚家族中新插入的序列具有保守区域,通过靶向富集实验可以经济高效地检测 MEIs。
- 我们正在开发利用 Cas9 靶向长读长测序以及 PTA 扩增的微量批量或单细胞测序技术来实现对 MEI 插入的靶向检测。
- 这些努力将使我们能够在所有组织中以及整个生命周期内研究 SV 和 MEIs,即使在没有克隆扩增的情况下也能实现。
Para_03
- 第三,SMaHT 网络将开发可扩展的平台,通过具有空间条形码的单细胞 DNA 和 RNA 测序技术,在人体组织中进行变异检测。
- 这将使我们能够研究克隆扩增在不同年龄和组织中的普遍性和范围,尤其是在那些没有明确组织架构的器官中。
Para_04
- 一个尚未解决的问题是特定体细胞突变对携带这些突变的细胞表型的影响。
- 尽管某些突变处于正向选择之下,并导致克隆扩增,但这些突变如何改变细胞表型在很大程度上仍不清楚。
- 可以通过结合突变的读数来评估突变的后果,这包括通过对特定突变进行基因分型或基因组测序,
- 同时结合细胞的功能读数,例如转录组、蛋白质组、表观基因组、甲基化组以及染色质可及性图谱。
- 解读体细胞突变的表型效应将极大地促进我们对临床后果的理解。
Para_05
- SMaHT网络在工具和技术开发方面的努力主要集中在大规模提高体细胞突变检测与解读的精准性,每项技术都旨在解决当前检测方法的关键缺陷,并力求在网络内部实现许多此类技术的工程化和部署应用。
- 在开发阶段完成后,这些检测方法在SMaHT组织和供体中的具体应用范围和程度将取决于网络的成本、可扩展性以及优先级安排。
[div_box]
Integration and analysis of data
Para_01
- 嵌合体变异的低等位基因频率为生物信息学分析带来了独特的挑战,我们预计需要新的计算方法和工具来充分分析数据,并提高变异检测的灵敏度和特异性。
- 癌症基因组学中开发的体细胞突变检测算法通常不足以检测等位基因比例低于2-5%的变异,而简单地增加测序深度则不具备成本效益。
- 因此,能够高效结合候选变异附近各种局部特征的更复杂的机器学习算法可能被证明是有用的。
Para_02
- 其他挑战还包括长读长和短读长数据的最佳整合、基于整体和单细胞数据推断谱系关系,以及跨组织和跨个体样本进行综合与比较分析的有效策略。
- 我们分析中的一个重要方面是利用短片段Illumina读长、长片段PacBio读长以及超长Nanopore和Hi-C读长组装得到的供体特异性二倍体基因组。
- 比对到供体特异性参考基因组将有助于更准确地识别变异,特别是在重复区域,同时也可检验与遗传变异相关的等位基因特异性转录和表观遗传调控。
Para_03
- SMaHT数据访问委员会(DAC)将牵头收集、整理和分析在多个平台上产生的大量多模态数据,并为科学界创建一个数据资源。
- DAC将确保数据的高质量标准,采取多种质量控制步骤,并按照FAIR(可查找、可访问、可互操作和可重用)指南编译详尽的元数据,以描述实验和数据处理协议。
- 为了保证分析结果的可重复性,可扩展且经济高效的分析流程将在云平台上实施,并通过完整的来源追踪和Docker镜像实现全流程记录。
Para_04
- 联盟生成的数据将通过一个用户友好且安全的网络门户(https://data.smaht.org)向更广泛的科学界提供。
- 该门户网站将具备以下功能:(1)可搜索的体细胞变异参考目录(例如,可通过位点、组织或表型特征如年龄进行搜索),并附有来自其他基因组数据库的信息注释;
- (2)一个工作平台,允许用户将其自身数据应用到SMaHT网络开发的计算流程中;
- (3)数据可视化工具,包括一个多尺度浏览器,使用户可以从基因组层面浏览到测序读段层面的数据。
- 使用此类浏览器对变异进行可视化检查在评估其质量时将特别有帮助,并且这些注释信息将有助于快速识别可能具有功能意义的变异。
Conclusion
Para_01
- SMaHT联盟的目标是通过充分利用多种基因组测序技术,包括短读长和长读长的群体全基因组测序(WGS)、双端测序、超长读长测序、单细胞DNA测序以及RNA测序(图3),在多个组织和个体中生成全面的体细胞突变参考目录。
- 该联盟将开发新的工具和技术,以提高我们检测体细胞突变的能力,并更精确地推断其表型后果。
- 所有这些不同类型的数据都将会被整合、分析,并向科研社区及公众开放发布。
Fig. 3: Methods, assays and questions.
- 图片说明
◉ SMaHT网络中采用的抽样方法和测序分析概览,以及通过对正常组织中体细胞突变目录进行下游分析所得到的生物学问题、结果和推断出的突变模式,包括突变率或突变负荷、选择压力、谱系追踪和突变特征(参考特征来自https://cancer.sanger.ac.uk/signatures)。◉ ZMW,即零模波导。
Para_02
- 详尽的体细胞突变目录将揭示不同组织中的突变模式、突变率和突变特征,使我们能够推断出支配体细胞突变的生物学和分子过程,以及这些过程对发育和疾病的适应性与非适应性影响(图3)。
- 我们的检测方法可以揭示在组织中受到选择压力的突变,这些突变会导致克隆扩增,并可能引发组织功能障碍。
- 在整体测序结果的基础上加入单细胞分析,将进一步使我们能够构建人类发育过程的细胞系统发育树,推断胚胎分化动态,并改进我们对未来新生种系突变的评估。
Para_03
- 全面描述体细胞镶嵌现象的范围远远超出了人类基因组计划的范畴。
- 一个典型的细胞在其生命周期中可能会获得数百到数千个体细胞突变。
- 人体内有数万亿个细胞,因此单个个体一生中积累的体细胞突变总数可能轻松超过千万亿(10^15)次,这比人类基因组的大小高出数百万倍。
- 除了对不同组织中的体细胞变异进行编目之外,SMaHT网络还提供了一个理解正常细胞中体细胞突变成因、模式及后果的机会,并为疾病研究提供了关键的对比基线。
- SMaHT网络的工作将大大加深我们对于体细胞变异在健康、衰老和疾病中所起作用的理解。