这一次,科学界以前所未有的规模,揭秘了癌症的复杂性。
规模有多大?Nature一口气发布6篇论文 (一篇封面),子刊发布15篇论文。
Nature的这6项研究来自全基因组泛癌分析(Pan-Cancer Analysis of Whole Genomes, PCAWG)联盟,这是他们迄今为止最为全面的癌症基因组荟萃分析:
涵盖38种肿瘤的2658个癌症基因组进行了测序和分析。
以往的研究主要集中在癌症基因组的蛋白编码区域,而此次是分析了整个基因组。
这6篇论文,每篇都从不同方面研究了癌症遗传学,这对于理解癌症的完整遗传复杂性至关重要。
正如Nature评论称:
癌症和云基因组学里的一个里程碑
那么,接下来量子便带大家对6篇论文进行一一解读。
封面文章:Pan-cancer analysis of whole genomes
封面论文汇总信息,概述了PCAWG数据集的广度和深度。
研究人员报告了38个肿瘤类型中,2658个泛癌基因组及其匹配的正常组织的综合分析,其中包括2605个原发肿瘤和173个转移灶或局部复发。
研究数据来自1469名男性(55%)和1189名女性(45%),平均年龄为56岁(范围为1-90岁)。
平均而言,每个癌症基因组均携带4-5个驱动突变(driver mutations),从而为癌细胞提供了选择性优势。
研究涵盖的38种肿瘤之中,仅有5%没有发现驱动突变。
许多癌症表现出了被称作染色体异常(占肿瘤17.8%)和染色体脱色(占22.3%)的基因组突变标志,这导致了基因组的主要结构发生变化。
这也就意味着,大规模结构突变在癌症当中发挥着广泛的作用。
研究数据可供全球癌症研究人员下载(地址见文末)。
Analyses of non-coding somatic drivers in 2,658 cancer whole genomes
在这项研究中,研究人员着手确定非编码DNA中的遗传驱动因子。
准确检测非编码区突变要比检测编码区突变难度更大,因此研究人员提出了两种驱动突变发现方法。
研究揭示了新的非编码区驱动突变,比如关键肿瘤抑制基因TP53的5‘端非编码区中发生的复杂突变,FKBIZ和TOB1的3’端非编码区中发生的突变,BRD4的局灶性缺失,以及AKR1C基因位点的重排。
同时,检测结果也对过去发现的个别突变提出了质疑,比如长链非编码的RNA NEAT1和MALAT1。
另外,端粒酶基因TERT的非编码区中相对频繁的突变导致了端粒酶的过表达,这会加助肿瘤细胞不受控制的分裂。
在第三篇和第四篇论文中,重点放在了叫做标签 (signature)的基因组畸变。这里的标签是指独特性的DNA序列或单核苷酸位点。
诸如缺陷性的DNA修复机制,或者暴露于环境诱变剂,都会产生特征性的DNA畸变模式。
若是要完善已知的突变标签并发现新的突变标签,那么更大规模的基因组数据集就非常重要。
第三篇论文来自Ludmil B. Alexandrov团队:
The repertoire of mutational signatures in human cancer
在这项工作中,研究人员使用来自4645个全基因组的84729690个体细胞突变和包含大多数癌症类型的19184个外显子序列来表征突变特征,确定了49个单碱基替换,11个双碱基替换,4个聚类碱基替换和17个小的插入和删除签名。
与以前的分析相比,由于数据集的巨大规模使研究人员能够发现新的签名,分离重叠的签名,并将签名分解为可能代表相关但不同的DNA损伤、修复和/或复制机制的组件。
通过估计每个签名对单个癌症基因组突变目录的贡献,我们揭示了签名与外源性或内源性暴露以及缺陷DNA维持过程的关联。
第四篇论文是来自Yilong Li团队:
Patterns of somatic structural variation in human cancer genomes
在这项研究中,使用的数据来自国际癌症基因组协会(ICGC)、癌症基因组图谱(TCGA)和全基因组全癌基因分析(PCAWG)协会,开发了对体细胞结构变异进行分组、分类和描述的方法。
研究人员确定了16种结构变异标签,比如揭示了两个结构变异标签—-缺失和相互倒位(reciprocal inversion)—-之间存在推定的机理联系。
他们还了解所有16个标签在癌症中的作用。某些DNA修复基因中的突变显示与特征性的癌症标签相关。比如,PCAWG发现基因CDK12中的突变与重复DNA的串联片段相关,并且DNA修复酶MBD4的截短变异与涉及称为CpG位点的DNA序列的独特突变标签同时出现。
这些新的标签为理解癌症产生机制以及诱变暴露在这个过程中的作用奠定了基础。值得注意的是,Li及其同事是最早发现涉及结构变异的可重现标签的人之一。
第五篇论文来自Moritz Gerstung团队:
The evolutionary history of 2,658 cancers
研究人员发现在给定癌症中最常见的驱动突变也往往最早出现。
同样,如果在某种特定的癌症类型中拷贝数增加非常频繁地出现,那么它们往往会较早发生。比如,在透明细胞肾癌中,一部分染色体中的拷贝数增加很常见,倾向于在这种疾病产生的早期出现。相反,全基因组重复是这种癌症中相对较晚的事件。
最后,他们发现至少40%的肿瘤中的突变标签会随时间变化。这些变化反映了环境暴露在疾病进展中的作用逐渐减弱,以及DNA修复缺陷的发生频率和严重性增加。
总体而言,他们的研究结果表明,驱动突变可以在癌症确诊之前数年发生,这对癌症的早期发现和生物标志物开发具有重要意义。
最后一篇论文是Genomic basis for RNA alterations in cancer
研究人员们利用具有匹配转录组数据的1188个PCAWG样本,将DNA和RNA的改变功能性地联系在了一起。
他们确定了649个影响基因表达的体细胞单核苷酸DNA突变,其中68.4%与该基因侧翼非编码区相关。
另外,他们还发现了1900个与体细胞突变有关的剪切改变。包括Alu元件附近的非编码区(内含子)中形成新的蛋白编码区(外显子)。
论文指出,有82%的基因融合与结构变异有关,包括75种新的桥接融合(bridged fusion)(第三个DNA片段插入使两个基因融合在一起)
最终,尽管在分析的1188个样本中有87个在DNA水平上没有发生驱动突变,但是研究人员发现每个样本都具有RNA水平的改变。
该研究结果说明,将RNA和DNA测序分析整合在一起,将在癌症研究中发挥强大作用。
上述6篇Nature论文和15篇Nature子刊论文,以前所未有的规模揭示了癌症的遗传复杂性: (加格式)
揭示了大规模结构突变在癌症中所起到的广泛作用
在基因调控区域发现了先前未知的与癌症相关的突变
推断了多种癌症类型的肿瘤进化
阐明了体细胞突变与转录组之间的相互作用
研究了种系遗传变异在调节突变过程中的作用
Nature认为,PCAWG数据集的高质量、高可用性会激发一波生物学方法论的发展。其与其他功能基因组数据的整合,也将推动对遗传异常原因及其后果的进一步研究、理解。
而当前研究的最大的局限性是缺乏有关患者预后和治疗的临床数据,这样的数据能帮助研究人员确定可预测临床结果的遗传变化。
幸运的是,国际癌症基因组联合会-加速基因组肿瘤学研究(ICGC-ARGO)项目正在进行中,该项目将为10万多名癌症患者创造这种资源。
全基因组泛癌分析(PCAWG)研究是一项国际合作,旨在确定来自国际癌症基因组联盟的2600多个癌症全基因组的常见突变模式。
在先前研究癌症编码区工作的基础上,本项目探索了编码区和非编码区体细胞和生殖系变异的性质和后果,特别强调了顺式调节位点、非编码RNA和大规模结构改变。
为了便于不同肿瘤类型之间的比较,所有肿瘤和匹配的正常基因组都经过了一套统一的比对和变异调用算法,并且必须通过一套严格的质量控制测试。
此外,PCAWG工作组已经产生了大量的衍生数据,包括供体临床和组织病理学数据、亚克隆重建、纯度和倍性信息、剪接亚型和突变特征。
这些数据可从如下链接下载:
https://dcc.icgc.org/releases/PCAWG
论文集地址: https://www.nature.com/collections/afdejfafdb
https://www.nature.com/immersive/d42859-020-00001-y/index.html
Nature报道: https://www.nature.com/articles/d41586-020-00213-2?utm_source=twitter&utm_medium=social&utm_content=organic&utm_campaign=NGMT_USG_JC01_GL_Nature
— 完 —