Title | Deep whole-genome analysis of 494 hepatocellular carcinomas |
---|---|
Online | https://www.nature.com/articles/s41586-024-07054-3 |
先前的中国人肝癌研究队列规模有限,且集中在WES,对于 WGS 上研究较少。PCAWG 大规模的全基因组研究因为测序深度较浅而无法完全分析肝癌基因组的亚克隆结构。因此作者开展了 Chinese Liver Cancer Atlas(CLCA)中国人肝癌图谱项目。
虽然文章中提到鉴定出来的突变有 9287828个,数据库主页也显示如此。但是进入 mutation 界面却只看到 283223 个突变,点击右上角下载得到的 Excel表格(可以简单处理为maf格式),显示的也只有 283223个突变位点。
每个样本突变数量也和作者上传的文件不一致:
看到这个比例约为3%,也就是目前人类基因组已知的区域的比例。比如通常的全外显子测序,就只测1.5%~ 3% 左右的基因组区域,其余的非编码区或者未知的区域一般不测。所以得到的9287828个突变位点,只有 283223个约3%的突变位点可以被注释到。
在开放的数据中,可以看到突变类型的注释信息比较个性化,和ensemble标准(如VEP或ANNOVAR的注释类型)不一致:
> somatic = rio::import("Mutations.xlsx")
> table(somatic$Classification)
3'UTR 5'UTR frameshift deletion
73142
20544
1971
frameshift insertion lncRNA lncrna.prom
698
48380
10845
nonframeshift deletion nonframeshift insertion nonframeshift substitution
435
66
409
nonsynonymous SNV promoter splicing
52418
67674
2349
startloss stopgain stoploss
158
4001
133
在简单处理后,将所有突变读入 maftools 之后,同样展示驱动基因的突变图谱:
感兴趣的读者可以基于该数据集进一步探索和挖掘。