发表于2016年的NC,The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes 可以说后续做乳腺癌人群队列突变研究的都需要引用这篇文章的数据结果,里面涉及到的分析要点也比较多,都是比较容易重现的。
这2433个病人,来自于 METABRIC 计划,已经有
的信息,所以这个时候再加入173个基因的捕获测序,可以更加全面的了解乳腺癌患者。
乳腺癌具有患者间与同一患者肿瘤内的基因组变异性。以患者间的异源性分类早期乳腺癌生物亚型,现在临床对乳腺癌患者通常是观察 morphological assessment (size, grade, lymph node status) ,或者检查,ER,PR,HER2 等marker,目前的亚型主要是以下:
Pereiral等通过测序2433例乳腺癌样本的173个基因,发现40个肿瘤抑制基因和癌基因的驱动基因(多重驱动),这些基因参与的生物学过程包括:
并且发现ER+乳腺癌患者PI3K突变与不同的生存相关。
挑选的173个基因,来自于前面的TCGA计划,下面简单列出几个基因:
#Supplementary Dataset 1 - Details of genes & mutations in this study
#Genes names, positions and annotation transcripts, numbers of various classs of mutations, numbers of CNAs, numbers of samples with double mutations, whether gene was included because of homozygous deletions
完整表格见: Supplementary Data 1
大部分的分析资料都是在: Supplementary Information
纯粹分析结果在 : Somatic mutation calls and ASCAT segment files for 2,433 primary tumours are available at http://github.com/cclab-brca
但是原始数据是 EGAS00001001753 需要申请才能下载。
突变仍然是以 PIK3CA (coding mutations in 40.1% of the samples) and TP53 (35.4%) 为主。
其次就只有5个基因突变超过10%的样本了,分别是:MUC16 (16.8%); AHNAK2 (16.2%); SYNE1(12.0%); KMT2C (also known as MLL3; 11.4%) and GATA3 (11.1%) ,但是MUC16 本身的背景噪音太大,不适合二代测序这个技术。
还是那些出名的基因作者就拿出来说了说:
值得注意的是: All reads with a mapping quality < 70 were removed prior to calling.
其它策略包括:
这些策略理论上是需要引入到自己的研究里面的。
使用的是: Vogelstein et al.16 的方法 , 定位了 40个基因 , We used a ratiometric method to identify 40 Mut-driver genes
主要是区分recurrent和inactivating的突变
其中recurrent突变包括
而inactivating突变包括:
The mutation patterns of some Mut-driver genes differed by ER status.
值得注意的是:
首先是somatic的SNVs的 关系,如下图:
![](http://www.bio-info-trainee.com/wp-content/uploads/2018/07/co-mutation and mutual exclusivity-SNVs.png)
只要有了这些突变信息,比如maf格式的somatic mutations就可以用现成的R包,比如maftools来做上图。
然后是somatic的CNVs的关系,如下图
![](http://www.bio-info-trainee.com/wp-content/uploads/2018/07/co-mutation and mutual exclusivity-CNVs.png)
这个要稍微复杂一点,把拷贝数变异和点突变信息来互相联系。
前面的分析,都是根据ER表达情况来对两千多个乳腺癌患者进行分类,现在是通过作者前面发表的 IntClusts 分类来检查突变情况,下面的这个突变全景图是整个文章的精髓:
结论很清晰:
这个分析也是被 maftools 包装起来了,很容易在自己的数据里面复现这个分析点。