最近接了几个不同癌症队列的panel测序数据分析项目,大多是在基因加、南京世和等公司购买的panel和测序服务。
数据分析我们一般希望是从fastq的测序数据文件开始,但是因为并不是常规肿瘤外显子,所以使用agilent的v6不管用,很多流程都需要其panel对应的个性化的bed文件。但是找那些公司索取的时候,居然说是保密的???
我就纳闷了,基因列表有什么好保密的?本身在各个会展都可以看到公司的panel的宣传啊,那些基因明明是打印出来了作为宣传单!
而且,文章发表的时候也得放附件啊!比如文章:《Genomic analysis of multiple myeloma using targeted capture sequencing in the Japanese cohort》的 附件就很清楚列出来了基因:
基因列表
一般来说就是5个步骤:
需要病人的属性,maf格式的somat 的snv信息,以及segment格式的cnv信息,得到全景图如下所示:
snv和cnv的突变全景图
这样的结论是:
绝大部分病人都有somatic的突变位点,而且112个基因至少在两个及以上的病人出现过,这些基因上面共有747个突变位点,有5个基因在10个以上的病人出现了。
segment格式的cnv信息很容易跑gistic2软件,然后继续载入maftools就可以得到如下所示的拷贝数变异图
病人的临床分类就很个性化了,比如这个就区分并且展现在了前面的突变全景图里面,如下所示临床分类:
但是最后作者在图里面展现的是按照年龄划分:
按照年龄划分
这个文章主要是探讨了 HRD is known to increase in frequency with age, and a similar trend was observed in our cohort (P < 005).
突变的临床关联探讨
一般来说,肿瘤panel涉及的基因就几百个,跑个循环就可以挑出来了那些有统计学显著的,比如文章就展示了:
生存分析确定临床意义
我在生信技能树多次分享过生存分析的细节;
生存分析是目前肿瘤等疾病研究领域的点睛之笔!
如上所示的分析,主要是基于R语言的统计可视化,收费8000元,如果是从fastq文件开始,就涉及到快递硬盘,涉及到计算机资源租用,价格翻倍哈!
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
所以我们也有课程推荐: