众所周知,肿瘤外显子是TCGA计划的6大数据之一,而TCGA数据库是目前最综合最全面 的癌症病人相关组学数据库,包括:
DNA Sequencing(主要是肿瘤外显子) miRNA Sequencing(很小众) Protein Expression array (基本上不用) mRNA Sequencing(数据挖掘玩烂了的) Array-based Expression (基本上淘汰了) DNA Methylation (也是有点小众) Copy Number array(会跟肿瘤外显子重叠的生物学意义) 知名的肿瘤研究机构都有着自己的TCGA数据库探索工具 ,比如:
Broad Institute FireBrowse portal, The Broad Institute cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center我们也针对TCGA数据库写了大量的笔记,包括:
使用curatedTCGAData下载TCGA数据库信息好用吗 TCGA官方数据挖掘文章教你机器学习or深度学习 免费视频课程-TCGA数据库分析实战 把tcga大计划的CNS级别文章标题画一个词云 TCGA数据库的normal样本不够可以拿GTEx来凑 学徒作业-单基因的tcga数据挖掘分析 给你tcga数据库过万病人的原始测序数据你可以做什么 TCGA数据库里面你的基因生存分析不显著那就TMA吧 49G的TCGA数据库文件大全给你下载好啦 TCGA数据库免疫相关文件下载大全 并不是只有TCGA计划里面的癌症研究才做多组学 TCGA数据库LUSC亚型批量差异分析 TCGA数据库的各个癌症甲基化芯片数据重新分析 也就是说,任意癌症,很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息,包括SNV和CNV,这样的话,除非大家感兴趣的疾病并不在TCGA数据库里面,或者说具有其它特殊性(比如人种),否则都不建议继续设计这样的简单的课题了。
而且肿瘤外显子价格也不便宜,数据分析也对绝大部分初学者来说不友好。在全新服务器配置肿瘤外显子数据处理环境。流程步骤:
获取fastq文件(aspera从ebi的ena数据库下载,prefetch从ncbi的sra数据库下载,自己测序) fastqc+trim-galore 质量控制 baw的比对 GATK工具套件一站式处理 mutect2看配对样品的somatic突变 CNVkit2看配对样品的拷贝数变异 其它 如果仅仅是为了得到队列的somatic突变信息,包括SNV和CNV,如果是样品数量太少了, 很难得到可以讲故事的点,课题就搁浅了。。。。
比如新加坡团队的2023发表的鼻咽癌文章:《Clinical efficacy and biomarker analysis of dual PD-1/CTLA-4 blockade in recurrent/ metastatic EBV-associated nasopharyngeal carcinoma》,就是有一个肿瘤外显子队列,样品数量很少:
To determine the genomic landscape, identify active mutational signatures, and explore the utility of tumor mutation burden (TMB) as a biomarker of response, whole-exome sequencing was performed on available tissue and matched blood normal (n = 20). 因为早期已经是有了七八个鼻咽癌的肿瘤外显子队列文章,这样的话,他们的这个数据分析得到的结论基本上没有什么新颖之处:
mutational landscape of these tumors was generally bland with a median TMB of 0.75 mut/Mb (range: 0.04–14.56), corroborating previous reports The most frequently mutated genes included TP53, FAM135B, COL3A1 and EP300 The most common mutational signatures were Cosmic signatures SBS5 and SBS40 也就是说,仅仅是看了看somatic突变信息里面的SNV,这些分析我们五年前就都系统性梳理过:
使用R包deconstructSigs根据已知的signature进行比例推断 使用R包SomaticSignatures进行denovo的signature推断 下载TCGA所有癌症的maf文件做signature分析 TCGA各大癌症的somatic突变全景图鸟瞰(动态交互) 根据肿瘤突变信息计算一系列指标 你真的理解体细胞突变吗? 突变位点生存分析 比较不同的肿瘤somatic突变的signature 一步一步用Snakemake搭建gatk4生成正常样本的germline突变数据库的流程 学徒作业-两个基因突变联合看生存效应 多位点取样外显子测序看食管癌的肿瘤内部突变异质性(逆向收费读文献2020-15) SNV突变(96种)频谱的制作 0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 样品数量为多少的肿瘤外显子队列合适呢? 其实回答这个问题并没有意义,样品数量当然是越多越好,但是绝大部分情况下都需要考虑经济情况,没有经费没有病人样品,说什么都没有用。
哪怕是队列纳入的样品数量再小,也是可以得到队列的somatic突变信息,包括SNV和CNV,绘制突变全景图,看突变特征频谱等等。
较小的样本规模可能在特定情况下满足研究需求,但较大的样本规模通常可以提供更全面和可靠的结果。同时,样本数量的选择也要考虑实验设计的合理性,例如是否包含对照组和实验组、是否涵盖不同的肿瘤类型和临床分期等。最终的决定应该根据具体研究问题和实验条件进行权衡。对于肿瘤外显子测序研究,样品数量的选择需要综合考虑以下几个因素:
研究目标和问题 :如果研究目标是寻找罕见的突变或特定的基因变异,样品数量可以相对较少。但如果研究目标是探究广泛的基因变异和复杂的肿瘤异质性,样品数量应该相对较多。统计分析的可靠性 :样品数量越多,统计分析的可靠性越高。较大的样本规模可以提高对差异表达基因、突变等变异的检测能力,减少偶然性的影响。实验成本和资源 :样品数量的增加会带来实验成本和资源的增加。需要根据实验经费和实验室资源来平衡样品数量和研究目标。统计分析要求 :某些复杂的统计分析方法,如生存分析、群落分析等,可能对较大的样本规模有更高的要求。公共数据库数据的可用性 :如果可以结合公共数据库的数据,样品数量可以适当减少