TCGA肿瘤亚型定义与分类模型开发
图 1. 癌症类型及其亚型 本项目研究的癌症队列及其亚型概述,按用于定义亚型的基因组数据类型进行颜色协调。对于特定的癌症类型,亚型通过相应的嵌入式器官视图周围的环表示。每个环中的断裂表示不同的亚型。如果某个亚型由多种数据类型共同决定,则使用同心弧表示。仅显示包含两个或更多样本的亚型;带“x”标记的小型亚型因样本数量不足而被排除在分类器开发之外。详见表 S1。
图 2. 研究流程
用于定义子类型的 数据类型会影响预测性能和分类器选择的特征
图 3. 分类器性能指标概述
模型在外部分组验证测试中重现了PAM50分类结果
更多的输入数据类型或众多特征并不能提升模型性能
图 4. 单一数据类型模型 vs. 多组学模型的性能比较
在大多数癌症类型中,mRNA特征在顶级模型中占主导地位
各方法共有的特征反映了已知的肿瘤生物学特性
图 5. 最优模型的特征集分析(A–D)分析四个癌症队列的最优模型特征集重叠情况。(A) BRCA(基于基因表达聚类的亚型划分),(B) COADREAD(基于DNA甲基化聚类的亚型划分),(C) SKCM(基于突变聚类的亚型划分),(D) LGGGBM(基于DNA甲基化聚类的亚型划分)。对于每个癌症队列,我们确定了每种方法的最佳模型。模型最多可选择100个特征,JADBio例外,其特征集最多仅限25个。选定特征集的重叠情况通过Upset图表示。柱状图显示了五种方法的最优模型之间的特征共享情况。每个癌症队列中至少被两个或更多模型选择的特征集被定义为该队列的“核心”特征集。热图展示了核心特征的层次聚类分析,基于所有样本的主要数据类型测量值。样本行按照亚型组织。方法注释面板显示最小-最大归一化的特征重要性值,其中1表示最重要特征(整个模型特征集均被归一化,而不受具体方法影响)。基因符号(热图列)采用红色标记,以指示其属于相应的注释列表:PAM50成员基因(BRCA),与DNA甲基化相关的文献支持基因(COADREAD和LGGGBM队列)。详见图S4。
分类器特征集汇聚于共同的通路
图 6. 分类器特征的通路及生物学意义
通过元分析确定的分类性能的影响因素
图 7. 影响亚型分类准确性的因素
训练分类器需要多少样本?
图 8. 新样本最佳模型选择指南
研究的局限性
主要联系人
材料可用性
数据和代码的可用性
关键资源表
实验模型和研究参与者详情
方法详情
队列和癌症亚型定义
分类器模型开发
数据集创建
构建单特征矩阵
过滤掉缺失值
单一数据类型矩阵的合并
构建一个机器学习方法的集合
预测性能评估
顶级模型的容器化
将模型应用于外部数据集
性能与功能集大小的关系
聚合TCGA亚型特征
生成通路图
可视化癌症通路
评估路径距离
峰度富集分析
特征富集分析
亚型水平基因集富集分析
量化与统计分析
额外资源