首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习方法检测癌症基因组图谱中激活的Ras信号通路

更多资讯,敬请关注

Ras通路因癌症类型不同经常变化。通常通过功能获得的KRAS、NRAS或HRAS基因突变或NF1功能丢失事件,Ras通路被激活,细胞增加转译输出,出现不受抑制的细胞增殖。胰腺癌、皮肤黑色素瘤、甲状腺癌、肺腺癌和结肠癌主要由Ras通路基因突变驱动。此外,Ras突变也被认为是导致肿瘤发生的早期事件,与不良生存率和治疗抗性相关。由于Ras通路广泛失调,研发针对该通路的特定治疗靶点是抗癌药物研发的重点之一,但Ras又很难成为治疗靶点。要改变这点,关键是能精确检测到失能基因位点。

评估Ras通路激活最直接的方法是通过Ras的靶向测序,但该方法检测不到激活的Ras表型突变体中其它基因的未知突变,而针对这类肿瘤的检测可使更多患者有靶向治疗的机会。本文编译至Cell杂志4月发表的Machine Learning Detects Pan-cancer Ras Pathway Activation in The Cancer Genome Atlas一文,介绍应用机器学习从泛癌图谱中整合出庞大的RNA测序、拷贝数和突变数据,并将该方法应用于Ras基因检测,证实泛癌Ras激活。

检测RAS信号泛癌激活

机器学习是使用数据或以往的经验优化计算机程序的性能标准。TCGA研究团队开发了一种机器学习方法,用于检测肿瘤中的异常通路活性。该模型用癌症基因组图谱(TCGA)的33种不同癌症类型9075例肿瘤数据训练,有一套完整的检测方法

使用KRAS、HRAS和NRAS突变和拷贝数增加的信息训练分类器检测肿瘤中异常的Ras活性。这3个核心Ras基因随癌症类型不同变动很大,KRAS突变在某些癌症中广泛存在,占胰腺癌的72%、结肠癌45%、直肠腺癌42%和肺腺癌31%;而NRAS突变在皮肤黑色素瘤中常见,占31%。研究团队对这些肿瘤做表达差异分析,控制肿瘤类型,比较野生型与Ras异常肿瘤之间的关系。

为使分类器的分类代表更平衡,减少性能度量上的膨胀,从33种癌症类型中选择了16种进行训练,以中位数绝对偏差(MAD)分析前8000个最易突变表达的基因,然后随机地抽取10%的样本(n=476)创建测试集。测试集内,有相同比例癌症类型和Ras状态的又被列入训练集,训练集中还包括剩余的90%样本(n=4283),含3374例Ras野生型肿瘤和909例非沉默体细胞Ras突变体。训练集内,进行5倍交叉验证。根据这些癌症类型的特征,设为训练(training)、交叉验证(CV)和保留测试集(testing),并从最初训练筛选结果中评估癌症类型的最终分类器。

KRAS、HRAS或NRAS基因的拷贝数增加和有害突变的Ras通路异常癌症类型特异性百分比。彩色方块表示癌症类型是否包含在模型训练中(来源cell)

总体而言,分类器表现出高性能。在训练过程中,分类器能检测到组织中并未暴露的Ras激活信号。最后将分类器用于全部9,075例样本,得到86.7% 的受试者工作曲线特征曲线下面积(AUROC)和61.2%的精确率-召回率曲线下面积(AUPR)。

Ras分类器由自动学习的基因权重和重要性分数构成。弹性网络罚分训练产生分类器稀疏数据,仅185个基因适用于分类。权重>0的基因和协变量解释为在激活Ras肿瘤中上调,而权重为负的基因具有野生型Ras肿瘤特征。Ras异常与野生型肿瘤之间的差异表达分析反映下游基因情况。

RAS信号分类器的基准分析

采用数种分析方法评估了Ras分类器的抗变换性。空模训练在随机拖曳基因表达矩阵上进行,保留测试和交叉验证集的AUROC约50%、AUPR 20%左右,而模型数据超过基线。同时还分别评估了分类器检测Ras突变和Ras拷贝数增加的性能。总体来说两种性能相似,但单独突变模型比组合模型好,单独拷贝数模型表现最差。模型对基因表达矩阵中剔除的KRAS、NRAS、HRAS和其它11种Ras致病基因的抗变换性稳定,也不受协变量信息的影响。

在细胞系中检测激活Ras信号

TCGA肿瘤数据训练的Ras分类器预测能否推广到细胞系呢?为了解该情况,在两个细胞系数据集上进行了测试。分类器首先应用到10个小气道上皮细胞RNA测序图谱(GEO:GSE9437),含4个野生型和6个KRASG12V表达突变体图谱。分类器正确地区分了10个中的9个,排序结果显示全部突变图谱比所有野生型谱高(P= 1.16E-2)(图3A)。尽管泛癌图谱数据不包括基因编辑的肿瘤而不能直接评估Ras致癌性,独立测试集的细胞系却能稳定地表达致癌KRAS突变体。

泛癌图谱肿瘤训练的Ras分类器应用于小气道上皮细胞数据集(GEO:GSE9437),突变细胞包括稳定表达KRASG12V突变细胞(来源cell)

接下来Ras分类器分析了癌细胞系百科全书(CCLE)737个不同细胞系对应表达和突变数据的RNA测序图谱。分类器对Ras野生型细胞系中的Ras突变(KRAS、HRAS或NRAS)打了更高分数。被预测为野生型393个细胞系中,357个被标记为野生型(阴性预测值=90.8%),但被预测为Ras突变的344个细胞系仅153个被标记为Ras突变体(精度=44.5%),即737个细胞系中有510个被正确预测,仅69.2%,精度偏低。精度低预示两种情况,要么分类器尚不能推广,要么是分类器成功识别出表型突变。

回答这两种可能的方法是用未曾提供给分类器的独立信息。首先,检测BRAF基因的突变状态,BRAF是Ras基因下游典型致癌基因。如BRAF突变模拟Ras表型突变,则为阴性,排序高会降低观察精度。与BRAF野生型细胞系相比,分类器为BRAF突变细胞系赋分明显更高。所有191个假阳性中,56个有BRAF突变,占29.3%。其余假阳性是肿瘤错误分配或肿瘤显示其它表型突变。接下来检测CCLE药理反应数据,确定Ras分类器评分是否预测了对MEK抑制剂的敏感性。结果显示Ras分类器评分与赛洛替尼(AZD6244)和PD-0325901两种MEK抑制剂敏感性高度相关。相关性主要由Ras基因野生型细胞系所驱动,暗示有几个可能是直接Ras基因测序错过的药物敏感细胞系。Ras野生型细胞系的附加突变和药物应答数据的评估结果强烈地表明,低精度极大可能是与表型突变事件相关。

最后,该分类器对有Ras突变但被视作Ras野生型的34个细胞系打分,发现这34个假阴性细胞系中有22个在COSMIC数据库中注释了突变,占64%。相反,152个真阳性中的144个有COSMIC突变体,占95%,显著高于假阴性的比例。

其它Ras通路表型突变模拟Ras激活

Ras分类器能检测NF1基因丢失,特别是在多形性胶质母细胞瘤、低级别胶质瘤、嗜铬细胞瘤和副神经节瘤等中枢神经系统肿瘤中。性能与用癌症类型和泛癌模型构建的NF1分类器相当,但这些肿瘤类型并不包含在Ras分类器的训练中。Ras分类器在结肠癌、卵巢浆液性囊腺癌和子宫体子宫内膜癌中检测NF1基因失活事件也得到改善,其预测NF1功能丢失的性能与专门训练检测该事件的不同泛癌模型相当。

用Ras分类器评估38个核心Ras通路基因,共包括34个致癌基因和4个抑癌基因;对泛癌图谱肿瘤中所有检测到的Ras通路也做评分。KRAS、NRAS和HRAS致癌基因突变的肿瘤富集高分值,致癌BRAF突变分数也被富集。但在甲状腺癌中BRAFV600 E突变绝大多数都被预测为Ras野生型。

最后,在KRAS、NRAS和HRAS野生型样本中,如有其它通路后续基因突变,Ras分类器评分增加;有KRAS、NRAS或HRAS突变的样本,通路中其它基因附加突变后,分类器得分没有改变;但其它Ras通路基因中拷贝数增加导致Ras突变样本的Ras分类器得分较低。以上结果提示Ras通路基因外的Ras基因多次突变可能增加Ras激活表型。

KRAS、NRAS、HRAS的Ras活性状态、异常突变数和其它Ras通路成员的拷贝数变化的Ras分类器评分分层。上方顶部第一行数字表示每个组样本数,第二行表示分配给活化Ras样本百分比。

讨论

研究团队提出在转录组基础上,用机器学习预测个体肿瘤Ras活性。该方法能避开某些限制,明确多个基因组检测结果,确定Ras激活情况,鉴定出更多Ras激活的患者,可作为提高肿瘤学精确性的补充研究。使用单细胞RNA测序数据训练分类器能实现罕见事件的检测,特征化瘤内异质性。随着数据规模的增加,通过构建更好算法模拟疾病异质性,研究通路错误调节下游应答,势必会改进针对个体肿瘤多个靶点的多模型治疗。

资料来源

Way, G.P.,et al. Machine Learning Detects Pan-cancer Ras PathwayActivation in The Cancer Genome Atlas.Cell Reports, 2018, 23, 172–180.

(特约翻译:邝琦;常务编辑:马娃妮)

欢迎垂注我们的微信号:RoizmanSiitm

深圳罗兹曼国际转化医学研究院

由美国芝加哥大学微生物、分子基因生物学系和芝加哥大学医学院的终身教授,美国科学院、医学院、发明家学院/中国工程院外籍院士伯纳德•罗兹曼(Bernard Roizman Sc.D.)创办,学院重在培养科研人才,在中国进行转化医学研究和生物医药的研发,并对研究成果进行产业化。

伯纳德•罗兹曼(Bernard Roizman Sc.D.)简介

伯纳德•罗兹曼是美国芝加哥大学微生物、分子基因生物学系和芝加哥大学医学院的终身教授。他毕生从事于单纯疱疹病毒的分子生物学研究,拥有“疱疹病毒之父”之称。罗兹曼终身致力于对疱疹病毒分子生物结构的全方位解读,在破译单个病毒基因功能以及部分基因对病毒潜伏感染和激活的作用,以及病毒改造治疗癌症等领域取得重要进展。

地址:深圳市大鹏新区葵涌街道金业大道140号生命科学园A10栋

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180713G0DHES00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券