前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >数据挖掘 | 生信优质期刊 BIB,可重复且简单的 TCGA 数据分析思路

数据挖掘 | 生信优质期刊 BIB,可重复且简单的 TCGA 数据分析思路

作者头像
生信菜鸟团
发布2025-03-06 21:42:12
发布2025-03-06 21:42:12
360
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:Comprehensive bioinformatics and machine learning analyses for breast cancer staging using TCGA dataset
  • 中文标题:综合生物信息学和机器学习分析在使用TCGA数据集进行乳腺癌分期中的应用
  • 发表日期:04 December 2024
  • 文章类型:Case study
  • 所属期刊:Briefings in Bioinformatics
  • 文章作者:Saurav Chandra Das | Rabea Khatun
  • 文章链接:https://academic.oup.com/bib/article/26/1/bbae628/7916277

Abstract

  1. 乳腺癌是一种令人担忧的全球健康问题,包括一系列具有不同分子特征的疾病。
  2. 将复杂的计算方法与广泛的生物数据集相结合已成为解开癌症肿瘤学中复杂模式的有效策略。
  3. 本研究通过利用由癌症基因组图谱(TCGA)提供的综合数据集,深入探讨了乳腺癌的分期、分类和诊断。
  4. 通过整合先进的机器学习算法与生物信息学分析,提出了一种创新的方法来识别与不同亚型和阶段的乳腺癌相关的复杂分子特征。
  5. 本研究利用TCGA的基因表达数据,通过应用机器学习和系统生物学技术检测和分类乳腺癌。
  6. 研究人员识别了乳腺癌中的差异表达基因,并使用信号通路、蛋白质-蛋白质相互作用和调控网络进行分析,以揭示潜在的治疗靶点。
  7. 研究还突出了特定蛋白质(如MYH2、MYL1、MYL2、MYH7)和microRNAs(如hsa-let-7d-5p)的作用,这些是基于多项分析发现的潜在癌症进展生物标志物。
  8. 在癌症分期的诊断准确性方面,随机森林方法达到了97.19%,而XGBoost算法达到了95.23%。
  9. 本研究中生物信息学和机器学习的结合旨在寻找影响乳腺癌进展的潜在生物标志物。
  10. 复杂分析方法与广泛基因组数据集的结合为扩展我们对该复杂疾病的了解并提高临床结果提供了有前景的途径。

Introduction

Para_01
  1. 乳腺癌是女性中仅次于皮肤癌的第二常见癌症,也是继肺癌之后的第二大癌症相关死亡原因。
  2. 在全球范围内,乳腺癌已超过肺癌成为女性中最常诊断出的癌症。
  3. 2020年,全球估计有2261419名女性被诊断出患有乳腺癌。
  4. 据美国临床肿瘤学会预测,2023年,美国将有297790名女性被诊断为浸润性乳腺癌,而55720名女性将被诊断为非浸润性(原位)乳腺癌。
  5. 自2000年代中期以来,女性中浸润性乳腺癌的发病率每年增加约0.5%,这可能由生育率下降、初产年龄推迟以及肥胖率上升等因素驱动。
  6. 此外,预计2023年美国将有约2800名男性患上浸润性乳腺癌。
  7. 早期发现乳腺癌对于选择适当的治疗方法和降低转移风险至关重要。
  8. 乳腺癌是一种异质性和进化性疾病,具有多种体细胞突变和基因及蛋白质表达的变化。
  9. 根据孕激素受体(PR)、雌激素受体(ER)和人类表皮生长因子受体2(HER2)的表达情况,将其分为几种亚型。
  10. 每种亚型都需要特定的治疗方法,这可能影响药物抗性、癌症复发和死亡率。
  11. 识别新的临床生物标志物对于更好的患者分层、提高初次诊断的准确性以及监测乳腺癌的进展、转移和复发至关重要。
Para_02
  1. 如今,肿瘤标志物在癌症检测和治疗领域变得越来越普遍。
  2. 对于肿瘤筛查、诊断、疗效和预后评估、复发检测等,理想的肿瘤标志物应该具有高特异性和识别微小病变的能力,并能量化肿瘤负荷。
  3. 分期是一种量化癌细胞在体内转移程度的过程。
  4. 测量和评估癌细胞已扩散到身体各个部位的程度的过程被称为癌症分期。
  5. 它有助于选择最有效的治疗方法,并检测癌症扩散的程度。
  6. 此外,医生在计算生存率的过程中也使用它。
  7. 癌症肿瘤-淋巴结-转移联合工作组表示,通常癌症分为五个阶段:0期、I期、II期、III期和IV期。
  8. 除了确定癌症的大小和位置外,疾病的分期还会对是否存在癌症扩散的迹象以及癌细胞扩散到邻近组织、淋巴结和其他身体部位的程度产生影响。
  9. 对于年龄在18至55岁之间的乳腺癌患者,如果最高级别在I期被发现,5年生存率为97%,可以通过适当的治疗治愈,而II期、III期和IV期的预期5年生存率分别为92%、77%和28%。
  10. 在所有癌症中,乳腺癌突变是最常见和致命的。
  11. 当疾病在早期被发现时,患者的生存机会将大大提高。
  12. 引用文献标识在此处已被移除。
Para_03
  1. 机器学习能够揭示在庞大、嘈杂或复杂的数据集中难以识别的相关性。
  2. 这项技能特别适用于医疗领域的数据分析应用,尤其是在那些需要复杂的蛋白质组学和基因表达的应用方面,近年来这些应用已被广泛用于癌症的识别和治疗[13]。
  3. 在医学领域,常用的机器学习技术包括随机森林(RFs)[14]、支持向量机(SVM)[15-17]和决策树(DTs)[18, 19]。
  4. 例如,谢等人[20]利用光谱数据创建了SVM模型,该模型的平均准确率为100%,可用于快速且非侵入性的角膜炎检测;陈等人[21]使用SVM和DT模型快速检测胶质瘤,预测准确率约为90%。
  5. 这进一步表明,机器学习在疾病诊断方面更为适用。
  6. 支持向量机(SVM)是一种监督学习模型,能够处理线性和非线性问题,适用于分类和回归问题。
  7. 通过结合从训练集中随机选择的一系列决策树来确定测试对象的最终类别。
  8. 随机森林(RFs)是机器学习中的强大力量,因为决策树以其适应性著称,在分类和回归任务中表现出色。
  9. 决策树(DTs)在训练集中随机选择。
Para_04
  1. 在生物医学领域,使用基于基因网络的癌症预测和生物标志物筛选已经取得了一些令人鼓舞的结果。
  2. 例如,Jubair等人[22]的特定亚型网络生物标志物方法,在识别乳腺癌患者的存活率方面表现出高预测效果。
  3. Li等人[23]构建了一个模型,使用加权基因共表达网络与最小绝对收缩和选择算子(LASSO)技术相结合来预测宫颈癌患者的预后,并表明该方法是合理且可靠的。
  4. 在这项工作中,我们首先对乳腺癌与健康对照组进行了差异表达分析。
  5. Lasso是一种考虑L1类型惩罚的著名特征选择方法,这种惩罚限制了所有特征参数绝对值的总和,以确保全局最优性能以及计算效率[24]。
  6. 2021年IEEE国际生物信息学和生物医学会议发现,LASSO在多个关键分类参数上始终优于其他方法,特别是在曲线下面积(AUC)方面,而且LASSO框架可以产生比类似特征选择方法更有意义的特征选择算法[25]。
  7. 此外,Maurya等人[26]通过提取由LASSO和其他技术得出的特征基因,在癌症研究领域有效地利用了Lasso算法,从而发现了TMEM236——一种新的结直肠癌检测生物标志物。
  8. 此外,将乳腺癌的前三个阶段分为两个独立的组来进行差异表达分析:第一阶段对比随后的三个阶段,以及早期疾病对比晚期或转移性癌症[27]。
  9. 根据乳腺癌是否扩散到附近的淋巴结或其他部位,将其分为两组。
  10. 对于分期组,进行了差异表达分析。
  11. 经过PPI分析后,用于分类的最终特征基因被搜索为预后基因。
  12. 最后,使用支持向量机(SVM)、随机森林(RF)和决策树(DTs)等机器学习算法对乳腺癌及其分期进行了分类。
  13. 在这种情况下,使用我们提取的特征构建的模型在乳腺癌的早期和晚期诊断中产生了更好的结果,而检查的预后基因为乳腺癌的治疗提供了进一步的建议。
Para_05
  1. 这项工作通过结合系统生物学方法和机器学习算法,在乳腺癌研究中提出了一种新的策略——这是一种不寻常的组合。
  2. 除了提供对导致该疾病的分子通路的更深入理解外,这种方法还提高了癌症诊断和分期的准确性。
  3. 此外,发现某些与乳腺癌进展相关的蛋白质(MYH2、MYL1、MYL2、MYH7)和微小RNA(hsa-let-7d-5p)提供了新的、潜在的诊断和治疗生物标志物,为创新的治疗方法打开了大门。
  4. 通过应用复杂的计算算法来利用TCGA数据库中的广泛数据集来揭示特定阶段的遗传标记,这项工作增加了我们对乳腺癌的理解。
  5. TCGA数据库是目前可用的最大癌症数据库之一。
  6. 我们工作的某些重要贡献如下概述:
Para_06
  1. 使用来自TCGA数据集的基因表达谱数据诊断乳腺癌。
Para_07
  1. 建立差异表达基因(DEGs)的蛋白质-蛋白质相互作用(PPI)网络。
Para_08
  1. 使用 TCGA 数据集和机器学习分析对乳腺癌的不同阶段进行分类。

Materials and methods

Workflow of the analytical approach

分析方法的工作流程

Para_09
  1. 为了推进这项工作,我们从基因组数据共享(GDC)门户获取了TCGA-BRCA数据集;收集并下载了TCGA-BRCA的RNA测序数据和临床数据以进一步推进。
  2. 为了找到标记基因,我们采用了图1所示的分析方法。
  3. 首先,我们使用基因表达计数矩阵识别了BRCA数据集中的差异表达基因(DEGs)。
  4. 在此之后,根据潜在的DEG选择标准(|logFC| > 1.0 & adj.P < 0.05),对一些DEGs进行了修正。
  5. 从选定的DEGs中,选择了前10个上调和前10个下调的DEGs用于进一步检查蛋白质相互作用(PPI)、本体论和富集分析、调控分析以及药物和化学物质预测。
  6. 随后,通过生存分析,找到了最具有影响力的基因中来自前10个上调和下调基因的生存曲线。
  7. 信号传导和本体论术语的识别是基因富集分析中的第四步。
  8. 从蛋白质相互作用网络分析中识别出潜在的枢纽蛋白。
  9. 转录因子(TFs)和miRNAs是从基因调控网络分析中识别出来的。
  10. 此外,TCGA-BRCA项目中的样本被用于乳腺癌诊断和一般健康状况的实验。
  11. 在特征提取之后,选择了重要的基因作为诊断分类特征。
  12. SVM、RF、DTs、XGBoost和AdaBoost是研究人员在这项实验中使用的分类器。

图片说明

◉ 这是研究中进行的分析研究的工作流程图。

Dataset description

数据集描述

Para_10
  1. 我们从 GDC 门户网站(https://portal.gdc.cancer.gov/repository)收集了 TCGA-BRCA 基因表达数据。
  2. 在这项研究中,选择了 TCGA-BRCA 项目的转录组基因表达数据,从中获取了 1224 个样本用于进一步分析,包括 1111 个肿瘤组织样本和 113 个正常组织样本。

Analysis of differential expression gene

差异表达基因分析

Para_11
  1. 通过使用差异表达(DE)分析检查转录组数据可以分析整个基因组中与重要生物条件相关的基因表达变化[28]。
  2. 差异表达基因(DEGs)在为了获得额外的生物学见解方面发挥着至关重要的作用,例如识别富集的功能通路、基因本体论和PPI分析。
  3. 在这项研究中,使用了R包limma[29],|logFC| > 1.0且adj.P.Val < 0.05来进行差异表达分析。
  4. 将乳腺癌组织与正常组织进行比较,以识别那些差异表达的基因。
  5. 随后,根据DEGs中的logFC值选择了前10个上调和下调的基因,用于进一步过程的分析。

Analysis of the enrichment of gene set

基因集富集分析

Para_12
  1. 一种称为"基因集富集分析"的计算和统计方法通常用于确定在各种生物条件下一组确定的基因是否表现出统计显著性。
  2. 与基于基因产物的功能相关的结构和计算数据可以在基因本体(Gene Ontology,简称GO)资源中找到。
  3. GO的三个子类别——分子功能、生物过程和细胞组分——可以用来注释基因产物。
  4. 在这项研究中,我们使用了在线网络工具"Enrichr"来进行基因富集和本体分析。
  5. Enrichr是一个用户友好的基于网络的富集分析应用程序,它提供了基因列表联合活动的各种可视化摘要。
  6. 我们评估了BRCA的前10个上调和前10个下调差异表达基因的生物学相关性,使用了信号通路和基因本体术语。
  7. 在基因富集分析中,我们根据调整后的P值<0.05选择路径。
  8. 通过三个数据库——京都基因和基因组百科全书(KEGG)、BioPlanet和BioCarta——找到了顶级信号通路。
  9. 还使用Enrichr识别了顶级基因本体术语中的分子功能、生物活性和细胞组分。
  10. 我们评估了BRCA的前10个上调和前10个下调差异表达基因的生物学相关性,使用了信号通路和基因本体术语。

Identification hub-bottleneck proteins from protein–protein interaction network

从蛋白质-蛋白质相互作用网络中识别瓶颈蛋白

Para_13
  1. 分析蛋白质相互作用能显著洞察蛋白质的功能,并被认为是系统生物学和药物发现的第一步。
  2. 我们利用乳腺癌中最常上调和下调的前10个差异表达基因设计了一个蛋白质相互作用网络,使用了NetworkAnalyst工具。
  3. NetworkAnalyst是一个基于网络的应用程序,允许实验研究人员进行基因表达数据的简单和复杂的元分析。
  4. 我们通过在Cytoscape软件中使用Cytohubba获得了PPI分析中的中心瓶颈基因。
  5. Cytoscape是一个开源软件框架,可以将复杂的网络可视化与任何类型的属性数据集成。
  6. Cytohubba是Cytoscape的一个插件,可以预测和研究给定网络内的关键节点和子网络。
  7. 在一个复杂的蛋白质相互作用网络中,中心节点通常通过广泛的连接性来识别。
  8. 中心节点在调节多种生物过程和维持蛋白质相互作用网络的结构完整性方面发挥着至关重要的作用。

Analysis of gene regulatory networks

基因调控网络的分析

Para_14
  1. 为了理解转录因子(TFs)和微小RNA(miRNAs)的功能,它们在调节与乳腺癌相关的差异表达基因(DEGs)的表达方面起着重要作用,进行了基因调控网络分析。
  2. 这些研究通过使用在线工具NetworkAnalyst [35]得以完成,该工具利用了TarBase [39]和miRTarBase [40]等数据库来分析DEG-miRNA相互作用,以及JASPAR数据库[41]来分析TF-DEGs相互作用。
  3. 这些实验的目标是获得对影响乳腺癌中基因表达的复杂转录和转录后调控机制的清晰概念。
  4. 通过定义这些调控关系,对乳腺癌发病机制背后的分子机制的理解得到了提高。

Prediction of drugs and chemical compounds

药物和化学物质的预测

Para_15
  1. 使用 BRCA 中前 10 个上调和下调的基因,我们能够在本分析中创建蛋白质与化学物质和药物之间的相互作用网络。
  2. 通过使用 NetworkAnalyst 网络工具获得了结合的蛋白质-药物和蛋白质-化学物质相互作用。
  3. 分析蛋白质-药物相互作用对于理解受体敏感性所需的结构特征至关重要。
  4. 蛋白质-化学物质相互作用分析对于推进我们对生物学的理解、加速药物发现工作以及改善各种疾病的诊断和治疗至关重要。

Survival analysis

生存分析

Para_16
  1. 广泛用于癌症研究中预测和识别基因特征的一个特性是患者生存分析,它结合了基因表达和临床数据。
  2. 从差异基因表达分析中选出的前10个上调和下调基因被用于生存分析,以寻找影响乳腺癌生存的基因。
  3. 使用GEPIA2(http://gepia2.cancer-pku.cn/#index)对前10个上调和前10个下调基因进行了生存分析。
  4. GEPIA2是一个升级的网络服务器,旨在进行交互评估和大规模基因分析。
  5. GEPIA2促进了特定癌症亚型的研究和亚组比较,将基因表达测量从遗传水平扩展到转录水平。

Building the model

建立模型

Para_17
  1. 在这项研究中,我们利用了来自TCGA-BRCA研究的1224份样本用于乳腺癌阶段的诊断和分类。
  2. 这些样本包括1111份肿瘤组织样本和113份相应的对照组织样本。
  3. 主要目标是识别差异表达基因(DEGs),用作分类特征,然后用于诊断乳腺癌的早期和晚期阶段。
  4. 该数据集包含918份早期阶段样本和306份晚期阶段样本。
  5. 早期乳腺癌通常指I期和II期,而晚期乳腺癌通常包括III期和IV期。
  6. 对这些样本进行了差异分析,以识别差异表达基因,突出显示在乳腺癌组织中相对于对照组织显著上调或下调的基因,为疾病的准确诊断和分期提供了重要信息。
Para_18
  1. 这项研究采用了多种分类器以确保预测的稳健性和准确性。
  2. 这些分类器包括高斯朴素贝叶斯(GNB)、随机森林(RF)、决策树(DT)、K近邻(KNNs)、XGBoost以及带有RBF核函数的支持向量机(SVM)。
  3. 为了保证特征处于相似的尺度,每个分类器开始时都对数据进行了归一化处理。
  4. 这是一个重要的步骤,尤其对于那些对数据尺度敏感的算法来说,可以提高性能。
  5. 数据集被随机分为测试集(30%)和训练集(70%),以便为学习提供足够的信息,同时保留大量数据用于客观评估。
  6. 合成少数类过采样技术(SMOTE)被用来解决样本不平衡问题,特别是在乳腺癌早期和晚期阶段之间。
  7. 为了平衡类别分布并提高模型在少数类中的泛化能力和表现,SMOTE为训练集生成了合成样本。
  8. 测试集数据被用来评估训练好的模型,性能指标是接收者操作特征(ROC)曲线下的面积(AUC)。
  9. 较高的AUC表示更好的性能。
  10. AUC能够指示模型区分不同类别的能力。
  11. 为了确保鲁棒性和可靠性,结果通过交叉验证进行了平均。
  12. 交叉验证是一种重采样技术,用于在小样本数据上评估机器学习模型。
  13. 带有RBF核的支持向量机的决策函数可以表示为:使用RBF核,SVM的决策函数表示为:
image
image

image

Para_19
  1. 在这个情况下,拉格朗日乘子由αi表示,类别标签由yi表示,核函数由K表示,偏置项由b表示,支持向量由xi表示。
image
image

image

Para_20
  1. RF的预期结果可以表示为:
image
image

image

Para_21
  1. 个体树预测分别表示为y1,y2,...,yn,而预测类别表示为y^
Para_22
  1. 描述DT决策规则的一种方式是:
image
image

image

Para_23
  1. 给定GNB特征,一类的可能性可以表示如下:
image
image

image

Para_24
  1. XGBoost预测可以表示为:
image
image

image

Para_25
  1. 第 m 棵树的预测表示为 fm(x),M 是树的数量。
  2. ,

Results

Identification of differentially expressed genes

差异表达基因的识别

Para_26
  1. 最终发现了七千六百三十七个基因在乳腺癌组织与正常组织进行差异表达分析时表现出差异表达。
  2. 图2展示了差异表达结果的火山图,其中红点代表上调的差异表达基因(DEGs),蓝点代表下调的差异表达基因。
  3. 表1描述了BRCA数据集中排名前十的上调和排名前十的下调差异表达基因。

图片说明

◉ 图2 差异表达基因的火山图。差异表达基因是基于标准筛选的,下调基因的对数倍变化(LogFC)<1且上调基因的对数倍变化(LogFC)>1,同时P值<0.05。

- 图片说明

◉ 表1 乳腺癌中上调和下调的前10个差异表达基因。

image
image

image

Analysis of protein–protein interaction

蛋白质相互作用分析

Para_27
  1. 为了获得枢纽瓶颈基因,我们使用差异表达基因中的前10个上调基因和前10个下调基因生成了一个蛋白质相互作用网络。
  2. 图3展示了乳腺癌中前10个上调基因和前10个下调基因的蛋白质相互作用网络。
  3. 通过蛋白质相互作用分析,我们确定了四个枢纽瓶颈基因,即MYH2、MYL1、MYL2和MYH7。

图片说明

◉ 图3 是 BRCA 的前10个上调基因和前10个下调基因的蛋白质相互作用网络。较大的不同颜色的圆圈代表前4个枢纽蛋白。

Identification of signaling and gene ontology terms

信号和基因本体术语的识别

Para_28
  1. 我们采用基因集富集分析来获得功能分类和信号通路。
  2. 在这项分析中,我们使用了获得的差异表达基因中的前10个上调基因和前10个下调基因,通过包括KEGG、BioPlanet和BioCarta在内的五个全局通路数据库来识别信号通路。
  3. 分子功能、生物过程和细胞组分是三个从功能分类中获得的分类。
  4. 基于修正P值,表2和表3分别列出了前10个信号通路和功能分类。
  5. 表2和表3分别代表了基于修正P值的前10个信号通路和功能分类。

- 图片说明

◉ 表2 BRCA中获得的DEGs的前10条信号通路。

image
image

image

- 图片说明

◉ 表3 BRCA中获得的DEGs的前10个基因本体术语。

image
image

image

Identification of differentially expressed genes–microRNA and transcription factor–gene interaction

差异表达基因——微RNA和转录因子——基因相互作用的识别

Para_29
  1. 通过来自BRCA的前10个上调和下调的差异表达基因(DEGs),我们能够从miRNA-DEGs和TF-DEGs相互作用中获得调控组件。
  2. 图4表示了miRNA-DEGs的相互作用。
  3. 在图4中,紫色方块代表miRNAs,天蓝色圆圈代表DEGs。

图片说明

◉ 图4 miRNA-基因相互作用调控网络。目标调控分子由方形节点表示,而相关基因为圆形节点。◉ Target regulatory molecules are represented by square nodes, while associated genes are represented by circular nodes.

Para_30
  1. 图5展示了基于前10个上调和下调基因的TF-DEGs相互作用。在图5中,靛蓝色菱形节点代表转录因子,红色圆形节点代表相关的差异表达基因。
  2. 根据节点的度数,生成了其尺寸。四个红色圆形节点,即MYL1、MYH2、MYL2和ACTL8,被认为是重要的枢纽基因,四个菱形转录因子节点,即YY1、FOXC1、FOXL1和MEF2A,被认为是调控分子。

图片说明

◉ 图5 TF-基因相互作用调控网络。方形节点表示目标调控分子(TFs),圆形节点代表相关的DEGs。

Identification of protein–drug and protein–chemical interactions

蛋白质-药物和蛋白质-化学相互作用的鉴定

Para_31
  1. 图6代表了基于BRCA中获得的前10种上调和下调基因的蛋白质-药物和蛋白质-化学物质网络。
  2. 在图6中,红色圆形节点表示药物,蓝色五角星节点代表影响基因表达的化学化合物。
  3. 在综合网络中,MAGFA1、MUC2、IBSP、CKM和MYH2蛋白被认为是高度表达的治疗靶点。

图片说明

◉ 图6 结合的蛋白质-药物和蛋白质-化学物质相互作用网络。五角星节点表示化学化合物,菱形节点表示药物调控分子。◉ Pentangle 节点表示化学化合物。◉ rhombus 节点表示药物调控分子。

Survival analysis results

生存分析结果

Para_32
  1. 生存分析表明,在差异表达基因分析中发现的前10个上调基因和下调基因中,只有4个基因与乳腺癌的预后相关,即ACTL8、CGA、IBSP和MUC2基因,它们的生存曲线如图7所示。

图片说明

◉ 图7 ACTL8、CGA、IBSP和MUC2基因的整体生存率。

Results of different machine learning models

不同机器学习模型的结果

Para_33
  1. 表4显示了用于分类不同阶段乳腺癌的几种机器学习模型的评估指标。
  2. 每个模型都使用了大量的性能指标进行评估,包括准确率、精确率、召回率、F1分数和特异性。
  3. 乳腺癌的阶段被分为三个类别:I-II、III、IV、V;I、II-III、IV、V;以及I、II、III-IV、V,以便对各个阶段进行全面检查。
  4. 值得注意的是,随机森林(RF)和XGBoost在乳腺癌的不同阶段始终表现出良好的准确率、精确率、召回率和F1分数。
  5. 这些模型的准确率评估,即它们区分不同癌症阶段的能力,在随机森林(RF)中从85.51%到97.19%,在XGBoost中从85.51%到95.23%。
  6. 随机森林(RF)和XGBoost都产生了优秀的准确率评价,随机森林(RF)的范围是85.58%到97.20%,XGBoost的范围是85.59%到95.34%。
  7. 这些结果表明这两种方法可以一致地识别真实的阳性情况。
  8. 高召回率(随机森林(RF)为85.51%-97.19%,XGBoost为85.51%-95.23%)表明两种技术成功地收集了所有阳性样本。
  9. 此外,随机森林(RF)和XGBoost通常具有较高的F1评分,这表示准确率和召回率的调和平均数,表明它们的整体有效性。
  10. 支持向量机(SVM)也表现良好,准确率范围为63.30%-85.19%,尤其是在区分I-II阶段和III、IV、V阶段方面尤为突出。

- 图片说明

◉ 表4 模型评估指标。

image
image

image

Para_34
  1. 然而,与RF和XGBoost相比,SVM的特异性较低,表明它在正确识别实际负面场景方面可能存在困难。
  2. 决策树(DT)在各个阶段的准确性变化范围从67.22%到85.19%。
  3. 尽管DT的准确性低于RF和XGBoost,但它仍然达到了可接受的性能指标,展示了其在特定应用中的潜在价值。
  4. GNB的准确性低于其他模型,范围从63.30%到83.74%。
  5. 这表明GNB可能不如RF和XGBoost等更先进的模型那样有效地反映乳腺癌分期的复杂性。
  6. KNN取得了合理的准确性,范围从77.77%到80.63%。
  7. 尽管KNN的准确性低于RF和XGBoost,但其表现仍然相当不错,展示了其在某些场景中的潜在用途。
Para_35
  1. 总体而言,结果表明RF和XGBoost在正确分类乳腺癌的不同阶段方面是成功的,这意味着它们可能在临床实践中用于精确的诊断和治疗计划。
  2. 图8显示了精确率-召回率曲线,而图9显示了四个不同模型的ROC曲线。

图片说明

◉ 图8是随机森林、高斯朴素贝叶斯、K近邻和支持向量机(XGBoost)机器学习模型的精确率-召回曲线。

图片说明

◉ 图9展示了机器学习模型RF、GNB、KNN和XGB的ROC曲线。

Discussion

Para_36
  1. 在全球范围内,乳腺癌是导致癌症死亡的主要原因。
  2. 在发达国家和发展中国家,它都是癌症相关死亡的主要原因之一,仅次于另一种疾病。
  3. 治疗效果的提高显著减少了转移和癌症发生后的死亡率,这突显了早期识别的重要性。
  4. 及时诊断不仅提高了患者的生存率,还使得更容易实施可以减少发病率并提高总体生存率的疗法。
  5. 在欧洲各国,乳腺癌筛查主要通过乳房X线摄影或乳腺磁共振成像(MRI)进行,尽管这些技术存在一些问题。
  6. 虽然乳腺MRI可能成本较高且存在某些缺点,但放射科医生的经验对于解释乳房X光片至关重要。
  7. 这两种筛查技术被广泛使用;然而,重要的是要仔细权衡它们的优点和缺点。
  8. 在这项研究中,我们专注于使用系统生物学和机器学习方法来识别和分类乳腺癌。
  9. 我们研究了来自TCGA数据集的乳腺癌基因表达数据。
  10. 首先,我们利用了TCGA数据集中基因表达数据的差异表达基因(DEGs),然后发现了20个差异表达基因,其中包括10个上调基因和10个下调基因(表1)。
  11. 为了发现潜在的治疗靶点,我们使用PPI、分子信号通路、本体论和调控分析检查了不同表达的乳腺癌基因。
  12. 同样地,Barua等人通过系统生物学研究了分子标志物和治疗靶点[47-49]。
  13. 我们利用基因富集分析,通过发现基因本体和通路来获得乳腺癌的相关基因。
  14. 我们通过基于P值的基因本体探索鉴定了20个差异表达基因,以深入了解乳腺癌的分子重要性。
  15. GO分析中的三种类型,包括分子功能(分子层面的功能)、生物过程(生物活动)和细胞组分(基因调控活动),均使用GO数据库并通过Enricher作为注释来源进行分析[50]。
  16. 在分子功能方面,组蛋白去乙酰化酶结合和肌动蛋白结合活性是最重要的前几个GO术语。
  17. 生物过程中,肌动蛋白-肌球蛋白丝滑行和肌肉丝滑行以及细胞组分中的肌节和肌肉肌球蛋白复合物是前几个GO术语。
  18. (注:由于原文中包含了一些具体术语和专有名词,翻译时尽可能保留了其专业性和准确性。)
Para_37
  1. 肌节是肌肉细胞内发现的复杂结构。它们对于使肌肉收缩成为可能至关重要,这是运动和身体功能所必需的基本机制。这一过程还极大地有助于整体生理平衡。
  2. 一些影响运动和身体健康能力的肌肉疾病和病症可能与肌节功能障碍或调控失调有关。
  3. 组蛋白去乙酰化酶(HDACs)在乳腺癌中通过改变组蛋白蛋白来调节基因表达。这可能会影响涉及细胞生长、转移和药物抗性的基因的表达。
  4. HDAC抑制剂显示出作为潜在疗法的前景,因为它们可以逆转这些过程,并使癌细胞更容易接受治疗。
  5. 另一项研究表明,包括肌动蛋白-肌球蛋白相互作用在内的细胞骨架动力学的变化可能会间接影响乳腺癌进展的各个方面。
  6. 富集分析是识别独特于乳腺癌和其他疾病的关联的重要工具。
  7. 差异表达基因(DEGs)的KEGG通路揭示了前四条通路:心脏肌肉收缩、肥厚型心肌病、扩张型心肌病以及心肌细胞中的肾上腺素能信号。
  8. 在一项研究中,心脏肌肉收缩途径可能通过共同的分子过程或系统性后果影响乳腺癌的生长,如癌症相关成纤维细胞和肿瘤微环境中的相关信号网络所示。
  9. 根据某些研究,慢性压力似乎与乳腺癌的发展有关,这可能触发肾上腺素能信号传导途径。
  10. 此外,Tight Junction 和 Striated Muscle Contraction 通路,以及 Regulators of Bone Mineralization Homo sapiensh npp1 通路和 PKC 催化的 myosin 磷酸酶抑制性磷酸蛋白的磷酸化,被揭示为最重要的通路(表2)。
  11. 频繁的运动,通过肌肉收缩燃烧卡路里,可能会影响肌酸代谢,从而降低乳腺癌的风险。
  12. 此外,包括肌酸代谢在内的异常代谢可能促进癌症的发展。
  13. Striated Muscle Contraction 通路、PtdIns 4 5 P2 在胞质分裂中的通路和成骨细胞信号被认为在乳腺癌中起作用。
  14. 尽管这些通路主要关注肌肉功能、细胞分裂和骨骼生长,但可能与乳腺癌存在间接联系或共同的调控机制。
  15. 细胞分裂信号通路(如胞质分裂)的调控失调已被证明与癌症的发生有关。
  16. 此外,骨骼信号通路的改变可能会影响骨骼微环境,从而影响乳腺癌骨转移的过程。
  17. 蛋白质-蛋白质相互作用网络分析是确定疾病发展背后过程的关键方法。
  18. 为了获得枢纽蛋白,我们构建了一种蛋白质之间的相互作用网络。
  19. 蛋白质相互作用(PPI)分析揭示了四个枢纽蛋白,即MYH2、MYL1、MYL2和MYH7。
  20. 值得注意的是,许多细胞骨架成分(如肌球蛋白和肌球蛋白相关蛋白)的变化已与癌症的发展,特别是乳腺癌相关。
  21. 这些变化可能影响细胞迁移、侵袭和转移,这些都是癌症生长的重要因素。
  22. miRNAs和TFs通过转录后和转录机制调节基因表达。
  23. miRNAs和TFs的调控失调已成为乳腺癌发病机制中的关键机制,影响肿瘤发生、发展和转移的多个方面。
  24. 多项研究突出了乳腺癌中某些microRNA的调控失调,例如miR-21、miR-155和miR-221,这些miRNA通常过度表达并与不良预后相关。
  25. 通过特异性地靶向致癌基因或重要的肿瘤抑制基因,这些miRNA可以改变参与侵袭、凋亡和细胞增殖的关键信号通路。
  26. 此外,E2F、FOX和AP-1家族成员的异常表达TFs与乳腺癌的发展有关。
  27. TFs控制参与各种生物功能的基因的表达。
  28. 当TFs失调时,正常的基因表达模式可能会被打乱,这可能导致癌症的发展。
  29. 我们确定了与乳腺癌通路相关的最重要miRNA靶点(hsa-let-7d-5p、hsa-mir-4500、hsa-mir-34a-5p、hsa-let-7a-5p和hsalet-7c-5p),这些miRNA可能被视为乳腺癌的生物标志物和治疗靶点。
  30. 最重要的调控TFs(YY1、FOXC1、FOXL1和MEF2A)可能负责乳腺癌细胞过程相关通路的发展。
  31. 在发现的TFs中,YY1通过调节细胞周期控制和转移相关基因已被证明与肿瘤侵袭性和药物抗性有关。
  32. 另一方面,FOXC1通过调节上皮间充质转化和血管生成相关基因促进肿瘤生长和转移,导致临床结果不佳。
  33. 在另一项研究中,研究人员发现虽然FOXL1在乳腺癌中的具体作用仍不清楚,但累积证据表明它可能具有肿瘤抑制作用,减少乳腺癌细胞的增殖和侵袭。
  34. 与此同时,MEF2A通过调节与细胞增殖和生存相关的基因来促进肿瘤的发展和转移,这表明乳腺癌患者预后不良。
Para_38
  1. 除了阐明转录因子在乳腺癌中的功能外,蛋白质-化学相互作用研究还发现了其他可能的治疗靶点。
  2. 作为一种常用的化疗药物,甲氨蝶呤因其能够抑制二氢叶酸还原酶并干扰DNA合成,在治疗多种恶性肿瘤,包括乳腺癌方面显示出成功的效果[79]。
  3. 由于其能够造成DNA损伤并促进致癌作用,多环芳烃苯并芘(存在于烟草烟雾中)与乳腺癌的发展有关[80]。
  4. 化合物4-[4-(2,5-二氧代基吡咯烷-1-基)苯胺基]。
  5. 尽管尚未得到充分研究,-4-羟基丁酸显示出作为治疗剂的潜力,因为它针对特定的生物化学通路,这些通路与乳腺癌的发展有关[81]。
Para_39
  1. 此外,实施了机器学习分析以提高乳腺癌分期分类的准确性。
  2. 值得注意的是,随机森林(RF)和XGBoost在整个所有阶段始终表现出色,准确率、精确度、召回率和F1得分都很高,RF的范围从85.51%到97.20%,XGBoost的范围从85.51%到95.34%。
  3. 支持向量机(SVM)在区分I-II期和III、IV、V期方面效果显著,准确率范围从63.30%到85.19%。
  4. 然而,SVM的特异性不如RF和XGBoost。
  5. 决策树(DT)的表现各不相同,尽管高斯朴素贝叶斯(GNB)的准确率较低。
  6. KNN表现合理。
  7. 总体而言,RF和XGBoost显示出了在精确乳腺癌分期治疗中的潜力。
Para_40
  1. 这项研究对于乳腺癌的识别、分类和分期有几个益处。
  2. TCGA 数据集结合了生物信息学和机器学习,提供了对分子标志物和癌症发展的全面检查。
  3. 通过应用机器学习模型如RF和XGBoost,诊断准确性分别达到了97.19%和95.23%,这可能对临床实践非常有帮助。
  4. 通过对信号级联、蛋白质相互作用(PPI)和差异表达基因(DEG)的研究,发现了潜在的治疗靶点,使得治疗方法更加精确。
  5. 发现与癌症发展相关的关键蛋白和miRNA也为早期诊断和个性化治疗提供了有用的生物标志物。
  6. 通过实施系统生物学方法,该研究扩展了我们对乳腺癌分子通路的理解,并有助于推进个性化医疗策略,根据每个患者的独特特征定制治疗方案。
  7. 总的来说,这项研究为改善乳腺癌检测、分期和治疗进展提供了坚实的基础。
  8. 该项目的代码可在以下链接获取:https://github.com/dassaurav404/Breast-Cancer-Classification-using-Machine-Learning-andBioinformatics-Approach.git。

Conclusions

Para_41
  1. 利用系统生物学和机器学习方法对乳腺癌进行全面调查揭示了关于疾病过程和潜在治疗靶点的重要信息。
  2. 在上调基因中发现了显著的分子活动,如组蛋白去乙酰化酶结合和肌动蛋白结合,表明它们在癌症发展中起着活跃作用。
  3. 同样,下调基因与关键生物过程如肌肉纤维滑动有关,这表明细胞功能可能存在不平衡。
  4. 富集分析有助于理解刺激乳腺癌发展的通路。
  5. 主要识别出的通路包括心肌收缩和肾上腺素信号传导,表明癌症与慢性压力等系统性过程之间可能存在联系。
  6. 此外,与肌肉收缩和胞质分裂相关的通路富集突出了细胞骨架动力学在癌症发展中的作用,为治疗干预开辟了新的可能性。
  7. PPI研究揭示了MYH2和MYH7等枢纽蛋白,展示了细胞骨架成分在乳腺癌病因中的作用。
  8. microRNA和转录因子研究表明hsa-let-7d-5p和YY1等关键调节器失调,表明它们可能作为诊断指标和治疗靶点。
  9. 此外,发现具有治疗潜力的化学物质,如甲氨蝶呤和4-羟基丁酸,强调了在癌症治疗中解决特定生化通路的必要性。
  10. 此外,机器学习研究表明,诸如RF和XGBoost等模型可以可靠地检测乳腺癌分期,其中RF的准确性范围为85.51%至97.20%,XGBoost的范围从85.51%到95.34%。
  11. SVM在区分阶段I-II和III、IV、V方面显示出成功,其准确性范围为63.30%至85.19%。
  12. 然而,SVM的特异性低于RF和XGBoost。
  13. 该研究的一个关键局限是缺乏临床试验来验证发现。
  14. 尽管机器学习模型在癌症分类中表现出高准确性,但它们在实际应用中的有效性仍需进一步测试。
  15. 此外,该研究主要关注特定亚型和乳腺癌阶段,需要进一步研究以评估该方法在更广泛的乳腺癌类型和不同患者群体中的有效性。
  16. 该研究的另一个关键局限是缺乏临床试验来验证发现,因为虽然机器学习模型在分类中表现出高准确性,但需要进一步测试以评估其临床适用性。
  17. 此外,该研究的重点在于特定亚型和乳腺癌阶段,限制了其范围,需要进一步研究以评估该方法在更广泛的乳腺癌类型和不同患者群体中的有效性。
  18. 尽管使用SMOTE解决了类别不平衡问题,但数据集的不平衡,特别是在后期癌症中,仍可能影响模型性能及其有效推广的能力。
  19. 该研究的研究成果可用于实验室研究,以更好地理解乳腺癌治疗的潜在治疗靶点。
Para_42
  1. 利益冲突:无声明。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Introduction
  • Materials and methods
    • Workflow of the analytical approach
    • Dataset description
    • Analysis of differential expression gene
    • Analysis of the enrichment of gene set
    • Identification hub-bottleneck proteins from protein–protein interaction network
    • Analysis of gene regulatory networks
    • Prediction of drugs and chemical compounds
    • Survival analysis
    • Building the model
  • Results
    • Identification of differentially expressed genes
    • Analysis of protein–protein interaction
    • Identification of signaling and gene ontology terms
    • Identification of differentially expressed genes–microRNA and transcription factor–gene interaction
    • Identification of protein–drug and protein–chemical interactions
    • Survival analysis results
    • Results of different machine learning models
  • Discussion
  • Conclusions
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档