前言
甲状腺结节(thyroid nodule),是指在甲状腺内细胞增生后出现的团块,高达30%的甲状腺结节不能被病理学准确地分为良性或恶性。目前恶性结节治疗的主要手段为切除甲状腺,由于现有的甲状腺结节良恶性诊断手法,存在过度治疗或过度诊断的现象。由于甲状腺结节恶性程度低等原因,甲状腺结节良恶性诊断试剂盒基因水平上的改变并不明显,存在较大误诊的可能性。
近日,西湖大学生命科学学院郭天南组、工学院李子青组等合作研究团队,采用PCT-DIA技术对578例患者1725个甲状腺组织样本进行了蛋白质组定量分析。运用蛋白质组学技术系统分析了近千例甲状腺结节病人组织样本的蛋白质组差异,结合人工智能机器学习,鉴定到可区分甲状腺结节良恶性的蛋白质分子标记物的组合,临床应用准确率达到了90%,将有望克服当前甲状腺结节良恶性诊断的难题。相关研究成果已于近日以Protein Classifier for Thyroid Nodules Learned from Rapidly Acquired Proteotypes为题在预印版平台medRxiv上线。
研究方法
1.实验设计及临床数据收集
组织样本包括(i)来自新加坡综合医院(n=579个结节)的发现集;(ii)来自中国四家医院的独立测试集,包括回顾性测试集FFPE样本(n=288个结节)和前瞻性测试集FNA活检(n=64个结节)。发现集包括40个正常甲状腺组织(N)、203个多结节性甲状腺肿(MNG)、137个滤泡(FA)、75个滤泡癌(FTC)和124个乳头状癌(PTC)。在随后的分析中,这些被分为良性(包括N,MNG和FA)和恶性(包括FTC和PTC)甲状腺结节。总共分析了1725个样本,随机分配到121个批次中,以尽量减少批次效应;另外56个随机选择的样本作为技术重复,这些技术重复在前84批中随机分配。
图1 | 技术路线图
2.甲状腺结节的蛋白组学数据
为了分析DIA数据,采用了包含52个DDA的FFPE组织构建了一个特定的甲状腺组织蛋白数据库(DDA库),包含33802个肽段和5190个蛋白。对1725个FFPE和56个技术重复样本进行DIA检测,鉴定到30915个肽段和3708个蛋白。其中2617个蛋白的平均表达强度值进行热图绘制(图2A),恶性组织表达的蛋白数量比良性组织高,表明恶性肿瘤细胞的蛋白质更加多样。为了检查由此获得的蛋白质类型是否对不同组织进行分类,应用UMAP对来自5种组织类型的579种蛋白质进行分析(图2B)。结果表明,PTC样品与其它样品分离良好,表明PTC样品在蛋白质组表达与其他样本有很大差异。
图2 | 热图(A)和UMAP分析结果图(B)
3.蛋白标志物的筛选鉴定及验证
使用机器学习中的人工神经网络技术,即一种“模仿”人脑,由大量的节点(类似人脑中的“神经元”)相互联接构成的运算模型,对良性与恶性结节的蛋白组数据进行了分析,筛选到包含14个关键性蛋白的蛋白标志物组合(表2),能够对良性与恶性甲状腺结节进行有效区分。
比较了7种不同的机器学习模型,用这14个选择的蛋白质进行分类。ROC曲线图显示,基于人工神经网络的AUC值为0.95和准确度为0.91(图3B)。利用建立的神经网络模型中的14个蛋白,在发现队列中的500个样本中,每个样本被重新划分为良性或恶性。使用交叉验证数据集(n=79)验证该模型,ROC图显示AUC值达到了0.96(图3C)。t-SNE图显示,14个蛋白panel可以显著区分良性和恶性组织。
为了在一个独立的患者队列中验证这个14蛋白panel,分析了来自三个医院的288个FFPE组织(n=271个患者)。使用14蛋白模型对三家医院组织样本的蛋白表达数据进行ROC分析,AUC值达到了0.91以上,t-SNE图显示甲状腺良恶性组织之间存在明显的分离(图3D)。考虑到最终目标是将此分析应用于术前FNA 活检,我们将验证扩展到从第四个独立临床中心获得的64个FNA样本(n=62名患者)的单独前瞻性队列,AUC值为0.89(图3E),正确识别了56个样本,其中敏感性、特异性、PPV和NPV分别为87%、89%、95%和、73%。事实上,蛋白质组学分析发现这两者之间有明显的重叠,甚至可能代表同一个疾病的连续不同阶段。提示我们对良性甲状腺结节进行前体病变诊断的重要性,以期能够预防疾病的恶化和转移。
图3 | 机器学习建模(A)和ROC及t-SNE分析结果图(B、C、D、E)
4.蛋白标志物的筛选鉴定及验证
蛋白组数据显示,91种蛋白与滤泡肿瘤相比显著升高,参与多种代谢途径中,包括TCA循环和氧化磷酸化(图5B)。FTC和fvPTC之间没有显著的蛋白质类型差异,然而,与cPTC相比,fvPTC中有45种蛋白显著上调。参与炎症反应的三种蛋白质ANXA1、 LGALS3和SOD2,在tp53和MYC相关网络中显示出最大的倍数变化(图5G);细胞间粘附分子ICAM-1和信号转导及转录激活因子STAT1在cPTC中过表达,这些蛋白是潜在的免疫调节靶点。
图4 | 甲状腺肿瘤亚型的生物学研究
总结
综上所述,对931例甲状腺结节组织样品(包括发现组n=579,回顾性阵列n=288,前瞻性阵列n=64),进行了系统的蛋白质组学分析,结合神经网络机器学习鉴定到包含14个关键性蛋白的蛋白标志物组合,能够对良性与恶性甲状腺结节进行有效区分。研究是目前最系统的临床组织样品蛋白质组学研究之一,证明了基于蛋白质组学结合神经网络的疾病分类方法在临床肿瘤的应用潜力,也为其他疾病的大阵列临床组织样本的分析提供了新的思路。
END
领取专属 10元无门槛券
私享最新 技术干货