前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BASE:大脑年龄的标准化评估

BASE:大脑年龄的标准化评估

原创
作者头像
悦影科技
发布2024-05-24 16:01:20
490
发布2024-05-24 16:01:20

摘要:脑年龄是脑健康和相关疾病的一个强有力的生物标志物,最常从Tl加权磁共振图像推断。大脑年龄预测的准确性通常在2-3年的范围内,这主要是通过深度神经网络实现的。然而,由于数据集、评估方法和指标的差异,比较研究结果是困难的。为了解决这个问题,我们引入了脑年龄标准化评估(BASE),其中包括: (i) 一个标准化的Tlw MRI数据集,包括多站点、新的未见站点、测试-重测试和纵向数据;(ii) 相关的评估方案,包括重复的模型训练和基于一套综合的性能指标测量准确性;(iii)基于线性混合效应模型的统计评估框架,用于严格的绩效评估和交叉比较。为了展示BASE,我们综合评估了四种基于深度学习的脑年龄模型,评估了它们在使用多站点、测试-重测试、未见站点和纵向Tlw MRI数据集的场景下的性能。

1. 引言

脑年龄是通过脑磁共振成像(MRI)对生物年龄的估计,它已成为神经健康和衰老的重要生物标志物。评估大脑年龄涉及使用健康人群的输入Tlw MRI来训练机器学习模型进行年龄预测,然后在训练数据集之外应用该模型来检测不同健康状况下潜在的大脑年龄差异。例如,在患有阿尔茨海默氏痴呆症、多发性硬化,精神分裂症,以及其他疾病,如2型糖尿病、人类免疫缺陷病毒(HIV),肥胖者和维生素d缺乏者。

使用深度学习(DL)模型进行大脑年龄预测将很快在机器人研究中得到应用。然而,不同的评估协议,如使用不同的性能指标、不同的验证数据集、年龄跨度、受试者数量、Tlw预处理管道和后处理年龄偏差校正,使得研究之间的比较具有挑战性,如果不是不可能的话。虽然对新站点数据的模型评估有些常见,但对纵向数据集的评估以评估捕获与老化相关的线性趋势的能力却相当罕见。即使在进行此类评估的研究中,预测的一致性要么是视觉评估,要么是基于横断面指标,这似乎是不充分的。此外,使用不同权重初始化训练的模型或使用测试-重新测试设置的模型尚未得到系统评估。

为了弥补这些差距,我们提出了脑年龄标准化评估(BASE),旨在建立一种标准化的方法来评估脑年龄预测模型,整合最佳实践并克服现有方法的局限性。本文的组织结构如下:第2节对相关工作进行了回顾;第3节描述了BASE数据集、性能指标和评估方案,以及用于评估脑年龄模型的统计框架。第4节和第5节分别详细介绍了模型和使用BASE进行的评估;最后,第六节和第七节分别给出了讨论和结论。

2. 相关工作与贡献

最近在脑年龄预测方面的研究工作主要集中在引入新的深度学习架构,多样化的训练策略,包括级联学习和模式上的模型集成,将输入的Tlw图像修改为编码对比度和形态测量信息的双通道表示,通过仅利用图像配准到公共空间来简化预处理,并优化采样策略,以实现在整个年龄范围内均匀采样的训练集。这些研究的一个普遍缺陷是缺乏一个共同的、标准化的评价方法。

目前评估大脑年龄模型的方法主要集中在对比传统机器学习模型的性能上。在这些研究中。模型通常在同一组核磁共振成像上进行训练和测试。这样的评估可能无法完全捕获各种混杂因素,如受试者和扫描仪的可变性,从而忽略了模型性能的几个关键方面。尽管More et al.最近的综合研究深入了这些方面,但它主要关注传统的机器学习模型,从而忽略了深度学习模型固有的某些方面,例如用不同权值初始化训练的多个模型预测的可重复性,以及训练和测试数据集之间预处理中潜在变化的影响。

脑年龄模型的准确性通常是通过计算所有测试对象的平均绝对误差(MAE)来评估的,这表明生物年龄和预测年龄之间的差异。然而,MAE可能会呈现出误导性的画面,特别是当测试数据包含在训练数据中被过度代表的年龄范围时,导致更精确的预测。因此,MAE对特定年龄子区间绝对误差的可能增加(或减少)不敏感。一些研究试图通过按年龄间隔报告MAE来规避这一问题。显然需要一个稳健性指标来区分紧密拟合模型和松散拟合模型,后者在所有年龄段都表现出一致的精度,而松散拟合模型则表现出可变的精度,特别是在整个年龄跨度中代表性不足的年龄区间。

报告健康受试者脑年龄预测准确性提高的方法学研究往往缺乏严格的统计评估。相反,对患病人群的研究通常涉及统计评估。采用t检验和/或方差分析进行随机比较。值得注意的实践包括使用线性混合效应模型(LMEM)对阿尔茨海默病、轻度认知障碍、精神分裂症或抑郁症和多发性硬化症的受试者使用脑年龄作为自变量,这样一个巨大的统计框架及其量化。对于健康受试者数据集的脑年龄评估尚未建立。

年龄预测的一致性对于纵向主体内评估至关重要,特别是在跟踪疾病进展或偏离规范衰老轨迹时。虽然在提供广泛的公共数据集和基准测试平台方面取得了重大进展,其中包括多站点训练和测试数据集以及新站点数据,但涉及健康受试者的纵向数据集的研究仍然代表性不足。目前的研究通常采用视觉方法,通过在线性图上绘制纵向预测来评估纵向一致性。Dunas等人在研究中使用了定量纵向性能评估指标,计算时间点之间的线性线来分析纵向预测轨迹。虽然对斜率和截距的分析可以监测随时间的变化率,但它不能捕获有关预测差异的误差大小的信息,这将类似于MAE。这一观察结果强调了设计专门指标来评估纵向数据预测脑年龄一致性的必要性。

最后,任何生物标志物的可重复性对于实际应用至关重要,并且可以使用测试-再测试数据进行评估。然而,迄今为止,脑年龄研究要么使用(i)数量有限的重测受试者,每个受试者进行大量扫描,要么使用(ii)数量众多的重测受试者,每个受试者进行很少的扫描。评估测试-重测试一致性的最佳实践是报告类内相关系数(ICC)。另一个方面是跨DL模型实现的脑年龄预测的可重复性,考虑到初始随机权重选择,其中也可以使用ICC。然而,在涉及DL模型的研究中很少进行这样的评估。

本文的贡献是BASE,它包括(i)一个标准化的Tlw MRI数据集,包括多站点、新的未见站点测试-重测试和纵向数据集,以及(ii)一个评估方案。评估方案包括一套全面的已建立的和新颖的性能指标,用于测量脑年龄预测的准确性、稳健性、可重复性和一致性,并辅以基于LMEMs的统计评估框架。该协议不仅与我们提出的Tlw MRI数据集兼容,而且还可以用于与脑年龄预测相关的替代数据集。

3. BASE协议

如图1所示,BASE协议概述了模型训练和调优以及模型评估阶段的任务。前者包括模型训练、超参数整定、不同权值初始化的重复模型训练和预测集成。

图1 BASE协议涉及模型训练、调优(顶部)和模型评估阶段(底部),每个阶段都包含特定的任务。

模型评估阶段包括四个任务:(1)深度学习模型的性能比较和/或模型训练策略影响的比较评估,(2)对可见/未见数据集的性能评估,(3)对各自的测试-重测试和纵向数据集的可重复性和(4)一致性评估。BASE的主要结果以雷达图的形式描绘在图2中。

图2 BASE结果

BASE的构建块包括数据性能度量和统计分析框架,这些将在以下小节中详细介绍。

3.1  数据集

在开发BASE时,我们建立了四个不同的数据集。主要数据集包括多站点Tlw核磁共振,分配用于训练、验证和测试。剩下的三个数据集专门用于测试,每个数据集都有一个特定的功能:一个用于新的未见位点Tlw MRI,另一个用于重新测试Tlw MRI,最后一个用于纵向Tlw MRI。在所有数据集中,纳入的受试者都是健康的成年人,年龄从18岁到95岁不等。

多站点数据集包括7个公开可用的数据集,共包括4428个健康受试者的Tlw核磁共振成像,其中许多数据集的图像来自多家医院或站点,采用各种核磁共振成像扫描仪。西门子、飞利浦等,场强分别为1.5T和3T。OASIS 2和CamCAN数据集是仅有的在单个扫描仪上获取扫描数据集的数据集,这些数据集来自多个来源站点和供应商的合并固有地导致了采集线的变化。

所有核磁共振都进行了视觉质量检查。未通过视觉质量检查(例如由于运动伪影)的图像被排除,而年龄在18岁以下或未公开年龄的受试者被丢弃。对于进行多次Tlw扫描的受试者,我们保留了按时间顺序排列的第一张未丢弃的图像。最终,2504 Tlw MRI被接受并分为训练验证和测试数据集。每个数据集以及训练/验证/测试子集内受试者的年龄分布见补充材料。

3.2  统计分析

采用线性混合效应模型(LMEMs)表征误差与绝对误差(AE)之间的关系作为因变量,模型结构作为固定效应,被试ID作为随机效应。此配置确保来自特定主题的所有响应都通过与该主题对应的唯一附加值进行调整。通过将受试者ID视为随机效应,我们有效地适应了数据的依赖性,这源于对同一个体产生多个脑年龄预测。

对于所有模型,我们报告了估计的回归系数及其95%置信区间(Cls)。为了解释由于固定效应导致的响应变量的可变性,我们对拟合模型进行了方差分析(ANOVA),并使用估计边际均值(EMM)方法对固定因素的水平进行了两两比较,并对多重比较进行了Tukey调整。

LMEM分析在R版本4.0.4中进行,使用版本1.1.26的“Ime4”软件包。为了计算ANOVA检验的p值,我们使用了“ImerTest”3.1.3版本的软件包。最后,使用“emmeans”1.5.4版本包进行两两分析。为了统计评估纵向一致性,检验基线和随访Tlw扫描的年龄估计值之间的平均斜率是否不同于1(零假设),我们进行了t检验。

4. 脑年龄预测

4.1  数据预处理

每个输入的Tlw图像被转换成Nifti格式。对原始Tlw图像进行自适应非局部均值去噪(Manjór等人,2010)。接下来,我们使用niftyregg (Modat et al., 2014)进行了12个自由度的仿射配准,将去噪后的Tlw图像映射到第7代蒙特利尔神经学研究所(MNI)图谱空间(2009e版)(Fonov et al., 2009)。为了提高配准精度,在运行配准之前,使用N4算法对去噪后的图像应用强度不均匀性校正(w/o掩模)”(Tustison等人,2010)。仅在配准期间使用强度非均匀性校正、去噪的Tlw图像。利用得到的仿射映射,利用自插值将去噪后的Tlw图像重新采样到MNI空间,使所有预处理后的Tlw图像尺寸为193 x 229 x 193,各向同性间距为1 mm。

最后,进行两步灰度校正:(1)强度窗,基于灰度直方图计算上下阈值,并使用高斯滤波器进行平滑处理。下阈值是基于直方图的最低强度模式位置加上模式的全宽度在一半最大值(FWHM)的两倍值设置的。注意,特定模式对应于Tlw MRI图像的背景和非组织区域的灰度值。为了计算上阈值,首先将超过第99个百分位的灰度值设置为下阈值。然后通过计算二阶导数来确定强度分布中从第50到第95百分位数的拐点。上限阈值定义为所选拐点处的百分位数值加上高于下限阈值的像素强度的中位数绝对偏差(Median Absolute Deviation)的三倍。第二步(2)涉及强度不均匀性校正,利用N4算法,将MNI152地图集掩膜扩大3体素。在所有经过预处理的Tlw MRI图像中,我们通过裁剪到157 × 189× 170的大小来去除头部周围无信息的空白区域。

4.2  预测模型

为了选择RASE模型,在文献中使用了6种不同的模型,分别采用noj - j - 1 - hd,这4种模型的架构如图3所示。

图3 脑年龄预测任务中四个重新实现的CNN模型的架构

模型1是最早应用于脑年龄预测的3D回归CNN之一,并在预处理的Tlw mri上进行了训练和测试。模型2是一个多通道二维回归CNN,在15等距上训练和测试。在模型3中,采用了一种类似于模型1的模型。最近一篇关于深度学习脑年龄回归的综述论文推动了多通道2D或下采样3D模型的使用,这可能会降低通信复杂性,而对神经网络性能几乎没有影响;我们想要验证的假设。

最后,模型4是一个完全卷积的分类模型,它在非重叠的2年脑电间隔上的总体可重构性报告了大脑脑电预测的最高结果之一。在DL模型中。它在预处理的Tlw图像上进行训练和测试,使用类概率的加权和来预测年龄。

5. 实验结果

我们的实验展示了在四个任务中使用BASE对四种基于DL的脑年龄模型的客观、定量和比较评估,每个任务都有相应的一组数据、性能指标和统计分析,如下面的小节所述。

5.1  模型体系结构的影响

对第4.2节中描述的四种深度学习模型架构的性能进行了评估。我们在多站点测试集上总共训练了20个模型。最终的预测是通过对不同权重初始化模型的K = 5预测进行平均得到的。

我们评估了在多站点数据集上训练的模型的年龄预测的准确性和稳健性,这些模型是通过在多站点测试数据集上的平均集成策略获得的。我们拟合了一个以AE为因变量,主题ID为随机效应,模型结构为固定效应的LMEM。结果表明,模型1的平均集合精度最高,MAE为2.96年,ME接近于零。此外,与其他模型相比,模型1的性能导致ME和MAE的SDs相对较小。从MAE值及其SDs来看,模型1、3、4优于模型2。由于前者输入的是三维Tlw MRI,而后者输入的是二次采样的二维轴向切片。在输入3D Tlw MRI的模型中,模型4在准确性和鲁棒性方面表现最差。图2展示了模型在多站点数据集上的性能,包括MAE、ME的绝对值。

在评价观察到的差异的显著性时,采用LMEM分析和方差分析检验。结果表明模型结构对AE有显著影响。LMEM事后两两分析结果如图4所示。模型2的AE与模型1、3、4的AE差异有统计学意义。其他模型没有显著差异。

图4 LMEM模型中EMM的两两差异

5.2  在不可见站点数据集上的性能

我们的模型采用均值组合进行处理程序。我们使用所有之前训练过的20个模型来预测年龄。预测结果以散点图的形式显示在图5中。

图5 预测结果

从性能评估中可以看出,虽然所有模型都捕捉到了老化的线性趋势,但可以观察到平行于恒等线的系统偏移。所有模型都低估了整个年龄区间的年龄,这在对未见过的Tlw预处理数据的预测中尤为明显。模型1和模型4使用相同预处理的MAE分别为3.73和3.65年,未见预处理的Tlw扫描的MAE增加不到1年。模型2和模型3的增长更大,MAE从4.32年和3.93年增加到近10年和8年。当观察mMAE时,差异更加明显,增加到超过10年。

统计评估包括在偏移校正的平均集合预测上拟合两个LMEMs。第一个用于对未见数据集的预测,使用相同或未见的Tlw预处理。以AE为因变量,被试ID为随机效应,模型结构为固定效应进行拟合。方差分析结果表明,模型结构对相同和未见Tlw预处理均具有显著性。在相同Tlw预处理的数据上,LMEM拟合的EMM之间的事后两两差异有统计学意义。然而,对未见的Tlw预处理数据进行事后两两分析显示,所有对之间的差异具有统计学意义。LMEM和ANOVA分析也以性别变量及其与其他变量的相互作用作为固定效应进行了检验。方差分析显示MAE在性别方面没有显著差异,性别与模型结构的相互作用也没有统计学意义。这些发现表明,年龄预测的准确性在不同性别群体中保持稳定。

5.3  两次试验法的再现性

使用脑年龄作为生物标志物,需要在短时间内对核磁共振成像进行一致的年龄预测。具有低模型内方差,尽管潜在的准确性偏差。为了验证这一点,我们应用了所有20个模型在测试-重测试数据集上获得年龄预测。然后,我们计算了再现性指标,并使用LMEM和ANOVA进行了统计分析。

图6 预测的年龄差异(纵轴)之间的两次扫描的对象子集(横轴)

图6显示了每个受试者两次扫描之间的年龄预测差异。5个点中的每一个点表示具有5个不同权值初始化的模型。年龄预测的差异在受试者中保持一致,值接近于0。对于一些受试者,年龄预测差异达到4岁。值得注意的是,对于模型4,受试者内变异最小,这表明K=5种不同权重初始化的所有五个模型的年龄预测的大差异是一致的,因此,模型4的平均标准差最低。使用ICC计算5个模型之间预测差异的一致性,其中模型2达到了最高的一致性,其ICC为0.59。然而,结果显示所有4个模型的可靠性均为中等至较差。对于所有模型,每个单独Tlw扫描的ICC都非常出色,从模型3的0.95到模型1、2和4的0.98不等。我们推断,这种差异源于输入Tlw扫描的质量,特别是模型3的输入分辨率较低,并且模型通常具有良好的再现性。

图7 基于真实年龄和预测年龄的基线和后续T1w扫描之间的年龄轨迹

5.4  纵向的一致性

在多站点数据集上训练的所有20个模型都应用于纵向数据集。随后,计算平均集合预测,并评估一致性指标。模型4获得了最好的纵向精度和鲁棒性,尽管显示出最大的偏差。

图7显示了大约60名随机选择的受试者的年龄轨迹,基于基线和随访之间的时间顺序和预测的大脑年龄,以及他们相应的来自UKB测试集的Tlw扫描。我们期望观察到斜率接近或等于身份线(图7中的虚线对角线)。对于模型2,特定受试者的年龄差异遵循相当随机的模式,而对于模型1和4,大多数特定受试者的线似乎与身份线平行。

最后,以MAdE为因变量,模型架构为固定因素,主题ID为随机因素拟合LMEM模型。在不同的体系结构中,估计的系数差别很大。方差分析差异有统计学意义。事后两两分析显示,除模型1和模型4外,所有对之间均有统计学意义。

6. 讨论

我们提出了脑年龄标准化评估(BASE)方案,并展示了一种全面、客观、定量和有效的脑年龄评估方法。

BASE中提出的数据集和评估协议代表了一个框架,确保了不同研究的可重复性,因为它考虑并处理了影响结果可变性的混杂因素。也就是说,使用异构、多地点和多源数据集会导致MRI扫描仪特异性和生物可变性引起的结果可变性,而使用多个Tlw预处理会导致使用特定工具和实现引起的结果可变性。为了考虑模型的不确定性,我们通过使用五种不同的种子进行随机模型权重初始化来重复模型训练,并将其纳入基于LMEs的统计框架中。

我们将BASE评估与四个数据集结合在一起,每个数据集对应于一个特定方面。当提供合适的数据集时,BASE可以应用于各种其他数据集,包括来自其他模式的数据集,如功能和扩散张量MRI和正电子发射断层扫描。然而,这项研究的结果,以及任何其他研究,只有在应用于相同的数据集时才能直接进行比较,这些数据集经过相同的预处理程序。数据集属性的改变或预处理的变化可能会对模型结果产生重大影响,尽管在改变预处理时,基于准确性的模型排名在很大程度上保持不变,但MAE值可能会发生变化,这可能会阻碍研究之间的比较。

我们开发了一套详细的性能指标,以评估大脑年龄模型的准确性、稳健性、可重复性和一致性。根据研究目标,可以优选BASE评价的具体组成部分。例如,鉴于其在纵向一致性方面的最佳排名。考虑到它在已知和未知地点的准确性和稳健性,模型1最适合人口研究。

6.1  精度和鲁棒性

除了MAE之外,我们建议将ME作为补充度量纳入ME,ME允许评估整个年龄区间的偏移量。此外,我们建议报告MAE和ME的标准差,以评估模型的精度。虽然许多研究报告了MAE及其标准差。有必要澄清的是,该标准差通常是根据不同权重初始化或交叉验证折叠的重复模型训练获得的MAE值计算的,而不是针对所有受试者。前者提供了对模型可重复性的洞察,而后者提供了预测离散度的信息。在本文中,我们主张并建议报告后者,因为它提供了有关预测变异性的有价值的信息。

6.2  再现性

我们证明,最准确的模型1并不一定是最可复制的,从图2可以清楚地观察到。其中,模型4的年龄预测平均标准差最小,同时也是ICC的最大值之一。令人惊讶的是,尽管模型2的准确性较差,但对于不同权重初始化训练的模型,其年龄预测的平均变异性最低。可再现性指标在设计中是不变的,因为其目的是关注模型重现相同预测的能力。低方差但潜在高偏差的模型仍然会表现良好。因此,这些指标应该被视为准确性指标的补充,而不是替代它们。报告的ICC值高于0.94,与Franke和Gaser报告的0.9相当。尽管ICC高达0.99,但单次MRI年龄预测的标准偏差最多为1.97岁,与He等人报道的1.88岁相当。模型训练对陷入局部最优状态的敏感性可能会对使用脑年龄作为个性化临床生物标志物提出重大挑战。采用模型集成似乎是一种很有前途的策略,以减轻随机模型权重初始化的影响。

6.3  一致性

一致性评估包括使用基线和随访T1w MRI,使用MdE、MAdE和mMAdE指标评估预测年龄差异的准确性和稳健性,类似于ME、MAE和mMAE指标。尽管获得了准确和可重复的结果,但我们观察到所有测试的模型在预测纵向数据的年龄时往往不足。我们发现,斜率的平均值与理想值1存在统计学差异,即使是表现最好的模型,其平均年龄差误差也为1.2年,约为实际平均时间差2.25年的一半。

显然有必要设计专门针对一致性的模型。结合纵向数据可能提供一个解决方案,因为它可以使我们能够模拟个人的衰老轨迹。Dartora等人在训练数据集中使用了每个受试者的多个图像,与本研究的结果相比,他们的视觉结果似乎更理想。然而,在得出结论之前,需要使用拟议的一致性度量进行客观和定量的评估。

考虑到纵向数据很少,可以利用基于DL的数据增强。例如,Fu等人开发了一种方法,用于在具有解剖学上合理的图像的纵向队列中生成缺失数据。这种方法对于增强数据集以获得更好的模型性能是有益的。

6.4  研究的限制

在这项研究中,我们集中精力选择了四个基于CNN的模型,每个模型在输入维度、图像分辨率和输出表示方面都表现出显著的变化。虽然这种选择能够清晰而有重点地介绍BASE,提供对其在不同模型和应用场景中的操作的见解,但我们承认,它并没有涵盖可用模型架构的详尽阵列,包括卷积网络的各种分支和新兴的变压器架构。虽然更广泛的比较可能产生对BASE方法更全面的理解,但我们的目的是清晰和精确地介绍BASE,展示其适用性。我们鼓励在该领域的未来工作中应用BASE,无论是部分地针对其特定的应用,还是整体地,跨越更广泛的模型范围。

7. 结论

在本研究中,我们提出并论证了脑年龄标准评估(BASE)的应用。BASE包括数据集、性能指标和评估协议。使用BASE,我们评估了四种最先进的深度回归脑年龄模型,如在多位点和未见位点以及不同预处理的Tlw MRI上的准确性和稳健性,测试的再现性和纵向Tlw扫描的一致性。

参考文献:BASE: Brain Age Standardized Evaluation.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档