Basic Information 英文标题:A data-efficient strategy for building high-performing medical foundation models 中文标题:构建高性能医疗基础模型的数据高效策略 发表日期:05 March 2025 文章类型:Article 所属期刊:Nature Biomedical Engineering 文章作者:Yuqi Sun | Bo Yan 文章链接:https://www.nature.com/articles/s41551-025-01365-0 Abstract Para_01 基础模型是在大规模数据集上进行预训练的。然而,收集医学数据集既昂贵又耗时,并且会引起隐私问题。 在这里我们展示,通过使用疾病标签进行条件生成的合成数据可以用于构建高性能的医学基础模型。 我们对视网膜基础模型进行了预训练,首先使用了大约一百万张具有与真实图像结构和特征分布一致的生理结构的合成视网膜图像,然后仅使用了最近报告的一个视网膜基础模型(RETFound)所需的904,170张真实世界彩色眼底摄影图像中的16.7%。 这个高效的数据利用模型在九个公开数据集和四个诊断任务上的表现与RETFound相当或更好;对于糖尿病视网膜病变分级,它仅使用了RETFound所需专家标注的训练数据的40%。 我们也通过建立一个用于检测胸透片中结核病的分类器来支持高效数据利用策略的泛化性。 文本条件生成的合成数据可能提高医学基础模型的性能和泛化能力。 Main Para_01 医学基础模型最近在几个领域出现,如眼科学、网络生物学、病理图像分析 和胸部放射学,为可以应用于众多下游任务的医学人工智能 的发展提供了新的方向。 医学基础模型通过大规模数据预训练来提取可泛化的特征表示。 研究人员可以通过微调少量具有明确标签的数据轻松地将这些模型适应于特定任务。 然而,对大量医学数据的需求给医学基础模型的发展带来了巨大的挑战。 获取大量医学数据极其昂贵且耗时,特别是在需要高精度设备的领域,例如磁共振成像(MRI),以及需要长期患者跟踪的领域,例如肿瘤学和神经退行性疾病。 此外,大规模预训练的医学数据通常从多个中心收集到一个集中机构,这大大增加了暴露患者隐私的风险,因为集中中心可以访问丰富的个人患者信息。 鉴于这些挑战,开发一种高效的数据利用预训练范式,以从有限的实际世界预训练数据集构建医学基础模型至关重要。 这种方法可以有效缓解目前阻碍医学基础模型发展的几个问题,包括数据稀缺、资源需求量大和隐私问题。 Para_02 生成式人工智能旨在使用深度神经网络学习给定数据集的潜在分布,并生成与原始数据相似的新样本。 各种生成模型架构,如变分自编码器(VAE)13、生成对抗网络(GAN)14和扩散模型15,16,17,已被广泛应用于医学领域,用于发现和设计新数据,例如蛋白质序列生成18,19,20、药物发现21,22,23、分子设计24,25,26,27以及医学影像28,29,30。 生成式人工智能的最新进展,如GLIDE31、DALL-E32和稳定扩散16,已经将自然语言处理 模型与图像处理 模型相结合,以生成与文本提示相对应的真实图像33。 与传统的生成模型相比,这些可控的多模态模型已经在数百万对图像-文本上进行了训练,具备灵活的零样本生成能力和有价值的医学信息在其潜在表示中34。 通过将精确的医学线索纳入这些模型,研究人员可以在特定医疗领域灵活地生成高质量和多样化的医学图像35,36,37,38。 此外,生成的医学图像是保护患者隐私的显著优势,因为它们不直接反映任何真实个体的信息39,40。 这些特性激励我们利用可控的生成式人工智能创建大规模合成数据集,从而减轻构建医学基础模型所需的大规模数据收集工作。 Para_03 在探索使用生成式人工智能提高构建医学基础模型的数据效率的方法时,眼科人工智能是一个值得注意的选择,原因如下:全球范围内眼保健面临重大挑战,据世界卫生组织称,至少有22亿人遭受视力障碍的困扰;最新的视网膜基础模型RETFound1,预训练于数百万张现实世界的视网膜图像上,可作为基准来验证使用生成数据构建医学基础模型的有效性;视网膜图像展示了多种眼部疾病(超过30种)的临床特征,这可以有效地验证医学基础模型对不同疾病的泛化能力;并且多项研究表明,生成的视网膜图像是特定任务(如血管分割和年龄相关性黄斑变性分级)中的数据增强有价值。 根据世界卫生组织的数据,至少有22亿人遭受视力障碍的困扰 Para_04 在这项工作中,我们提出了一种数据高效策略,通过利用可控生成式人工智能,从有限的医疗数据中开发基础模型。 工作流程如图1所示,包括以下阶段:第一阶段,我们通过在真实世界医疗数据上微调来将特定领域的疾病信息集成到可控生成式人工智能中,然后使用疾病概念作为条件创建大规模合成医疗数据集; 第二阶段,使用自监督学习(SSL)技术在生成的数据和真实医疗数据上连续预训练基础模型,以预热模型参数并学习准确的医学表示; 最后阶段,通过监督微调带有明确标签的数据,将基础模型调整到特定任务。 Fig. 1: Overview of data-efficient strategy for building medical foundation models with generative AI.
- 图片说明
◉ 第一阶段从受控的生成式人工智能上创建大规模的合成医疗数据,该人工智能是在真实世界的医疗数据上训练的。◉ 第二阶段通过在合成数据和真实数据上使用两阶段的自监督学习技术来构建基础模型。◉ 第三阶段使用带有明确标签的数据上的监督微调来将基础模型适应到下游任务。
Para_05 遵循这一策略,我们仅使用了真实世界彩色眼底摄影(CFP)图像的16.7%(150,786张图像,标记为150k),构建了一个新的眼科视网膜基础模型,称为RETFound-DE(RETFound1需要904,170张图像,标记为900k)。 这些图像的信息见补充表1。 我们使用最新的多模态生成型人工智能,稳定扩散16,学习CFP图像和视网膜疾病概念(如"增殖性糖尿病视网膜病变"和"分支视网膜静脉阻塞")之间的分布关系,并创建了一个包含约100万张CFP图像的合成数据集(图2a)。 在大规模合成图像和有限的真实世界视网膜图像上进行预训练后,RETFound-DE在四个下游任务中的九个公开数据集上的表现与RETFound相当甚至更优,这些任务包括糖尿病视网膜病变分级、青光眼诊断、AMD分级和多病种分类(图2b)。 我们还通过外部评估、标签效率和微调时间效率验证了RETFound-DE的表现,展示了RETFound-DE作为眼科医学基础模型的出色竞争力。 此外,我们进行了变量控制实验,说明了合成视网膜图像对开发RETFound-DE的性能和效率的积极影响。 最后,我们还在胸部X射线图像上进行了实验,进一步证明了我们高效数据策略 的普适性。 Fig. 2: Schematic of RETFound-DE and consistency between real and generated retinal images in image and feature spaces.
- 图片说明
◉ 我们使用稳定的扩散模型来模拟视网膜图像和疾病概念的条件分布,并创建了一个包含约1百万张CFP图像的合成数据集。◉ RETFound-DE的下游任务。我们评估了RETFound-DE在适应四种眼科疾病检测任务中的性能,包括糖尿病视网膜病变分级、青光眼诊断、年龄相关性黄斑变性分级和多疾病分类。◉ 真实和生成的视网膜图像的视觉说明。我们使用扩散方法根据各种疾病标签生成具有不同临床表现的视网膜图像。生成的视网膜图像与真实的视网膜图像具有相同的生理结构,如血管、视盘和病理特征。◉ 来自真实和生成的视网膜图像的t-SNE可视化、直方图和CDF图。我们使用RETFound提取特征。结果显示,在特征空间中,真实和生成的视网膜图像具有相似的分布。我们进行了5轮随机抽样,每轮从真实和合成的数据集中各抽取20,000张图像,然后计算这些图像的平均分布以防止抽样偏差。
Results Model architectures and experimental setting 模型架构和实验设置
Para_01 通过使用稳定扩散来建模视网膜疾病概念和图像的联合分布,我们基于各种医学概念灵活地生成了具有多种临床表现的视网膜图像。 具体来说,我们使用疾病标签作为文本提示来组织150,786对视网膜图像-文本,并微调Stable Diffusion v.1.4以形成视网膜扩散模型。 基于视网膜扩散模型,我们使用疾病标签作为条件创建了一个包含约100万张CFP图像的合成数据集。 合成视网膜图像数据集包括23种最常见的单一疾病类别和17个多疾病类别。 真实和合成视网膜图像的文本提示以及相应的图像数量见补充表2和3。 我们将RETFound-DE的表现与以下基础模型的表现进行比较:SSL-ImageNet和RETFound。 为了获得公平的比较,每个模型使用相同的网络架构(视觉变换器44)、SSL预训练技术(掩码自动编码器45)以及下游任务的微调过程。 SSL-ImageNet在ImageNet-1k(约140万张自然图像)上进行了预训练。 RETFound用SSL-ImageNet的参数初始化模型,并进一步在90万张真实的CFP视网膜图像上进行预训练。 RETFound-DE采用与RETFound相同的初始化策略,但在约100万张生成的视网膜图像和15万张真实视网膜图像上依次进行预训练。 我们在四个眼科疾病检测任务中的九个公开可用的数据集上评估RETFound-DE的适应性,包括(1)糖尿病视网膜病变分级,(2)青光眼诊断,(3)AMD分级和(4)多疾病分类。 下游数据集的信息见补充表4。 接收者操作特征曲线下的面积(AUROC)和精确率-召回率曲线下的面积(AUPR)被用来评估不同模型的表现。 对于每个下游任务实验,我们用五个不同的种子训练模型并评估其性能,以获得五个用于统计分析的结果。 我们使用双侧t检验计算RETFound-DE和RETFound之间的P值,以确定是否存在统计学上的显著差异(P<0.05表示存在显著差异)。 Consistency between real and generated retinal images 真实视网膜图像与生成视网膜图像之间的一致性
Para_01 生成的视网膜图象具有与真实视网膜图象相同的生理结构,如血管和视盘,并且具有糖尿病视网膜病变中的病理特征如硬性渗出物(图2c)。 为了测量生成和真实视网膜图象之间特征分布的一致性,我们随机采样了20,000张真实视网膜图象和20,000张生成视网膜图象,使用RETFound提取特征,并应用t分布随机邻域嵌入(t-SNE),一种降维技术,来可视化和比较特征分布在一个低维度的空间。 我们进行了五轮随机采样,并计算了这些样本的平均分布,以防止抽样偏差。 图2d通过t-SNE可视化、直方图和累积分布函数(CDF)图展示了生成和真实视网膜图象之间的特征分布差异,显示两者在特征分布上没有显著差异。 病理结构和特征分布的一致性为在后续的自监督预训练阶段使用生成的视网膜图象提供了坚实的基础。 Performance in downstream tasks 下游任务的表现
Para_01 我们评估了RETFound-DE在四种眼科疾病检测任务中的表现。 AUROC的结果如图3a所示,AUPR的结果如扩展数据图1a所示。 扩展数据图2展示了几个数据集的混淆矩阵。 所有定量结果列于补充表5和6中。 Fig. 3: Performance in downstream tasks.
- 图片说明
◉ 内部评估。我们在4个下游任务中的9个公开数据集上微调了预训练模型:糖尿病视网膜病变分级、青光眼诊断、AMD分级和多疾病分类。◉ 与RETFound相比,RETFound-DE在6个数据集上的表现显著优于前者(P < 0.05),在其余3个数据集上的表现相当(P > 0.05)。◉ 外部评估。基础模型在一个糖尿病视网膜病变分级数据集上进行了微调,并在另一个数据集上进行了评估。◉ 当在IDRID上进行微调并在MESSIDOR-2上进行评估时,RETFound-DE的表现明显优于RETFound(P < 0.001)。◉ 我们展示了AUROC的均值±95%置信区间。列出的P值是使用双侧t检验计算得出的。
Para_02 糖尿病视网膜病变(DR)是一种影响糖尿病患者的常见眼病。 糖尿病视网膜病变分级旨在更早地检测到DR,以便及时干预以防止病情恶化并保护视力。 我们将RETFound-DE应用于三个糖尿病视网膜病变分级任务:Kaggle APTOS-2019(参考文献46)(n = 3,662),IDRID47(n = 516)和MESSIDOR-2(参考文献48)(n = 1,744)数据集。 这些数据集中的每张图像均基于国际临床糖尿病视网膜病变严重程度五级量表进行标注(从无糖尿病视网膜病变到增殖性糖尿病视网膜病变)。 与RETFound相比,RETFound-DE在Kaggle APTOS-2019数据集上的表现相当,AUROC为0.9578(95%置信区间(CI)0.9549,0.9608)。 在IDRID和MESSIDOR-2数据集上,RETFound-DE的表现显著优于RETFound,AUROC分别为0.8433(95% CI 0.8304,0.8561)和0.8774(95% CI 0.8734,0.8814),特别是在MESSIDOR-2数据集上(P < 0.001)。 RETFound-DE在这三个数据集上的AUPR结果也具有竞争力(扩展数据图1a)。 Para_03 青光眼是一组由高眼压、视神经损伤和周边视力丧失所导致的退行性神经系统疾病。它是全球范围内不可逆失明的主要原因。 我们将RETFound-DE适应于三个青光眼诊断数据集:PAPILA49(n = 489),Glaucoma Fundus(n = 1,544)和ORIGA50(n = 650),这些数据集被标记为无青光眼、青光眼或疑似青光眼。 RETFound-DE在这三个数据集上的表现相当,其中在PAPILA和Glaucoma Fundus数据集上表现出色,在ORIGA数据集上表现显著更优(P < 0.001),其AUROC为0.7319(95%置信区间为0.7228至0.741)。 PAPILA和ORIGA数据集上的AUPR结果也显示,RETFound-DE显著优于RETFound(P = 0.035 和 P < 0.001,扩展数据图1a)。 Para_04 年龄相关性黄斑变性是一种由于黄斑退化引起的眼部疾病,黄斑是视网膜中负责精确和向前视觉的中央区域。 这种疾病主要与年龄增长有关,已成为老年人群视力受损的主要原因之一。 我们在年龄相关性眼病研究(AREDS)中通过微调RETFound-DE进行了AMD分级,AREDS是一项长期的多中心前瞻性研究,旨在研究AMD的临床进程。 AREDS提出了一种简化的AMD临床分类系统,分为四类:非AMD、轻度、中度和晚期AMD。 为了验证RETFound-DE在一个有限的标注数据集上的表现,我们随机选择了800名患者,共包含5,768张图像。 AUROC和AUPR结果显示,RETFound-DE的表现显著优于其他方法(P < 0.001)。
Para_05 除了特定的眼部疾病外,最近的深度学习 研究42已经集中在检测多种眼部疾病。 我们评估了RETFound-DE在视网膜(n = 601)和JSIEC(n = 1,000)42数据集上的多疾病分类性能。 视网膜数据集包含四个类别:正常、白内障、青光眼和其他疾病。 RETFound-DE在AUROC和AUPR结果上显著优于RETFound(0.8733和0.7478,而RETFound为0.8256和0.6385)。 视网膜数据集的混淆矩阵(扩展数据图2)显示,RETFound-DE在每个类别中的检测准确性更高。 JSIEC数据集涵盖了39种不同的疾病类型,如糖尿病性视网膜病变、青光眼、AMD、白内障、视网膜静脉阻塞和视网膜动脉阻塞。 RETFound-DE达到了0.9962的AUROC(95%置信区间0.9957至0.9968)和0.9074的AUPR(95%置信区间0.8993至0.9155),也显著优于RETFound(P < 0.001)。 Labelling and fine-tuning time efficiency 标记和微调的时间效率
Para_01 我们随后从标记效率和微调时间效率方面比较了RETFound-DE与SSL-ImageNet和RETFound,这些指标指的是深度学习模型达到目标性能所需的明确标记的训练数据和训练时间。 高标记效率和微调时间效率可以减少专家的注释工作量以及微调过程中的计算成本。 图4a显示,在IDRID、青光眼眼底和视网膜数据集上,RETFound-DE达到了与RETFound相当的标记效率。 值得注意的是,在MESSIDOR-2数据集上,RETFound-DE比RETFound表现更好,标注的训练数据减少了60%。 AUPR结果(扩展数据图3a)也表明,RETFound-DE达到了与RETFound相当的标记效率。 我们在图4b中展示了微调时间效率。 RETFound-DE显示出与RETFound相当甚至更高的微调时间效率。 它们在青光眼眼底数据集上表现相当,在IDRID、MESSIDOR-2和视网膜数据集上,RETFound-DE比RETFound用更少的时间实现了更好的性能。 微调时间效率的AUPR结果如扩展数据图3b所示。 虚线灰色线突出了RETFound和RETFound-DE之间的差异。 Fig. 4: Labelling and fine-tuning time efficiency.
- 图片说明
◉ 标记效率是指为了使基础模型适应下游任务时达到目标性能所需的训练数据量和标签量。◉ RETFound-DE 和 RETFound 在 IDRID、青光眼眼底和视网膜数据集上表现出相当的标记效率。◉ 在 MESSIDOR-2 数据集上,RETFound-DE 比 RETFound 表现更好,可以节省 60% 的标记训练数据。◉ 微调时间效率是指为了使基础模型适应下游任务时达到目标性能所需的微调时间。◉ RETFound-DE 和 RETFound 在青光眼眼底数据集上的微调时间效率相当。◉ 在 IDRID、MESSIDOR-2 和视网膜数据集上,RETFound-DE 比 RETFound 用更短的时间实现更好的性能。◉ 彩色线条表示 AUROC 的平均值,95% 的置信区间以彩色带表示。◉ 虚线灰色线条突出显示了两种模型之间的差异。
External evaluation in downstream tasks 下游任务的外部评估
Para_01 医学人工智能的泛化能力对于其在临床环境中的应用至关重要,因为它涉及处理‘分布外’数据,这些数据在训练过程中未见过,例如来自不同人群和设备的数据。 我们通过外部评估来检验基础模型的泛化能力,这意味着在一个数据集上微调模型,然后直接在另一个来自不同数据中心 的数据集上进行评估。 我们首先在糖尿病视网膜病变分级任务中比较了RETFound-DE与SSL-ImageNet和RETFound,因为它们都是基于5级国际临床糖尿病视网膜病变严重程度量表进行标注的。 图3b显示,在两个外部实验中,RETFound-DE的泛化能力与RETFound相当(P > 0.05)。 当在IDRID数据集上微调并在MESSIDOR-2数据集上评估时,RETFound-DE的AUROC达到了0.8029(95%置信区间0.7939至0.8119),显著高于RETFound的0.7669(95%置信区间0.758至0.7758)(P < 0.001)。 外部评估的AUPR结果也证明了RETFound-DE具有出色的泛化能力(扩展数据图1b)。 Para_02 为了展示使用大规模合成数据在泛化性方面的价值,我们还比较了RETFound-DE(标记为‘使用合成数据’)与一个基线模型SSL-ImageNet-Retinal(150k)(标记为‘不使用合成数据’),后者仅在150k张真实的视网膜图像上进行了预训练。 图5展示了‘使用合成数据’和‘不使用合成数据’的外部验证。 我们在来自全球6个不同数据中心的8个数据集上进行了外部验证,涉及糖尿病视网膜病变分级和青光眼诊断任务。 结果显示,在所有跨中心的外部验证中,‘使用合成数据’的表现显著优于‘不使用合成数据’(在7项任务中P<0.001,在1项任务中P=0.03)。 这些实验表明,使用大规模合成数据进行预训练可以增强基础模型的鲁棒性和泛化能力。 Fig. 5: Cross-centre external evaluation for models pretrained with and without synthetic data.
- 图片说明
◉ ‘With synthetic data’表示我们的基础模型RETFound-DE,该模型是在大规模合成数据和15万真实数据上预训练的。◉ ‘Without synthetic data’表示我们的基线模型SSL-ImageNet-Retinal(15万),该模型仅在15万张真实视网膜图像上进行预训练。◉ 我们在来自全球6个不同数据中心的8个数据集上进行了外部验证,涉及糖尿病视网膜病变分级和青光眼诊断任务。◉ 预训练模型在一个国家的数据集上进行了微调,并直接在另一个国家的数据集上进行评估。◉ 结果显示,在所有跨中心外部验证中,RETFound-DE(含合成数据)显著优于SSL-ImageNet-Retinal(15万)(7项任务的P<0.001,1项任务的P=0.03)。◉ 左侧:我们报告了使用5种不同随机种子微调的两个预训练模型的统计结果,并展示了AUROC的均值±95%置信区间。◉ P值是通过双侧t检验计算得出的。◉ 右侧:我们也报告了使用五种随机种子之一训练的两种模型的ROC曲线结果。
Pretraining data and time efficiency 预训练数据和时间效率
Para_01 我们进一步验证了在数据和预训练时间效率方面使用合成数据进行预训练的必要性,这指的是构建基础模型所需的现实视网膜图像的数量和预训练时间。 我们将RETFound-DE与基准模型SSL-ImageNet-Retinal进行了比较,后者采用了与RETFound相同的预训练范式,但仅限于有限的现实视网膜图像(从40k到150k)。 图6a展示了RETFound-DE和SSL-ImageNet-Retinal在不同数量的真实视网膜图像预训练后的下游任务表现对比。 随着用于预训练的真实视网膜图像数量的增加,SSL-ImageNet-Retinal在四个下游任务上的性能逐步提升。 与SSL-ImageNet-Retinal相比,RETFound-DE在每个任务中的表现均有显著提高。 特别是,当仅用40k真实视网膜图像进行预训练时,RETFound-DE在IDRID和MESSIDOR-2数据集上优于RETFound,表明在合成数据上预训练可以增强基础模型在有限数据量下的医学表示能力。 AUPR结果如扩展数据图4a所示。 Fig. 6: Data and pretraining time efficiency.
- 图片说明
◉ 合成数据对使用不同数量的真实数据进行预训练的影响。随着用于预训练的真实视网膜图像数量的增加,SSL-ImageNet-Retinal 在四个下游任务上的性能逐渐提高。◉ 通过使用生成的图像进行预训练,RETFound-DE 相比 SSL-ImageNet-Retinal 显示出显著的性能提升。◉ 在 IDRID、MESSIDOR-2 和 Retina 数据集上,当仅使用 4 万张真实视网膜图像进行预训练时,RETFound-DE 的表现优于 RETFound。◉ b, RETFound-DE 和 SSL-ImageNet-Retinal(150k)在五个到六个 8-A100 天匹配的计算时间内表现。◉ 我们使用 8-A100 天来表示使用 8 块 NVIDIA A100 GPU 进行 1 天的预训练时间。◉ 在这次训练阶段中,两种模型的预训练数据集都是 15 万张真实视网膜图像的数据集。◉ 在所有四个下游数据集内,在相同的预训练时间内,RETFound-DE 持续优于 SSL-ImageNet-Retinal(150k)。◉ 红色虚线表示 RETFound 的 AUROC 性能。◉ 彩色线条表示 AUROC 的平均值,并且 95% 的置信区间以彩色带的形式可视化。
Para_02 我们还比较了在不同预训练时间后,SSL-ImageNet-Retinal (150k) 和 RETFound-DE 在下游任务中的表现。 我们使用 8-A100 天作为单位来表示使用 8 块 NVIDIA A100 GPU 运行 1 天的预训练时间。 RETFound-DE 首先在合成图像(约 100 万张)上进行了五次 8-A100 天的预训练,然后在 15 万张真实视网膜图像上进行了 1 次 8-A100 天的预训练(总共六次 8-A100 天)。 为了公平比较,我们在 15 万张真实图像上对 SSL-ImageNet-Retinal (150k) 进行了六次 8-A100 天的预训练。 图 6b 显示了在匹配的预训练时间为五到六次 8-A100 天的情况下,SSL-ImageNet-Retinal (150k) 和 RETFound-DE 的表现。 在这段时间内,这两种模型的预训练数据集都是 15 万张真实视网膜图像。 在不同的预训练时间内,RETFound-DE 始终优于 SSL-ImageNet-Retina (150k)。 AUPR 结果如扩展数据图 4b 所示。 我们还展示了 RETFound-DE 和 SSL-ImageNet-Retinal (150k) 在合成图像和 15 万张真实视网膜图像上的预训练损失(补充图 1)。 在对合成数据进行预训练之后,RETFound-DE 在 15 万张真实视网膜图像上进行了 200 轮(一次 8-A100 天)的预训练,并收敛到了与 SSL-ImageNet-Retinal (150k) 相同的损失水平,后者经过了 1,200 轮(六次 8-A100 天)的预训练。 Exploring the usage of synthetic data 探索合成数据的使用
Para_01 接下来,我们将讨论使用合成数据的具体情况,以全面了解生成数据的使用,并帮助研究人员更好地理解和评估在构建医学基础模型时使用生成数据的优缺点。 具体的实验设置和结果见补充说明。 我们首先分析了平衡分布的合成数据对医学人工智能模型性能的影响。 结果显示,平衡的合成数据集有助于提高在真实不平衡数据集中代表性不足的疾病上的模型性能(补充说明1和图2、图3)。 然后,我们探讨了生成图像数量与模型性能之间的关系。 我们发现预训练模型的性能随着合成数据量的增加而逐渐提升,但当数据量达到90万和120万时,性能和训练损失几乎没有变化(补充说明2和图4a、图5)。 此外,我们还研究了保持模型性能稳健所需的最少真实图像数量。 结果显示,预训练模型在只有100张和1000张图像时表现不佳,在图像数量达到10000张时性能显著提升(补充说明3和图4b)。 最后,我们分析了使用不同版本的稳定扩散(SD)模型对生成图像质量的影响。 结果表明,包括SDv.1.4、SDv.2.0和SDXL在内的各种版本的稳定扩散模型都能够生成逼真的视网膜图像。 Experiments on chest X-ray images 胸部X光图像上的实验
Para_01 我们对胸部X光(CXR)图像进行了实验,探讨了我们的数据高效策略在扩展到其他医学领域的潜力。请参阅补充说明5以获取更多细节。 我们首先从CheXpert51数据集中选择了100,000张图像,并应用自监督学习(SSL)来预训练一个基础模型,命名为CXRFM,作为我们的基准。 随后,我们选择了20,000张图像(占CXRFM使用图像的20%)来训练一个CXR生成模型,并生成了80,000张合成CXR图像。 按照我们的策略,我们依次在合成和真实数据上进行预训练,构建了一个模型,命名为CXRFM-DE。 为了评估CXRFM-DE的性能和泛化能力,我们在两个与结核病相关的数据集上进行了内部和外部验证:ShenzhenCXR52和TBChest53。 我们的内部验证显示,CXRFM和CXRFM-DE在ShenzhenCXR上的表现相似,并且显著优于SSL-ImageNet,而所有模型在TBChest上的表现都很高(扩展数据图5a)。 外部验证表明,当在TBChest上微调并在ShenzhenCXR上评估时,CXRFM和CXRFM-DE的表现相当,两者都超过了SSL-ImageNet。 当在ShenzhenCXR上微调并在TBChest上评估时,CXRFM的表现优于CXRFM-DE(扩展数据图5b)。 最后,我们通过比较CXRFM-DE(标记为‘带有合成数据’)与仅在20,000张真实CXR图像上预训练的SSL-ImageNet-CXR(标记为‘没有合成数据’),检查了合成数据对模型泛化的影响。 CXRFM-DE显著优于SSL-ImageNet-CXR(20k),证明了合成数据在增强模型泛化方面的价值(扩展数据图5c)。 这些发现与我们之前关于视网膜图像的结果一致,强调了我们策略在其他医学领域中泛化的潜力。 Discussion Para_01 在这项研究中,我们介绍了一种数据高效的战略,该战略利用可控的生成式人工智能来创建大规模的合成数据集,为缓解构建医学基础模型所需的大量数据收集工作提供了有效的解决方案。 我们收集了150,786张真实的CFP视网膜图像(仅占RETFound中图像的16.7%),并创建了一个包含约100万张CFP图像的合成数据集。 在相继使用合成和真实数据集进行预训练后,我们构建了一个新的眼科视网膜基础模型RETFound-DE。 我们的实验评估提供了广泛的证据,表明RETFound-DE在适应到四个下游任务中的九个数据集时,在提高模型性能、泛化能力、标签和微调时间效率方面显示出与RETFound相当或更优的能力,这四个下游任务包括糖尿病视网膜病变分级、青光眼诊断、AMD分级和多疾病分类。 我们也提供了强有力的证据,证明在大规模合成数据上进行预训练可以提高模型性能,增强泛化能力,并提高预训练数据和时间效率。 我们的数据高效策略为许多以前由于数据有限而无法建立基础模型的医学领域提供了宝贵的见解。 Para_02 我们的工作受到了许多在医疗保健领域成功的生成式人工智能应用的鼓励。 Para_03 许多研究利用生成式人工智能合成逼真的图像进行数据增强,以提高特定任务中监督模型的性能。 最近,多模态生成式人工智能已被用于审计推理过程和改善医学分类器的公平性。 这些努力展示了生成式人工智能在构建可解释、高性能且更公平的医学人工智能模型方面的潜力。 我们的工作通过创建大规模的合成数据集来将生成式人工智能集成到医学基础模型的构建过程中。 该合成数据集包含来自23种单病类别共912,088张图像(占72%)和来自17种多病类别共352,907张图像(占28%),总计1,264,995张图像。 单病类别包括真实视网膜图像数据集中最常见的23种疾病,如可识别青光眼、糖尿病视网膜病变、年龄相关黄斑变性和分支视网膜静脉阻塞等。 此外,我们通过组合单病类别的文本描述来合成多病图像,例如"可识别青光眼、轻度非增殖性糖尿病视网膜病变"。 我们还通过比较生成图像与真实图像之间的特征一致性来进行自动图像质量评估,证明了使用生成图像进行预训练的可行性(图2d)。 该合成数据集包含了多样化、逼真且典型的图像,为提升基础模型的性能(图3)和泛化能力(图5)提供了极大的支持。 Para_04 在预训练阶段,RETFound-DE 使用 MAE45,57(掩码自编码器)从未标记的视网膜图像中学习视网膜特定的表示。 MAE 的目标是从高度掩码的图像块中重构原始完整的视网膜图像,仅使用有限的可见信息,这要求模型捕捉基本的视网膜结构(补充图 7a),如血管和视神经等对眼科疾病诊断至关重要的结构。 RETFound 使用在 ImageNet-1k(约 140 万张自然图像)上预训练的权重来增强其对视网膜图像的表示。 通过在一个包含大量生成视网膜图像的数据集上进行预训练,RETFound-DE 受益于一种更有效的参数初始化策略,这些生成的图像具有与真实视网膜图像相同的图像结构。 与 SSL-ImageNet-Retinal 相比,后者类似于 RETFound 但仅在更少的数据(15 万)上进行预训练,RETFound-DE 在使用真实视网膜图像进行预训练时,在模型性能(图 6)、泛化能力(图 5)和收敛速度(补充图 1)方面实现了显著提升。 此外,我们的策略不需要比 RETFound 多出更多的预训练时间,后者需要 800 个 epoch 的预训练。 我们在生成的视网膜图像上对 RETFound-DE 进行了 600 个 epoch(五个 8-A100 天)的预训练,并在 15 万张真实视网膜图像上进行了 200 个 epoch(一个 8-A100 天)的预训练。 训练过程的更多细节在方法部分描述。 Para_05 尽管在预训练过程中只使用了150k张真实的视网膜图像,RETFound-DE作为基础模型在各种医学应用中展示了出色的性能。 在四个下游视网膜疾病诊断任务中的九个数据集上,RETFound-DE的表现与RETFound相当或更优(图3a和扩展数据图1a)。 特别是,在IDRID、MESSIDOR-2、ORIGA、AREDS、Retina和JSIEC数据集上,RETFound-DE显著优于RETFound,展示了其对视网膜图像的强大医学表示能力。 RETFound-DE通过识别视网膜图像中的疾病相关病变来提高眼科疾病诊断的性能。 例如,我们展示了RETFound-DE在推理过程中能够识别糖尿病视网膜病变中的硬性渗出物和青光眼中的视杯(补充图7b)。 基础模型的另一个重要功能是减少下游任务所需的专家标注数据和模型训练时间。 图4展示了RETFound-DE的高度标注效率和微调时间效率。 在MESSIDOR-2数据集上,它仅使用了40%的标记训练数据就达到了RETFound的性能。 我们在胸部X射线图像上的实验进一步证明了我们高效的数据策略在扩展到其他医学领域的潜力。 Para_06 尽管我们的结果显示生成的数据可以有效地构建具有有限真实医疗数据的高性能医疗AI模型,我们建议在使用生成的数据时需要谨慎和仔细考虑。 最近的研究成果表明,在递归生成的数据上训练的AI模型崩溃的现象突显了过度依赖合成内容的潜在危险。 虽然本研究主要关注于无条件生成文本和手写数字图像,但它引发了对在更复杂环境中使用的生成数据的风险和挑战的关注。 我们将这一讨论扩展到医学领域,重点关注疾病标签条件下的医疗图像生成。 我们在下面讨论了几个潜在的风险和挑战,这可能为未来使用大量合成数据集来构建医疗AI模型的研究人员提供见解。 Para_07 主要挑战之一是开发大规模合成数据的自动化质量评估方法。 合成数据的质量对于医学人工智能模型的可靠性至关重要,因为低质量的数据可能导致错误或不相关的学习,从而对临床表现产生负面影响。 传统的专家评估方法对于大规模合成数据来说是不切实际的,因为评估一个小样本无法充分代表整体数据质量,而评估大量数据则消耗大量的时间和资源。 因此,必须开发大规模合成数据的自动化质量评估方法。 这包括建立标准化的质量指标,以确保生成模型能够产生一致且逼真的图像,这对于提高合成数据在医学人工智能应用中的可信度至关重要。 Para_08 另一个担忧是使用大规模合成数据集进行预训练可能引入的潜在偏差。 我们分析了生成的视网膜图像中的偏差问题,并以人口分布为例进行了研究。 我们发现,在合成数据上预训练的模型表现出与用于生成这些模型的真实数据相同的人口偏差(补充说明6和表8)。 此外,我们探索了使用可控的人工智能生成方法创建具有偏差意识的合成数据集的方法,通过在图像中指定敏感属性。 例如,我们在文本提示中加入了年龄和性别信息,如‘年龄69岁,女性,疾病:中度非增殖性视网膜病变’,这反映了疾病状况和敏感属性。 扩展数据图6展示了关于不同年龄和性别子群体,真实偏差意识数据集与合成偏差意识数据集特征分布的一致性。 最近的一项研究表明56,这种方法可以增强解决未充分代表疾病和少数群体的模型的公平性。 这很有价值,因为最近的一份报告59发现,真实医疗数据集中的广泛偏差可能导致人工智能模型频繁地由于依赖人口统计学捷径而无法对新、未见过的数据保持公平。 我们建议研究人员仔细考虑由合成数据引入的潜在偏差。 这包括开发专门设计用于生成公平数据的生成模型,收集更平衡的真实医疗数据,并在创建合成数据集时考虑可能影响未充分代表疾病和少数群体的具体敏感属性。 Para_09 此外,在医学人工智能中,滥用和伪造合成数据的可能性是一个重要的关注点。 合成数据可能被用来伪造研究结果或创建欺诈性的医疗记录,从而削弱对医学研究和临床决策的信任。 此外,存在合成数据可能模拟不现实的临床场景的风险,导致不适当或有害的医疗干预。 确保合成数据的质量和相关性涉及严格的验证过程、监管监督以及伦理使用的教育。 通过解决这些挑战,我们可以利用合成数据的优势,同时保护医学研究和实践的完整性。 最终,过度依赖合成数据会导致模型过度拟合合成场景,并且无法很好地泛化到真实世界的数据。 这种过度依赖可能导致忽视高质量真实世界数据的收集和使用,而这些数据对于实际应用中验证和测试模型至关重要。 此外,合成数据无法为真实数据中不存在的群体或疾病创建表征。 因此,它无法扩展数据集以包含这些缺失的人群或条件。 这一局限性凸显了加强医疗机构和研究人员之间数据共享与合作的重要性,以推动通用人工智能模型的发展。 总的来说,我们描述了一种数据高效的策略,利用生成式人工智能扩大视网膜基础模型RETFound-DE的预训练数据集,从有限的真实视网膜图像(15万张)开始。 当应用于各种眼部疾病检测任务时,RETFound-DE在眼科疾病的检测、标注和微调效率方面表现出色。 变量控制实验表明,在预训练数据集有限的情况下,生成的数据对构建RETFound-DE有积极影响。 我们的工作展示了在基础模型开发中大幅节省数据集获取成本的潜力,从而为那些因数据有限而一度不被鼓励建立基础模型的其他疾病提供了一个有效的解决方案。 Methods Datasets 数据集
Para_01 我们从多个公开的数据集中收集了150,786份CFP,包括AIROGS60、Kaggle EyePACS、DDR和ODIR-2019。 在这几个数据集中,有101,442张图像是来自AIROGS,这是一个包含54,274名患者用于青光眼筛查的大数据 集。 AIROGS的年龄分布平均值为56.7,标准差为10.2。 分别从Kaggle EyePACS和DDR获得了35,126张和7,218张图像用于糖尿病视网膜病变分级。 来自ODIR-2019的共有7,000张图像,这是一个包含白内障、近视、糖尿病视网膜病变、AMD和青光眼的多疾病分类数据集。 AIROGS和Kaggle EyePACS数据集中的图像是来自美国的,而DDR和ODIR-2019则是来自中国的。 这四个数据集涉及了多种成像设备,包括佳能CR1/DGi/CR2(佳能)、Optovue iCam(Optovue)、拓普康NW(拓普康)、DRS(Centervue)、蔡司和小瓦。 我们在补充表1中列出了真实数据集的详细信息。 在使用数据的过程中,我们遵守所有相关的指导方针和伦理规定。 Synthetic retinal images dataset 合成视网膜图像数据集
Para_01 合成视网膜图像数据集主要包含912,088张图像(72%)分布在23个单一疾病类别和352,907张图像(28%)分布在17个多疾病类别,总计1,264,995张图像。 单一疾病类别包括了真实视网膜图像数据集中最常见的23种疾病,包括可治疗的青光眼、糖尿病性视网膜病变、年龄相关性黄斑变性、分支视网膜静脉阻塞等。 此外,一些真实数据集中的图像具有多个疾病标签。我们通过创建单一疾病类别的文本组合来合成多疾病的图像,例如‘可治疗的青光眼,轻度非增殖性糖尿病性视网膜病变’。 我们在补充表2和表3中列出了每种类别的疾病类别和图像数量。 Datasets for downstream tasks 用于下游任务的数据集
Para_01 我们评估了模型在四个眼疾检测任务中的表现,涉及九个公共数据集。 Kaggle APTOS-2019(印度)、IDRID(印度)和MESSIDOR-2(法国)用于糖尿病视网膜病变分级。 这些数据集中的每张图像都基于5级国际临床糖尿病视网膜病变严重程度量表进行标记,从没有糖尿病视网膜病变到增殖性糖尿病视网膜病变。 对于青光眼,包括PAPILA(西班牙)、Glaucoma Fundus(韩国)和ORIGA(新加坡)。 ORIGA将每张图像标记为青光眼和非青光眼,而PAPILA和Glaucoma Fundus则有三个类别标签:非青光眼、早期青光眼(疑似青光眼)和晚期青光眼。 对于年龄相关性黄斑变性,本研究使用了AREDS数据集。 AREDS包含来自4,757名参与者超过134,500张CFP,并且每张图像有4个AMD类别:非AMD、轻度、中度和晚期AMD。 为了评估RETFound-DE在有限标注数据上的表现,我们随机选择了800名患者中的5,768张图像。 对于多疾病分类,我们使用了JSIEC(中国)和Retina(印度)。 JSIEC包含1,000张图像,涵盖39种常见可转诊的眼部疾病和状况。 Retina的数据标签包括正常、青光眼、白内障和其他视网膜疾病。 数据集的详细信息,如成像设备、国家和标签类别,在补充表4中列出。 我们在使用数据时遵守了所有相关的指导原则和伦理规定。 Image generation process 图像生成过程
错误!!! - 待补充 错误!!! - 待补充
Para_03 我们使用了稳定扩散模型作为我们的骨干来构建视网膜图像扩散模型(补充图8)。 稳定扩散模型通过使用CLIP33将文本嵌入引入扩散模型作为条件来支持从文本到图像的生成。 为了整合这一点,我们为每张15万张真实的视网膜图像创建了一个相应的文本标签。 对于带有明确标签如青光眼的图像,文本设置为‘一张青光眼的彩色眼底摄影视网膜图像’。 对于没有标签的图像,文本设置为‘一张彩色眼底摄影视网膜图像’。 我们在15万对视网膜文本到图像的数据上微调了Stable Diffusion v.1.4。 学习率为1 × 10−5,批量大小为4。 微调迭代次数为60,000,在一块NVIDIA Tesla A100(80 GB)GPU上耗时2天。 微调后,我们使用视网膜图像扩散模型进行文本到图像生成来生成视网膜图像。 生成步骤如下: [ol]- (1) Text embedding. We controlled the generation of specific categories of retinal images through a text-to-image approach. The text conditions were crafted from the disease category labels of the retinal images. In the data generation process, we first converted the input text prompt ({\rm{{str}}{{prompt}}}) into tokens using a tokenizer, and then adopted the pretrained CLIP text encoder to extract text embedding (y) with a fixed dimension (77 × 768 in Stable Diffusion v.1.4). In addition, a blank prompt ({\rm{{str}}{{blank}}}) was introduced as an unconditional embedding ({y}{{\rm{uncond}}}) to generate a latent without specific condition. - (2) Sampling latent vector. In the inference phase, the input latent for U-Net should be a noise vector from a standard Gaussian distribution. Therefore, we directly sampled a vector (\bf{z}) from the standard Gaussian distribution as input, with dimensions of (B\times c\times h\times w). Here, (B) is the batch size, (c) is the number of channels, and (h) and (w) represent the height and width, respectively. In Stable Diffusion v.1.4, (c=4,,h=w=64). To simultaneously generate conditioned and unconditioned results, we duplicated the latent and input them both into U-Net. - (3) Diffusion process. Before performing the diffusion process, it is necessary to specify the diffusion steps (T) and text guidance scale ({s}{{\rm{text}}}). The diffusion process aims to gradually transform the initial random noise latent ({\bf {z}}{0}) into the target image’s latent ({\bf{z}}{T}) through (T) iterative steps. For each step (t), we sent the latent from (t-1) step and text embeddings into U-Net to estimate the denoised latent. Specifically, we obtained a text-condition latent prediction ({\bf{z}}{t}^{{\rm{text}}}) and an unconditional latent prediction ({\bf{z}}{t}^{{\rm{uncond}}}) on the basis of the input text embedding (y) and unconditional embedding ({y}{{\rm{uncond}}}), respectively. The final latent variable ({\bf{z}}{t}) in the (t) step was obtained by weighted summation of two latents with text guidance scale: {\bf{z}}{t}={\bf{z}}{t}^{{\rm{uncond}}}+{s}{{\rm{text}}}\left({\bf{z}}{t}^{{\rm{text}}}-{\bf{z}}{t}^{{\rm{uncond}}}\right) ( 2) This process was repeated for (T) steps to produce the final latent ({\bf{z}}{T}). - (4) Image generation. The final latent ({\bf{z}}_{T}) was passed through the VAE decoder to generate a retinal image with dimensions of (B\times C\times H\times W). In Stable Diffusion v.1.4, (,C=4,,H=W=64).
Model architecture and implementation 模型架构和实现
Para_01 我们使用了与RETFound相同的模型架构和训练过程,以便进行公平比较。该模型架构是基于视觉变换器(vision transformer)的一个特定配置,称为掩码自编码器,它由一个编码器和一个解码器组成(补充图9)。 编码器是由一个大型视觉变换器(ViT-large)实现的,具有24个变换器块,而解码器则是由一个小的视觉变换器(ViT-small)实现的,具有8个变换器块。 在训练过程中,输入图像被随机遮罩,遮罩比率为0.75,然后未被遮罩的补丁(补丁大小为16×16)被送入编码器以提取一个大小为1,024的高维特征向量。 解码器将该特征向量作为输入来重构完整的图像,包括被遮罩的补丁。模型的训练损失仅计算于被遮罩的像素上,通过均方误差比较预测的像素值与原始图像中对应的实际像素值。 模型参数初始化使用了在ImageNet-1k上预训练的权重。与RETFound在900k真实视网膜图像上预训练800个周期不同,RETFound-DE首先在约1百万个生成的视网膜图像上预训练600个周期,然后在150k个真实视网膜图像上再预训练200个周期。 批量大小为1,792(8个GPU,每个GPU224),前20个周期用于学习率预热(从0到学习率1×10−4)。所有图像都被调整为256×256大小,并采用立方插值。 我们在模型训练中的数据增强与掩码自编码器中的相同,包括随机裁剪并将裁剪后的补丁调整为224×224大小、随机水平翻转以及图像归一化。 Adaptation to downstream tasks 适应下游任务
Para_01 我们还使用了相同的方法将RETFound-DE适应到下游任务中。丢弃了解码器,并将输入图像发送到编码器以提取高级特征,然后通过一个多层感知机来预测疾病类别的概率。 最终分类结果由具有最高概率的类别确定。计算预测标签和实际标签之间的标签平滑交叉熵损失,以调节输出分布。 批量大小为32,训练周期为50。微调过程中涉及了几种数据增强技术,包括图像缩放、随机翻转(水平/垂直)、灰度处理、旋转、颜色抖动和图像归一化。 在验证集上具有最高AUROC的模型权重被保存为模型检查点以供评估。 Explanations for fine-tuned models 微调模型的解释
Para_01 我们在实验中使用了GradCam63来生成微调后的RETFound-DE对某种眼部疾病的热图。 它通过计算预测类别相对于网络中特征图的梯度,并利用这些梯度来识别对模型决策最重要的图像区域。 选择了ViT-large编码器中最后一个Transformer块归一化层的特征图来生成热图。 Computational resources 计算资源
Para_01 我们使用了8块NVIDIA Tesla A100(80 GB)GPU来对生成的和真实的视网膜图像进行预训练。 RETFound-DE在100万张生成的图像上训练用了5天,在15万张真实的视网膜图像上训练则用了1天。 为了将RETFound微调到下游任务,我们使用了一块NVIDIA GTX 3090(24 GB)GPU。 在包含1000张图像的数据集上对RETFound-DE进行50轮次的微调大约需要1小时。 我们实验中的所有预训练和微调过程具有相同的计算成本。 Evaluation and statistical analysis 评估与统计分析
Para_01 这项研究的任务表现评估依赖于成熟的分类指标,包括AUROC和AUPR、准确率、敏感性和特异性。 AUROC衡量了在各种概率阈值下真正例率(也称为敏感性)与假正例率之间的权衡,而AUPR衡量了精确度与召回率之间的权衡。 准确率代表分类器正确预测的样本比例。 高敏感性表明模型在检测真阳性病例方面的有效性,高特异性表明模型在有效排除健康样本方面的能力。 对于多类分类,我们为每种疾病类别计算了AUROC和AUPR,然后取平均值得到总体AUROC和AUPR。 为了确保鲁棒性和可靠性,我们使用了五个不同的随机种子训练模型,并计算了性能的均值和标准差来通过(标准差 / √5)计算标准误差。 此外,我们使用1.96×标准误差建立了95%的置信区间。 我们采用了双侧t检验来评估RETFound-DE和RETFound之间性能差异的统计显著性。 我们也采用了置换检验来评估统计结果,如补充表9所示。 P值低于0.05表示存在显著差异,而P值高于0.05则表明性能相当。 Reporting summary 报告摘要
Data availability Para_01 支持本研究结果的主要数据在论文及其补充信息中提供。 预训练的数据可以通过以下链接访问:AIROGS(https://airogs.grand-challenge.org/data-and-challenge),Kaggle EyePACS(https://www.kaggle.com/c/diabetic-retinopathy-detection),DDR(https://github.com/nkicsl/DDR-dataset),ODIR-2019(https://odir2019.grand-challenge.org)。 微调的数据可以通过以下链接访问:IDRID(https://ieee-dataport.org/open-access/indian-diabetic-retinopathy-image-dataset-idrid),MESSIDOR-2(https://www.adcis.net/en/third-party/messidor2),APOTOS-2019(https://www.kaggle.com/competitions/aptos2019-blindness-detection/data),PAPILA(https://figshare.com/articles/dataset/PAPILA/14798004/1),Glaucoma Fundus(https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/1YRRAC),ORIGA(https://www.kaggle.com/datasets/arnavjain1/glaucoma-datasets),AREDS(https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000001.v3.p1),JSIEC(https://zenodo.org/record/3477553),Retina(https://www.kaggle.com/datasets/jr2ngb/cataractdataset),REFUGE(https://ieee-dataport.org/documents/refuge-retinal-fundus-glaucoma-challenge),RIM-ONE-DL(https://github.com/miag-ull/rim-one-dl?tab=readme-ov-file),CheXpert(https://stanfordmlgroup.github.io/competitions/chexpert/),深圳医院CXR集(https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Shenzhen-Hospital-CXR-Set/index.html),TB胸部X射线数据库 (https://www.kaggle.com/datasets/tawsifurrahman/tuberculosis-tb-chest-xray-dataset)。 , Code availability Para_01 RETFound-DE的代码可以在https://github.com/Jonlysun/DERETFound获取(参考文献64),一个在线交互平台可以在http://fdudml.cn:12001获取。我们使用了由diffusers实现的稳定扩散(https://github.com/huggingface/diffusers)作为骨干网络和图像生成。 热图是使用GradCam(https://github.com/jacobgil/pytorch-grad-cam)生成的,t-SNE可视化是使用tsne-pytorch(https://github.com/mxl1990/tsne-pytorch)生成的。