早期发现像青光眼、黄斑变性以及糖尿病性视网膜病变等眼部疾病对于防止视力损失至关重要。虽然人工智能(AI)基础模型对于解决这些挑战具有巨大的前景,但现有的眼科基础模型大部分都专注于单一模态,而诊断眼部疾病需要多个模态。一个关键但往往被忽视的方面是利用同一名患者在不同模态下的多视图信息。此外,由于眼部疾病具有长尾性质,标准全监督或无监督学习方法通常会遇到困难。 因此,整合临床文本以捕捉更广泛的疾病至关重要。作者提出了EyeCLIP,这是一种使用超过277万张多模态眼科图像及其部分文本数据开发的视觉语言基础模型。 为了充分利用大量多模态未标注和标注数据,作者引入了一种预训练策略,该策略结合自监督重构、多模态图像对比学习以及图像-文本对比学习来学习多个模态的共享表示。 通过使用14个基准数据集进行评估,EyeCLIP可以应用于涉及眼部和全身疾病的各种下游任务,在该领域实现了最先进的表现,包括疾病分类、视觉问答和跨模态检索。 EyeCLIP与以往方法相比取得了显著的进步,尤其是在实际长尾场景中展示了少学习甚至零学习的能力。
眼科疾病如青光眼、黄斑变性、糖尿病视网膜病变等对全球视力健康构成了重大威胁,常常导致视力减弱甚至失明。[1]然而,由于医疗资源短缺,特别是服务不足的地区和发展中国家,及时的诊断和治疗仍然是一个关键的挑战。[2; 3]这种资源配置的不公平性使得眼科疾病的早期检测和干预尤其困难,从而进一步加重了这些疾病的负担。
人工智能(AI)可以通过自动化眼科图像的分析并帮助医生进行诊断,显著减少专家的工作量。[4; 7]近年来,世界正在从单一任务转向构建基础模型。预先在大量标记或 未标注 数据上进行预训练后,模型可以以数据节省的方式适应下游任务,减少数据准备的成本和时间,提高模型的泛化能力。RETfound是第一家在眼科使用自监督重建学习提出的基础模型。[9],但它是分别针对两种图像模式(彩色眼底摄影和光学相干断层扫描)进行训练的,以解决这个问题,EyeFound被提出,它学习多模式眼科成像的共享表示。[14]但是,现有的基础模型缺乏模式间的一致性和图像与语言的对应关系,作者相信这在实际场景中至关重要。
在临床实践中,进行多次检查以考察不同的眼病病理学是最优选的,例如彩色眼底摄影、光学相干断层扫描、荧光眼底血管造影(FFA)和荧光黄斑成像(FAF)。[15]每一次检查都能提供关于眼睛结构和功能的独特且互补的信息。以前的研究表明,不同的模式在增强AI模型对疾病分类和分割方面的互补性。因此,有效利用多模态数据对获得多视图信息至关重要,而确保跨模态的一致性可以为自监督学习提供重要线索。此外,眼科专家的诊断和解释提供了丰富的文本上下文,这对学习具有在医学领域常见的多层次概念的尾巴表示很有帮助。[10; 21]通过将临床文本集成到AI模型中,它们可以更好地模拟人类专家的认知过程,使他们能够在不断变化的环境中更好地处理复杂的现实世界临床问题。
在本研究中,作者提出了EyeCLIP,一种眼科视觉-语言基础模型,旨在利用实际世界的多源、多模数据。EyeCLIP在自我监督和多模式对齐的预训练下对2,777,593个多模式眼科图像和11,180个来自128,554名患者报告的数据进行了训练。具体而言,训练结合了自我监督重建、多模式图像对比和图像文本对比学习。
然后,作者在14个多国家的数据集上验证了EyeCLIP,评估它在零样本、少样本和有监督设置下的不同任务表现,包括多模式眼部疾病诊断和系统疾病预测、视觉问答(VQA)和跨模态检索。EyeCLIP可以有效学习多检查的共享表示,使得零样本疾病诊断和充分利用大量无标签、多检查和标记数据在实际世界中的工作更容易。作者相信作者的方法不仅代表了眼科基础模型的重大进步,还为使用临床实践中积累的多模态医疗数据训练基础模型提供了在其他医学领域的启示。
眼睛CLIP系统使用了2,777,593张多模态图像和11,180份来自我国不同地区和医院的128,554名患者的报告,全面学习眼科视觉语言特征。数据详情请参见图1和方法部分。训练完成后,眼睛CLIP可以直接应用于涉及分类和跨模态检索的应用中,无需进一步训练。此外,它可以以节省数据的方式对下游应用进行微调,例如眼科疾病诊断、全身性疾病预测和交互式视觉问答(VQA),以及有监督的全身性疾病预测。图1展示了研究设计。扩展表1中列出了14个下游数据集的特点。图2展示了眼睛CLIP与通用领域CLIP模型、医学领域BioMedCLIP、PubMedCLIP和眼科领域RETFound[9]等不同下游任务相比的总体优越性能。
零样本迁移能力使得单一预训练基础模型可以直接应用于下游任务。EyeCLIP可以成为传统监督学习中强大的基准,特别是在标签资源稀缺的情况下。作者在九个公共眼科学数据集上评估了EyeCLIP的无任务特定训练零样本分类性能。以CFP作为输入模式,EyeCLIP在其他模型上的眼科疾病诊断(所有P0.001)明显优于其他模型,诊断准确率范围为0.681-0.757的DR,0.721和0.684的青光眼,以及0.660和0.688的多病诊断。
对于OCT,EyeCLIP在OCTID[25]和OCTDL[26]上获得了最高的AUROC分数0.800和0.776,高于其他模型(所有P0.001)。如图2b和扩展表2所示的定量结果。
图3展示了在少样本设置下,不同预训练模型在标签效率方面的差异。作者研究了每个类别训练标签数量不同的预训练模型在少量样本设置下的标签效率,(nc=1,2,4,8,16)。对于每个nc,作者分别采样了五种不同的训练示例集,并训练了一个弱监督模型。箱线表示四分位数,并且whiskers延伸到四分位数范围内外1.5倍的数据点。EyeCLIP与其他编码器在训练集大小和所有数据集上的平均AUROC相比具有显著更好的性能。AUROC =接收者操作特征曲线下的面积。AUPR的结果可见扩展图1。
接着,作者对EyeCLIP在那些九个眼病数据集上的少样本性能进行了评估,分别使用了1,2,4,6和16的有限训练样本。结果显示,EyeCLIP可以在有限的数据下进行推广,证明了可以用数据高效的方式诊断各种眼科疾病,优于其他模型(所有P0.01)。AUROC和AUPR的定量结果见图3和扩展表3。具体来说,罕见疾病由于发病率低和数据资源不足而面临挑战,而且它们是医学AI最需数据高效的领域。因此,作者使用眼科医生的选择,Retina Image Bank子集(每个类别的大于16张图像数量)进行了进一步的少样本分类评估。
该子集包括17种罕见疾病:急性后多焦点色素上皮沉着病,鸟状虹膜色素沉着病,中央胶原性脉络膜病变,脉络膜黑色素瘤,脉络膜骨瘤,锥状细胞病,先天性色素上皮缺乏,家族性渗出性脉络膜视网膜病变,脉络膜动静脉畸形,光学盘凹陷,玻璃体视网膜病变,视网膜母细胞瘤,Stargardt病。在所有设置下,EyeCLIP在罕见疾病的分类中都优于其他模型。结果如图4c和扩展表4所示。
最后,作者在包含单模态和多模态图像的11个公开数据集上测试了EyeCLIP,采用全数据监督训练范式,训练、验证和测试的划分比率为55:15:30%。详细的结果已经在图4a和扩展表5中提供。
对于单一模态任务,除了在三个数据集上与最佳模型(RETFound,排名第二)相当外,EyeCLIP在其他模型上都优于竞争对手。在DR分类中,EyeCLIP在IDRiD数据集 [AUROC 0.835 vs 0.826, P=0.013] 中明显优于 RETFound,该数据集较小,但与 RETFound 在更大的数据集(APTOS2019和MESSIDOR2)上的表现相当(P>0.05),表明 EyeCLIP 在数据效率上超越 RETFound,所需的数据显示 RETFound 较少。对于青光眼和多病种分类,EyeCLIP 始终优于其他模型。在 OCT 图像中,EyeCLIP 在 OCTID 数据集上与 RETFound 相当(P>0.05),但在 OCTDL 数据集(AUROC 0.993 vs 0.982, P<0.001)上显著优于 RETFound,这是一个更不平衡的数据集,具有长尾类别。尽管 RETFound 分别训练了针对 CFP 和 OCT 的最佳权重,但 EyeCLIP 总体上比它更好,即使只有一个通用编码器也是如此。
对于多模态任务,EyeCLIP 优于所有比较模型。在两个模态的 AngioReport (APTOS2023[27])数据集上,EyeCLIP 优于次佳模型BioMedCLIP,AUROC 为 0.721 vs 0.705,P<0.001。此外,EyeCLIP 在具有14个模态和84个条件的Retina Image Bank[28] dataset上表现最好,AUROC 为0.561 vs 最佳(排名第二)0.545,P<0.001。EyeCLIP 增强了全身性疾病预测的整体性能。
系统性疾病如中风和心肌梗塞(MI)对老年人群构成严重威胁,可能导致突然死亡。眼睛,富含可以直接可视化的血管,被誉为“了解身体的窗户”。29 因此,预测系统性疾病的发病率对于早期筛查和预防至关重要。然而,与总体人群相比,这些事件的发病率相对较低,导致正面训练数据有限。因此,在此背景下,高度的数据效率训练方法受到了高度重视。
作者在 UK Biobank 上评估了 EyeCLIP 基于眼科图像预测系统性疾病的性能。作者的实验包括预测中风、痴呆症、帕金森氏病(PD)和 MI。作者首先使用有限的训练样本,对 EyeCLIP 的几句话性能进行评估。EyeCLIP 在其他模型中始终表现出色,表明在预测系统性疾病方面具有出色的数据效率。对于全面数据支持的有监督训练,EyeCLIP 位居第一,实现 AUROC 得分0.641,0.536,0.580 和 0.596,以及 AUPR 得分 0.627,0.572,0.616 和 0.582,各自均显著优于0.05。详细的结果如图4b 和扩展的表6-7 所示。
通过学习一个对齐的潜在空间,EyeCLIP实现了零样本跨模态检索。这包括根据图像 Query (图像到文本,i2t)检索文本条目,根据文本 Query (文本到图像,t2i)检索图像,以及根据图像 Query (图像到图像,i2i)检索图像。这一功能对于生物医学应用非常有用,例如识别研究队列的案例,协助罕见疾病的表现,以及创建教育资源。
作者在AngioReport和Retina Image Bank这两个外部多模态图像-标题数据集上评估了EyeCLIP,这两个数据集涵盖了眼科的各种概念。为了具体研究罕见疾病的性能,作者从Retina Image Bank中手动选择了一个仅包含罕见疾病的子集。遵循以前的研究[31, 32],作者使用Recall@K作为跨模态检索的度量标准。
在AngioReport上,EyeCLIP对于文本到图像检索、图像到文本检索和图像到图像检索的均值召回率分别为44.1%、40.7%和44.3%,超过了BioMedCLIP的40.5%、32.9%和40.1%(所有任务P<0.01)。在Retina Image Bank上,EyeCLIP的均值召回率为50.2%、43.3%和50.9%,超过了BioMedCLIP的45.8%、35.8%和45.3%(所有任务P<0.01)。
扩展表8展示了模型性能的详细信息。图5呈现了检索结果的示例;EyeCLIP用文本或图像作为 Query 可以有效地检索相似内容。它可以根据文本描述检索相关图像,将具有相同病理条件的图像配对,并通过图像输入和最相关的描述。
在图像-文本对中,作者计算了 Query 图像与数据库中所有文本样本的嵌入空间中的相似性。根据相似度对K进行了排序,并报告了Recall@K和平均召回率,其中K的平均值为K。
作者在文本到图像(第一列)中)上报告了Recall@K,在图像到图像(第二列)中报告了Recall@K,在图像到文本(第三列)中报告了Recall@K),并将在扩展的图2中找到更多的例子。
95%置信区间。b、c和d.分别示说明了零样本跨模态检索的示意图。
视觉语言基础模型具有在眼科视觉问答中进行泛化的潜力。作者将每个模型的图像编码器与大型语言模型(LLM)进行组合:Llama2-7b,以执行VQA。由于缺乏一个公认的眼科VQA数据集,作者可以使用Retina Image Bank的多病种数据进行微调,该数据集生成了“诊断:“用于对图像、问题和LLM特征进行对齐。随后,作者对外部的OphthalVQA[33]数据集进行了零样本VQA,而无需进一步的训练。OphthalVQA是一个开放的VQA数据集,包含60张图像在6种模式下,60种眼科状况和600个QA对。
如同表9所示,EyeCLIP在LLM上表现出优异的对齐能力,并在没有专门针对开放式VQA数据对图像和语言模块进行对齐的情况下,实现了VQA。EyeCLIP在所有指标上都排名第一,包括精确匹配得分、F1分数、精度、召回和双语评价Understudy(BLEU)[34](P<0.001)。
在本研究中,作者开发了EyeCLIP,一种跨模态眼科图像分析的视觉语言基础模型,利用了2777,593张眼科图像的21个模态的大型数据集,并配套相应的层次语言数据。作者的新训练策略充分发挥了真实世界数据的特点,包括多检查和大量 未标注 和标记数据的特性。这种方法在多个检查和模态之间实现了共享表示。EyeCLIP显著增强了眼科和全身疾病的分析,在零样本、少样本和全数据微调下游任务方面表现出最先进的效果和泛化能力。
EyeCLIP的一个重要优点在于它可以将多检查对齐。这在图像检索任务和多模态图像分类任务中得到了体现。相比之下,传统的基于基础模型的方法通常关注特定类型的检查,这在实际应用中限制了其有效性。考虑到实际临床设置的复杂性,患者呈现多种状况并接受多次检查,需要一种能够准确识别不同眼部疾病且具有不同图像模态的模型。EyeCLIP的发展涉及11个模态,来自不同人群,使其独特而强大,在识别致命性疾病,特别是在多模态、多疾病诊断中的标签不平衡方面显示出强大的性能。值得一提的是,Retina Image Bank的挑战性证实了它处理罕见眼部疾病的能力。
EyeCLIP的另一项主要优点是其视觉语言预训练的集成。以前的基础模型主要从丰富的图像数据中提取有意义的模式,而EyeCLIP则利用医疗专业人士创建的文本描述来提取层次化的上下文信息。通过使用文本图像对比学习,EyeCLIP最大限度地利用了所有可用标记的眼科数据,学习疾病表现的有意义特征。这种对齐提供了零样本能力,显著减少了训练数据的大量标注需求。这一特点在资源有限的环境和偏远地区尤其有益,那里获取专门医疗护理受到限制。此外,零样本VQA能力为自动化临床环境中的解释性任务提供了独特的机会。EyeCLIP以最小训练数据操作并适应新任务的能力使其成为扩大眼科服务质量的工具。
由于眼科图像越来越用于表示系统性疾病,故而此处的基础模型可以得到很好地利用,因为与健康人群相比,事件数据的匮乏。值得注意的是,EyeCLIP在系统疾病预测方面显著提高了预测能力,超越了先前的医学领域基础模型(如BioMedCLIP和眼科领域RETFound)。这种改进可能是由于不同检查数据的共享表示。例如,造影可以更好地显示视网膜血管和病变,这些特征可以由模型共同学习。经过进一步优化,EyeCLIP可以成为早期发现和监测系统性疾病的有力的工具,超越了单纯的眼科护理。
本研究对于其他涉及不完全或未对齐数据的医学领域具有宝贵的启示。在实际临床实践中,数据集通常包含多种模态信息,如图像和文本,而这些模态在样本间没有完全对齐。在本研究中,作者通过在单个模态中使用遮盖图像重建进行自我监督学习,并在有对齐的多模态数据时使用对比学习来实现对齐,最大化了对实践过程中积累的多样化临床数据的有效利用,提供了一个潜在的框架来开发其他领域中的医学基础模型。
作者的研究中存在一些局限性。首先,EyeCLIP的性能依赖于训练数据的质量和多样性。使用更全面、包含更多文本标签的临床和人口统计数据进行额外训练可能会提高其在不同人群中的预测性能和实用性。其次,将视觉和语言数据集成是一项具有挑战性的任务。语言描述的质量的一致性取决于医疗专业行人的专业特长和记录实践。 developing标准化协议以生成和标注文本数据以及实施眼科领域结构化报告模板以确保一致性,有望缓解这一问题并增强模型从多模态数据中学习的能力。 第三,在实际临床环境中部署EyeCLIP需要认真考虑实用性
本研究遵循赫尔辛基宣言规定,并获得香港理工大学机构审查委员会(HSEARS20240202004)的批准。由于是对匿名眼科图像和公共数据集的回顾性分析,IRB免除了知情同意书的签署。
作者收集了我国227家医院的2777593张非标注眼科图像,以及来自128554位患者的128554张图像。这些图像覆盖了各种眼部疾病,并包含了11种不同图像模式,包括计算机视觉平面(CFP)、色素性造影(FFA)、吲哚氰绿血管造影(ICGA)和光学相干断层扫描(OCT)等。为确保数据的质量,作者通过提取和分析血管结构,从CFP、FFA和ICGA中排除了低质量图像。具体来说,作者将可分离血管比例小于0.04的CFP图像以及小于0.01的FFA和ICGA图像剔除。训练语言数据来自11180位参与者的11180份介入报告。考虑到报告包含自定义模板,且通常较长,作者开发了一个自定义词典,并采用了层次关键词提取算法,将报告中的医学知识转化为一系列涵盖多个方面,如眼科疾病、解剖结构及诊断指标等的关键字。这一过程为后续图像文本对齐和预训练提供了重要的语义信息。在模型开发之前,所有数据,包括图像和眼科报告,都进行了去标识。预训练数据集的额外信息请参见图1。
为了促进多模式对齐,作者将不同检查的眼科图像进行匹配,以获取来自同一患者的图像对,从而使模型更好地学习不同影像检查的特征。由于报告通常包含具有大量冗余信息的自定义模板,作者使用包含医学术语的关键词映射字典[6]对报告进行清洗,从而生成层次关键词文本标签。
扩展表格1总结了用于下游验证的数据集的详细信息。作者包括了14个数据集,覆盖眼病诊断(多分类分类)、系统性疾病预测以及多模态疾病分类(多标签分类)和视觉问答。
作者组织了对9个公开单模态眼科疾病分类数据集的调研,这些数据集来自不同种族和地区,包括7个自闭症谱系障碍(Autism Spectrum Disorder, ASD)数据集和2个光学相干断层扫描(Optical Coherence Tomography, OCT)数据集。ASD数据集包括印度的IDRiD(516张图像)、印度的APTOS2019(3662张图像)和法国的MESSIDOR2(1744张图像),用于诊断干眼症;西班牙的PAPILA(488张图像)和南韩的Glaucoma Fundus(1544张图像),用于青光眼诊断;以及分类多个眼科疾病的数据集,包括印度的JSIEC(488张图像)和Retina。OCT数据集包括印度的OCTID(572张图像)和俄罗斯的OCTDL(2064张图像),两者都包括多个疾病标签。
作者还收集了两个多模态、多标签数据集:AngioReport[27]数据集和Retina Image Bank[28]。AngioReport数据集包含大约50,000张从泰国常规诊所收集的血管造影图像,包括FFA和ICGA模态,涵盖142种视网膜疾病。作者选择了一个10,520张图像的测试子集来验证作者的模型。来自美国的Retina Image Bank是一个包含14个模态和84种眼科疾病的较大开放获取图像仓库。作者从网站获取图像及其对应的诊断,并创建了一个定制字典来通过关键词匹配和正则表达式标准化不同的疾病表达。
标准化标签包含了层次结构,例如“DR,轻度DR”表示轻度糖尿病性视网膜病变。作者排除了非标准的视网膜检查图像,包括概略性漫画、组织学和病理图像。为了提高效率,作者关注2019年至2023年间上传的图像,并删除了出现次数少于50次的实例。这一过程产生了一个最终数据集,包含3,293张图像。
OphthalVQA[33] 是中国的一款多模眼科图像问答数据集,包含六种模式:裂隙灯、扫描激光眼科显微镜(SLO)、黄斑荧光图(CFP)、光学相干断层扫描(OCT)、荧光血管造影(FFA)和眼部超声图像。该数据集包括了60种眼科疾病以及600个人工编制的VQA对。这些VQA对涵盖了与模式识别、疾病诊断、疾病检查和治疗相关的常见问题。
[30] UK Biobank 是一个来自英国的基于人群的前瞻性队列,在2006年和2010年之间招募了大约50万名参与者,年龄在40至69岁之间。大多数参与者的表型数据非常丰富。作者使用了视神经纤维光盘(CFP)图像和系统性疾病的数据。根据CFP图像,利用算法定义的结果(类别42),作者预测了四个对健康具有重要影响的系统性疾病:中风、痴呆症、帕金森病(PD)和心肌梗死(MI)。为了避免由不连续的个体访问引起的潜在偏见,作者只包括每个患者单次访问的右眼图像。
所有实验均在Python 3.10中进行。在进行视觉语言预训练时,作者将CLIP[22]作为作者的基础框架,这是一个利用图像-文本对进行对比学习的预训练模型。该模型通过图像编码器和解码器独立地处理图像和文本输入,生成每个模式的独特向量表示。然后,这些向量被投影到统一的多个模式嵌入空间,以便在文本和视觉元素之间直接进行比较。
作者通过在CLIP图像编码器中添加图像解码器,参照Masked Autoencoders(MAE)[41],扩展了传统的CLIP体系结构。这一添加使得模型能够执行 Mask 图像重构,这对于自监督特征表示学习至关重要。具体而言,除了原有的图像-文本对比损失,作者对CLIP的损失函数进行了修改,添加了图像重构损失和图像-图像对比损失。
用于将图像及其对应的文本描述进行对齐,其定义为:
其中_f(x_) 和 g(t) 分别表示编码的图像和文本表示,_sim_ 表示相似度度量,通常为余弦相似度,而是一个温度参数。
同样,图像文本对齐的损失函数 将不同图像模态之间的特征对齐起来,其定义如下:
图像重绘损失函数 定义如下:
其中 和 分别表示重叠的图像和原始图像, 和 被设置为 0.75,而 被设置为 1。
作者的模型训练损失函数为三个损失函数的组合:
其中, 和 分别设置为 0.75,而 设置为 1。
在 EyeCLIP 中,所有图像共享相同的编码器,确保了在不同模态下特征提取的一致性。这种创新的 CLIP 和 MAE 的组合方法使作者从传统的 CLIP 模型中区分出来,通过充分利用大量未标注数据增强其能力。
在EyeCLIP的训练阶段,作者将图像裁剪到视野,并将其缩放到224 224。然后,作者用基本学习率0.001训练该模型在前2000步,然后进行2轮的热训练,最后训练过程中一直使用余弦衰减至0。作者使用了200的批量大小,并在大约四周的时间内,在一个NVIDIA Tesla V100(32GB)GPU上训练了该模型。在训练结束时,作者选择在验证集上具有最低损失的模型进行测试。
以下是关于比较模型详细信息部分的开头。
PubMedCLIP是一种针对医学领域进行专门微调的CLIP模型。[24]它在ROCO数据集 (Radiology Objects in COntext) 上进行训练,该数据集包含超过80,000个来自不同医学影像模式(如超声、X射线、计算机断层扫描、磁共振成像和各种身体区域)的样本。[42]训练中所使用的文本是ROCO数据集中与数据集中的图像相对较短的描述。实验结果表明,将PubMedCLIP作为预训练视觉编码器利用,可以使现有MedVQA模型的性能提升最高达3%。
BioMedCLIP是一种多模态的生物医学基础模型,该模型使用从PubMed Central的440万篇文章中提取的1500万幅科学图像-文本配对进行预训练。[23]该模型包括一个针对特定领域的语言模型(PubMedBERT),[43]并使用更大的视觉 Transformer ,同时集成其他特定的领域优化。与通用领域的CLIP和之前的生物医学视觉-语言模型如PubMedCLIP相比,BioMedCLIP在各种下游任务上表现出优越的性能,包括跨模态检索、零样本图像分类和视觉问答(VQA)。
作为一名眼科领域的首个基础模型,RETFound[9] 通过自监督重建利用了160万张未加标记的视网膜图像庞大的数据集。RETFound利用了两种眼科模式,即CFP和OCT,为每种模式分别训练了不同的权重。在诊断威胁视力的眼科疾病以及预测全身性疾病方面,RETFound超过了预先在ImageNet上进行过训练的其他比较模型。
分类下游任务的开始。
对于零样本跨导,作者遵循了CLIP实验中的方法。每个类别都与一个包含模式和类别名称的文本提示相关联(例如,'颜色眼底镜,糖尿病视网膜病变')。作者使用EyeCLIP中的文本编码器和图像编码器对提示和图像分别计算-正则化嵌入。对于每个图像,作者计算-正则化嵌入,并计算图像和每个文本嵌入之间的余弦相似度得分,接着预测的类别即为具有最高相似度得分的类别。
全数据微调分类
作者使用每个图像编码器从每个图像中提取低维特征嵌入,并添加一个多层感知机将图像特征表示映射到对数表示,这在经过softmax归一化后被视为类概率。在微调期间,编码器在前五个周期中保持冻结,之后恢复正常。每个模型总共训练了50个周期。对于单标签分类任务,作者使用了批处理大小为16。前十个周期的学习率从0增加到,其余40个周期采用余弦退火调度,将学习率从降低到。对于AngioReport和Retina Image Bank中的多标签分类任务,作者使用了批处理大小为4,训练30个周期,并将学习率设置为0.01。每个周期的结束时,作者会在验证集上评估模型,并将具有最高AUROC的模型权重用于内部和外部评估。
作者针对Finetuning EyeCLIP(称为'shot')中每个类别的有标签示例数量进行了调整,从n = 1, 2, 4, 8, 16不等,并在与全数据全模型微调分类相似的测试集上测试了模型。
对于跨模态检索,作者采用了如上零样本分类的方法,检索与特定文本 Query (文本到图像检索)在对齐潜在空间中最接近的Top-K图像(image-to-text检索)和图像-图像检索类似。为了评估检索效果,作者采用了Recall@K,该指标衡量了这些Top-K检索样本中正确结果所占的比例。作者选定了K的值为1、5、10,并报告了三个Recall@K值的平均得分。
作者使用了来自 EyeCLIP 的图像编码器来提取图像特征,然后将这些特征与文本特征(问题)连接起来。将组合的特征输入到语言模型 Vicuna(Llama 2-7b)[44]中进行语言生成,执行视觉问答(VQA)。为了更好地进行多疾病对齐,作者利用了 Retina Image Bank(2019-2023),在该数据库中使用虚假问题的答案('Diagnosis:' 和相关病症关键词作为答案)进行微调,总共包含 1,215 个样本。之后,作者在开放的 OphthalVQA 数据集(0 样本)上评估微调后的编码器,进行无监督视觉问答测试。对齐过程采用了低秩自适应(LoRA)[45]方法,批量大小为 8。
该过程跨越了三个 epoch,初始学习率为 2e-5,并采用了余弦退火策略进行动态学习率的调整。在 OphthalVQA 上的评估是在最终 epoch 上直接进行的。
作者使用了AUROC和AUPR指标来评估分类任务的性能。这些指标是基于接收者操作特性(ROC)和精确度-召回曲线衡量分类效果的。处理二分类任务如眼疾诊断时,作者在二分类环境中计算AUROC和AUPR。对于多分类任务如五期DR和多病诊断,作者分别对每个疾病类别计算AUROC和AUPR,然后(宏观)将它们平均(AUROC和AUPR),以得出整体AUROC和AUPR分数。
关于VQA任务,作者使用了各种基于分类的指标来评估性能,包括精确匹配分数、F1分数、精度、召回,以及已知被称为BLEU[34]的语言度量。