3D医学图像分析对现代医疗保健至关重要,然而,由于在各种临床场景下的泛化能力有限,传统的任务特定模型正变得越来越不适用。多模态大型语言模型(MLLMs)为这些挑战提供了一种有前景的解决方案。 然而,现有的MLLMs在充分利用3D医学图像中丰富的、层次化的信息方面存在局限性。 受临床实践的启发,放射学家在关注3D空间结构和2D平面内容的同时,作者提出Med-2E3,这是一种新颖的MLLM,用于3D医学图像分析,它集成了3D和2D编码器。 为了更有效地聚合2D特征,作者设计了一个Text-Guided Inter-Slice(TG-IS)评分模块,该模块根据切片内容和任务指令对每个2D切片进行评分。据作者所知,Med-2E3是第一个集成3D和2D特征用于3D医学图像分析的MLLM。 在开源的3D医学多模态基准测试上的实验表明,Med-2E3表现出任务特定的注意力分布,并显著优于当前最先进的模型,报告生成提高了14%,医学视觉问答(VQA)增加了5%,突显了模型在解决复杂多模态临床任务方面的潜力。
随着3D医学图像在临床诊断和治疗中的普及,对3D医学图像分析的重要性日益增加,伴随着多模态、多样性和复杂性的明显趋势。例如,3D医学图像现在在报告生成、手术规划和等领域得到广泛应用[7, 31, 35]。从深度学习的角度来看,这些任务的模型旨在处理文本和3D医学图像数据,生成相应的文本输出。在这个背景下,有两个关键任务:报告生成[32, 33]和医学视觉问答(VQA)[21, 28]。对于这些任务,模型必须具有强大的特征提取和信息处理能力,以分析复杂的图像内容和生成准确的文字信息。然而,传统的特定任务模型[12, 36, 52]往往面临数据有限和模型大小较小的挑战,这使得处理复杂多模态任务变得困难。
大型语言模型的成功 [2, 5, 38] 极大地推动了多模态语言模型(MLLMs)的发展,增强了它们处理复杂多模态任务的能力。这一进步激发了医学领域的研究行人收集和构建大规模医学多模态数据集和评估标准,并设计、训练和评估医学MLLMs 。这些模型在解决复杂医学多模态任务方面展现出前景,有望在模型研究和临床应用之间弥合差距。
然而,现有的医学MLLM主要关注2D医学图像,对3D医学MLLM的研究较少。这种差异可能源于3D和2D医学图像之间的数据格式差异。2D医学图像的数据格式与自然图像非常相似,可以使用预训练的通用2D编码器进行迁移学习,以减轻医学数据的有限可用性。相比之下,3D医学图像的数据格式与通用3D数据(如点云[17]和网格[37])不同(尽管与视频数据相似,时间和空间维度有显著差异[12])。因此,3D编码器必须从头开始在3D医学图像上进行训练,这限制了它们的表示能力。3D医学图像通常包含丰富的层次信息,需要同时模拟切片关系并捕捉切片内的细节。现有方法要么依赖3D编码器直接从3D医学图像中提取整体特征,要么使用2D编码器逐切片提取特征并累积[8, 20, 39, 48]。前者强调建模切片关系,从而更有效地捕获空间结构,而后者关注切片内的细节,可以更好地关注平面内容。无论如何,表示能力限制仍然存在。一个关键挑战在于使用现有性能受限的编码器构建强大的3D医学MLLM。
对于放射科医生进行3D医学图像分析,他们通常从全局和局部两个视角观察图像,如图1所示。全局视角类似于3D编码器,有助于放射科医生关注图像的空间结构。局部视角类似于2D编码器,允许放射科医生关注切片平面的内容。考虑到可能存在大量的切片,放射科医生根据每个切片的内容和任务要求,为其分配不同的关注程度。对于包含关键器官或病变的切片,给予更多的关注,而对于无关的切片,则给予较少的关注。这种双重视角,结合全局和局部观点,推动了作者的Med-2E3的构建,这是首个将3D和2D编码器集成到3D医学图像分析的MLLM。在聚合2D特征时,作者设计了一个评分模块,根据切片内容和任务指令,基于放射科医生的注意力分布机制对每个切片进行评分。
总之,作者的贡献如下:
作者提出了Med-2E3,一种用于3D医学图像分析的新颖MLLM。据作者所知,Med-2E3是第一个将3D和2D编码器集成在一起的3D医学MLLM。
作者设计了一个 TG-IS 评分模块,用于模拟放射科医生在 3D 医学影像分析中使用的注意力机制。该模块根据每个切片的内容和任务指令对每个切片的注意力进行评分。
作者提出的Med-2E3在最大的3D医学多模态基准测试上实现了最先进的性能。它在报告生成、开放式VQA、闭式VQA任务等方面超过了现有模型。
3D医学图像分析的发展可以分为两个阶段,由LLMs的出现[2, 5, 38]来标志。在LLMs增长之前,3D医学图像分析主要集中在相对固定的任务上,如分类和分割,这些任务无法满足临床实践的动态需求。早期的多模态任务,如VQA,主要针对2D医学图像。3D多模态数据的稀缺限制了3D医学图像分析多模态模型的进展,限制了它们在临床支持方面的潜力。
LLM的成功推动了3D医学图像分析领域的新进展。研究行人开始收集大规模的3D医学多模态数据集以进行模型训练和评估。Hamamci等人[18]收集了大约26K个胸CT卷和相应的报告,旨在专门针对胸CT数据构建模型。Wu等人[43]和Bai等人[4]分别从互联网上收集了大量的3D多模态数据,覆盖多个解剖区域和各种病变,并附有相关报告和VQA数据。值得注意的是,Bai等人[4]构建了M3D-Data,这是迄今为止最大的多模态CT数据集,包括超过100万个CT卷、相应的报告和VQA数据,在各种身体部位上都有覆盖,这显著推动了3D医学多模态LLM的开发。
特征提取从3D图像中一直是一个在3D医学图像分析中的挑战。以前的研究通常遵循两种方法中的其中一种。一种方法涉及从整个3D图像中提取特征。然而,由于3D医学图像的独特模式,这些编码器需要从零开始在3D数据上进行训练,通常无法达到通用编码器在捕捉切片内细节方面的性能水平。另一种方法涉及逐切片地提取特征,先独立处理每个2D切片,然后将它们汇总。尽管这种方法允许使用预训练的2D编码器在3D数据上进行微调,但它很难在3D图像中建模切片间的相互关系。
MLLMs 在通用领域的成功应用,促使研究行人探索其在医学领域的应用。在通用领域,典型的方法包括使用连接器将各种模态编码器与LLM连接,在预训练期间对图像和文本模态对齐,并在微调阶段使用指令调优模型。医学MLLMs的架构和训练方法类似于通用领域的MLLMs,主要关注使用医学多模态数据集进行训练。关于医学MLLM的早期研究主要集中在2D医学图像上,如Med-Flamingo [34],LLaVA-Med [26],MedVInT [50]和Uni-Med [53],这些图像在形式上更接近自然图像,而对3D医学图像的独特模态关注较少。
随着3D医学图像重要性的日益广泛认可,3D医学MLLM的研究取得了进步。在现有的3D医学MLLM中,Med-BLIP [10] 用于阿尔茨海默病分析,而 3D-CT-GPT [9],Dia-LLaMA [13] 和CT-CHAT [18] 分别专注于胸CT分析。对于更广泛的医学应用,RadFM [43] 和M3D-LaMed [4] 在跨器官、多病变3D多模态数据集上进行训练。例如,M3D-LaMed首先在大规模3D医学多模态数据集上预训练一个3D编码器M3D-CLIP,然后构建一个基于LLaVA [30] 架构的MLLM,采用与2D MLLM在2D多模态任务中类似的训练过程,以实现高性能。现有的3D医学MLLM主要依赖3D编码器进行特征提取。这种单编码器设计在3D医学多模态任务中的表现,与2D MLLM在2D多模态任务中的表现并不相同。
在本文中,作者提出了一种新颖的MLLM,Med-2E3,该模型整合了3D和2D编码器,以解决现有3D医学MLLM的局限性。具体而言,作者将3D和2D编码器各自提取的特征进行聚合。这些互补特征的结合使得Med-2E3能够更有效地模拟切片之间的关系,同时捕捉切片内部的细节。
如图2所示,本节介绍了作者提出的Med-2E3的整体框架。Med-2E3的输入包括一个3D医学图像 和相应的任务指令 ,输出是一个文本响应 。首先,如第3.1节所述,Med-2E3使用3D、2D和文本编码器从3D图像和文本中提取初步特征。接下来,如第3.2节所述,设计了一个文本引导的切片评分模块,该模块根据这些初步特征计算每个切片的注意力分数。最后,根据注意力分数将2D特征聚合,并将初步的3D特征与2D特征拼接。这些2D增强的3D特征与文本特征一起由LLM处理以生成响应,如第3.3节所述。
作者遵循提取相应模态编码器的输入3D图像 和任务指令 的常见方法。在此阶段提取的特征是初步的。例如,3D图像特征将在后续阶段经过专门设计的增强操作。
对于任务指令的文本形式,使用文本编码器提取文本特征:
在这里,表示文本编码器。在本论文中,作者使用LLM文本嵌入层作为文本编码器。
如图2所示,在图像特征提取过程中,三维医学图像被表示为两种形式:一种为原始形式,另一种为切片基础形式。三维和二维特征提取分支分别处理这两种形式,分别产生互补特征和:
在这里, 和 分别表示 3D 和 2D 特征提取分支。3D 特征提取分支包括一个 3D 图像编码器和一个 3D 连接器,而 2D 特征提取分支则由一个 2D 图像编码器和一个 2D 连接器组成。上标 表示切片索引,范围从 1 到 。
为了模拟放射科医生使用的注意力分布机制,作者设计了一个文本引导层间(TG-IS)评分模块,根据每个层的内容和任务指令对注意力进行评分。
首先,如图3所示,根据每个切片的位置,TG-IS评分模块将3D特征分割并选择相关局部特征。具体来说,将串行化的1D特征 Reshape 为3D形式,并选择切片 对应的特征 作为局部特征 。更多信息请参阅附录。
接下来,将3D和2D表示的每个切片特征进行拼接并求平均,形成切片特征:
在这里, 表示特征维度。
由于放射科医生根据不同的任务分配不同的注意水平,TG-IS评分模块被设计用来模拟这种任务特定的注意力分布。在实际应用中,每个切片 与当前任务的相关性是通过计算每个切片特征 与对应文本特征的点积来计算的,这些特征代表了放射科医生在给定任务下为每个切片分配的注意力。
然后,softmax 函数被应用于归一化相关系数向量 :
为了获得每个切片的确切注意力分数。
在3D特征增强过程中,为了降低计算负载,2D分支提取的2D特征{}首先根据注意力分数进行聚合。
接下来,将3D和聚合的2D特征进行拼接,形成3D医学图像的最终特征:
最后,与大多数MLLMs类似,Med-2E3将2D增强的3D特征和文本特征输入到LLM中,并对其进行处理以生成最终文本响应:
首先,作者在第4.1节中描述了用于训练和评估的的数据集。接下来,在第4.2节中,作者提供了Med-2E3的实现细节。然后,在第4.3节中,作者将作者的提出的Med-2E3与其他MLLM进行报告生成的实验结果进行比较。在第4.4节中,作者进行了医学图像问答的实验结果。最后,在第4.5节中,作者进行了消融研究,并在第4.6节中提供了案例研究。
为了确保医学泛化性,作者在大规模的3D医学多模态数据集M3D-Data [4]上训练和评估Med-2E3。该数据集涵盖了各种器官和病变。为了确保公平的比较,作者只使用描述和VQA数据(M3D-Cap和M3D-VQA)。该数据集包括超过120,000个相应的CT卷和标注。M3D-VQA涵盖了五个关键主题:平面、相位、器官、异常和位置。此外,多选题格式除了提供原始开放式VQA数据外,还提供了封闭式VQA数据。
遵循标准的MLLM训练流程[4, 27, 30],作者对MED-2E3进行预训练,以对图像和文本空间进行对齐,然后进行指令调优以微调模型。作者使用包含115K个描述符数据M3D-Cap训练集作为预训练数据集。在这个基础上,作者进一步整合了包含约420K个开放式VQA和420K个闭式VQA数据M3D-VQA训练集,以构建微调数据集。然而,在ablation研究中,作者采样训练数据以平衡实验成本和效率。更多细节请参见第4.5节。
为了评估,作者直接使用M3D-Cap和M3D-VQA测试集,其中包含大约2K个描述数据,13K个开放式VQA数据和13K个封闭式VQA数据。对于描述和开放式VQA任务,作者使用自然语言生成(NLG)指标来评估生成和真实文本之间的相似性,包括BLEU@1(B@1),ROUGE@1(R@1),METEOR和BERT-Score(BERT)。对于封闭式开放式VQA任务,作者通过比较预测的答案与正确答案来计算准确率。
作者提出的Med-2E3是基于模块化的MLLMs框架TinyLLaVA [24, 51]构建的。作者使用M3D-CLIP [4]作为3D图像编码器,并使用Phi-3 [1]作为LLM,保持与M3D-LaMed [4]设置的一致性。在3D特征增强方面,作者引入了一个2D图像编码器SigLIP [49],该编码器在最近的MLLMs [24, 51]中通常使用。
3D图像编码器处理输入分辨率为32x256x256的图像,而2D图像编码器在256x256的分辨率下运行。此外,数据预处理方法和训练超参数遵循M3D论文[4]中的设置,以确保公平的比较。
所有模型均使用AdamW优化器进行训练,通过DeepSpeed进行混合精度训练(bf16),以提高效率。实现基于PyTorch,在两块NVIDIA A800 GPU上并行运行,每个GPU具有80GB内存。
3D医学MLLMs在M3D-Bench(M3D-Cap和M3D-VQA)上进行评估的包括RadFM [43]和M3D-LaMed [4]。M3D-LaMed的数据和权重现已开源,发布在HuggingFace和GitHub上。因此,作者呈现了原文论文中报告的评估结果[4],以及从开源权重得出的Tab.1和Tab.2中的结果(用 Token ),如图1和图2所示。
如图1所示,作者提出的Med-2E3在M3D-Cap中实现了最先进的性能,超越了所有现有模型。具体而言,Med-2E3在BLEU@1,ROUGE@1和METEOR指标上分别优于最佳现有结果约14%,在BERT-Score指标上则约优于2%。
值得注意的是,尽管RadFM [43]的训练数据集更大,覆盖了更广泛的模态和疾病类别,但实验结果却不尽如人意。这可能归因于训练阶段使用了3D和2D图像。目前,尚无确凿证据表明这种混合数据训练方法对3D医学影像分析模型的性能有积极影响。
在原始的M3D-VQA评估中,针对五个不同的VQA主题进行了单独评估[4]。在作者的实验中,作者在表2中报告了整体平均值。由于各个主题的样本大小不同,仅使用宏观平均结果是不合适的。因此,作者在评估过程中计算了所有样本的宏观平均和微观平均结果,并在表2中报告。
作者提出的Med-2E3在开放式和封闭式VQA任务上都优于现有模型,实现了优越的性能。对于开放式VQA任务,Med-2E3在宏观平均和微观平均BLEU@1得分上分别提高了4.92%和5.19%,在宏观平均和微观平均ROUGE@1得分上分别提高了4.81%和5.23%,在宏观平均和微观平均METEOR得分上分别提高了3.92%和4.34%,在宏观平均和微观平均BERT-Score值上分别提高了0.87%和0.94%。对于封闭式VQA任务,Med-2E3在宏观平均和微观平均准确率上分别提高了2.26%和2.3%,与现有最佳结果相比。值得注意的是,尽管宏观平均和微观平均的结果表现出相似的整体趋势,但它们的特定值有所不同。在随后的消融研究中,作者仅报告了微观平均的精确性结果。
作者的提出的Med-2E3在报告生成和医学VQA任务上的卓越表现,再次证明了其有效性。
为了平衡训练成本和效率,作者在不更改预训练数据集的情况下对训练数据进行采样。作者保留100K个样本用于微调数据集。考虑到描述任务相对具有挑战性,需要大量数据支持,作者选择50K个描述样本、25K个开放式VQA样本和25K个封闭式VQA样本用于指令调优。
在消融研究中,作者评估了各种图像特征提取方法,以突出作者提出的Med-2E3的优势。此外,作者还研究了不同的评分模块设计,以验证作者当前的TG-IS评分模块的有效性。
比较图像特征提取方法。在比较不同图像特征提取方法时,作者主要关注两个方面:(1)仅使用3D特征、仅使用2D特征或同时使用3D和2D特征的模型性能;(2)在结合3D和2D特征时,采用不同2D特征聚合方法的模型性能。
如图3所示,3D和2D编码器的组合在报告生成和医学VQA任务上都超过了仅使用3D或2D编码器的模型。仅使用3D编码器的模型在报告生成任务上超过了仅使用2D编码器的模型,而仅使用2D编码器的模型在医学VQA任务上超过了仅使用3D的模型。前者现象可能归因于用于预训练3D编码器文本数据和报告格式之间的相似性,这使得它自然适应了报告生成任务。后者可能源于医学VQA任务的相对简单性,其中2D编码器在自然图像上预训练的特征提取能力足够强大,可以直接处理该任务。
为了降低计算负载,作者在提取图像特征时在2D上进行特征聚合。即使使用3D和2D编码器提取互补特征,不同的2D特征聚合方法会导致不同任务上的模型性能存在差异。作者考虑了四种主要的2D特征聚合方法:AvgPooling(在每个位置计算平均值),MaxPooling(在每个位置计算最大值),加权求和随机分数,以及加权求和TG-IS分数。
如图4所示,采用作者设计的基于TG-IS分数的聚合模型性能最好,其次是AvgPooling和Random Scores,而MaxPooling的性能最低。这突显了为有效2D特征聚合设置适当权重的必要性,作者的TG-IS分数提供了一个有力的解决方案。与随机分数不同,AvgPooling和MaxPooling是固定2D特征聚合方法。AvgPooling比Random Scores性能略好,而MaxPooling略差,表明AvgPooling是一个相对较好的聚合方法,而MaxPooling效果较差。由于其固有的随机性,随机分数导致总体上不可预测的性能。上述消融研究证明了作者提出的Med-2E3模型,该模型将3D和2D编码器集成在一起,具有优越性。
不同评分模块的比较。在评估不同评分模块设计时,作者考虑三个主要变量:(1)是否使用任务指令作为指导,(2)是否使用3D特征,(3)是否将2D特征作为当前切片的局部图像特征。当省略任务指令指导时,在评分模块中引入额外的一层线性层,将图像特征直接映射到一维向量,使得softmax函数能够生成跨切片的注意力分数。
来自表5的结果表明,集成文本指导评分模块的模型通常优于不集成该模块的模型,特别是在将3D和2D特征相结合用于切片内特征表示时。然而,这些结果并不一致地表明2D或3D特征在切片内表示中哪个更有效,尽管3D特征似乎稍显重要。这些消融研究结果证实了作者当前TG-IS评分模块设计的有效性。
每个数据集的CT卷通常对应十一组问题-回答对,包括一个描述任务,五个开放式VQA任务(自由形式问题)和五个封闭式VQA任务(多选题),这些任务可能共享相同的内容,但问题格式可能不同。如图4所示,由于空间限制,作者在这里呈现了两个代表性的CT卷及其对应的四组问题-回答对。补充材料中还提供了其他示例及其对应的问题-回答对。
通过比较问题对1和5,以及2和6,作者观察到尽管问题相同,但两个样本的得分分布显著不同。这突显了TG-IS评分模块中图像特征多样性的作用。在比较同一CT样本的不同问题中,作者发现不同问题产生不同的得分分布,表明分数受任务指令影响,这与作者的设计一致。在同一样本中,一些切片表现出一致的模式或“关键帧”,这些切片在所有问题中都显得突出。例如,在右侧样本中,某些切片在所有问题中都有明显的表现,这表明这些图像特征对评分过程的贡献更大。
在比较问题对3和4,以及7和8之后,作者观察到尽管问题格式不同(一个是多选题,另一个是自由形式),但内容基本相同,导致近似相同的成绩分布。这表明将AvgPooling应用于文本特征序列可以有效产生句子级特征。有些问题成绩分布更加极端(问题6),而其他问题成绩分布更加平衡(问题8)。分布密度的这种差异似乎与特定体积和问题更为密切,而非问题格式。例如,尽管问题2和6相同,但问题6的成绩分布显著更为极端。虽然问题2的成绩分布也较为稀疏,但大约三分之一的切片表现出注意力分数高于平均值。
总之,作者提出了一种名为Med-2E3的MLLM,该模型首次将3D和2D编码器集成到3D医学图像分析中。
为了有效地聚合2D特征,作者设计了一个文本指导的层间(TG-IS)评分模块,根据切片内容和任务指令计算不同切片的注意力分数。Med-2E3在3D医学图像分析领域最大的多模态基准测试上实现了最先进的性能。
Med-2E3在报告生成方面比最佳现有模型提高了14%,在医学VQA方面提高了5%。
除了作者提出的Med-2E3的出色性能外,作者希望作者设计的TG-IS评分模块可以使模型的内部决策过程更加透明,这对临床实践具有更深刻的意义。
此外,作者通过将3D和2D编码器集成,以利用互补特征,旨在为3D医学图像分析研究社区提供新的见解。
[0]. Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model.