
DRUGONE
通用人工智能模型在临床实践中应用于多模态数据和复杂任务时面临特殊挑战。研究人员提出了 MedMPT ——一种专为呼吸系统健康设计的多模态视觉–语言预训练模型。该模型在 154,274 对胸部 CT 扫描与放射报告 上进行自监督训练,以学习临床知识。MedMPT 能够处理多模态临床数据,支持多种与真实医疗工作流程相符的任务,包括疾病诊断、报告生成、处方推荐等。在多个胸部疾病任务中,MedMPT 相较于现有最先进多模态医学模型表现出显著优势。模型不仅在数据和参数效率上具有优势,还能提供可解释性结果,为临床决策提供依据。研究结果表明,多模态预训练模型在构建通用型临床人工智能系统中具有巨大潜力。

呼吸系统疾病(如慢性阻塞性肺病、下呼吸道感染、肺癌等)是全球主要致死与致残原因。其诊断与管理往往需要结合影像、检验与临床信息,并依赖多学科协作。人工智能在胸部疾病诊疗中展现出潜力,例如基于 CT 的肺癌筛查与自动放射报告生成,可显著提升医疗效率。
然而,大多数现有医学模型仅针对单一模态(图像或文本),缺乏对真实临床工作流程的全流程支持,难以实现可靠的多模态决策。由于临床数据种类繁多(CT、报告、实验室指标、药物关系等),需要开发能同时理解多源异质信息的统一框架。
基于此,研究人员开发了 MedMPT ——一种面向临床实践的多模态预训练 Transformer。该模型通过自监督学习方式在海量胸部影像与文本数据上学习语义表示,从而提升医学任务的普适性与解释性。
方法
MedMPT 在多模态自监督框架下训练,核心思路是:
研究人员首先在广州医科大学第一附属医院收集的 15 万对 CT–报告配对数据上预训练模型,然后将预训练权重迁移至三个下游任务,并进行端到端微调或参数高效微调。模型性能通过定量指标、可解释性分析及人工专家评估进行验证。

图1 | MedMPT 模型整体架构与多模态训练流程
结果
在肺部疾病诊断中的性能显著提升
MedMPT 在肺癌筛查与 COVID-19 诊断任务中均优于其他模型。在 NLST 数据集 的肺癌筛查中,MedMPT 准确率为 0.896,ROC 曲线下面积为 0.927,显著超过对比模型。在 MosMedData 数据集 的 COVID-19 诊断与分级任务中,模型同样保持领先。
即便在仅冻结视觉编码器、使用线性探针的小样本设定下,MedMPT 依然保持高性能,显示出其参数高效性与强泛化能力。这表明模型能够跨切片整合空间信息,形成全局分析视角,对复杂肺部疾病尤为有用。

图2 | MedMPT 在呼吸系统疾病诊断任务中的性能对比
放射报告生成的语义准确性显著提高
MedMPT 能自动生成与人工放射科医生风格接近的报告。在 BLEU、ROUGE、METEOR 等语言质量指标上,MedMPT 明显优于 Med-Flamingo 和 LLaVA-Med。其生成的报告在结构化描述、病灶定位和医学术语使用上更加精确,避免了通用模型常见的幻觉与语义偏差。在外部验证集中,MedMPT 性能下降不到 5%,表明其跨机构稳健性。零样本测试下,报告生成性能仅比完全监督时低约 0.02,展现了极高的通用性。
处方推荐任务中具备“临床专家级”表现
研究人员进一步评估 MedMPT 在多模态药物推荐任务中的表现,输入包含患者的 CT、报告、检验及用药记录。
MedMPT 的 精确率 0.57、召回率 0.44、F1 分数 0.46,均显著高于其他模型。由六位临床医生进行的盲审显示,约 74% 的模型推荐获得满分(无药物冲突,推荐全面),平均得分 4.54/5。模型在识别主要药物及替代方案方面表现接近专家,显示出潜在的临床辅助能力。此外,在参数冻结、仅调节任务特定模块的设定下,模型性能几乎不变,进一步证明其高效与鲁棒性。

图 3 | 多模态处方推荐的性能
人机协作显著提升临床工作效率与质量
研究人员通过与 6 位不同资历放射科医生的协作实验,评估模型对报告生成的帮助。
人工与 MedMPT 协作生成的报告在可读性、准确性与完整性上均优于单独人工或AI生成。临床接受度由 67–96% 提升至 75–98%。研究人员指出,AI 作为“协作者”而非“替代者”能最大化临床价值。

图 4 | 临床协作实验与人机报告质量分析
模型提供可解释性决策依据
在肺癌诊断案例中,MedMPT 的注意力热图准确聚焦于肿瘤区域、条索影与磨玻璃影等关键特征;在报告生成与用药预测中,模型的跨注意力映射显示出语义–空间对齐能力,可追踪关键词与病灶区域的对应关系。模型能高亮与药物作用靶点相关的肺部区域,显示其在临床可解释性上的潜力,有助于医生信任与验证。

图 5 | MedMPT 的定性评价
融合真实数据中的药物共现知识提升性能
在处方实验中,研究人员发现真实世界药物共现模式(同方共处频率)蕴含隐含先验知识。他们构建药物共现图(co-occurrence graph),并引入图注意力机制,提升药物间语义关联建模能力。加入该图后,模型 F1 分数提升约 0.008,推荐更符合临床逻辑,能够区分不同药理类别(如糖皮质激素与呼吸道抗炎药)的处方场景。

图 6 | 药物建模框架及其性能分析概述
多模态输入对任务性能至关重要
通过模态消融实验,研究人员发现单一模态(仅 CT、仅报告或仅检验)下模型 F1 仅为 0.37 左右,而融合所有模态后显著提升至最高值。这说明医学数据的整体性与多源互补性对模型性能至关重要,多模态学习能有效减少偏差、增强稳定性与泛化能力。
多任务联合训练提高泛化性与资源效率
在同时训练三个临床任务(癌症筛查、报告生成、处方推荐)的多任务模型中,MedMPT 仅使用任务专属模型 58% 的参数,即实现了接近或更好的外部集泛化性能。这表明跨任务知识迁移有助于模型在临床环境中实现更强鲁棒性与可扩展性。
模块消融验证自监督机制的必要性
进一步的模块消融实验显示:
这些结果强调了自监督学习中多模态交互与全局上下文建模的关键作用。
讨论
研究人员指出,大型预训练模型已成为医学 AI 的核心方向。然而,现有多数模型聚焦单模态任务,难以满足复杂临床决策需求。
MedMPT 通过统一的视觉–语言预训练框架,实现了从影像到语言、从诊断到用药的多任务支持,并通过自监督学习减少了对人工标注的依赖。
其核心优势包括:
研究人员认为,未来应进一步探索混合专家(MoE)、适配器模块等策略,以在任务特异性与泛化性之间取得更佳平衡,推动医学 AI 向“全能型临床助手”迈进。
结论
MedMPT 代表了一种新型的多模态医学基础模型,为呼吸系统疾病的诊断、报告生成和药物推荐提供统一解决方案。
研究人员的工作表明,面向真实临床流程的预训练 AI 系统能够显著提升医疗效率、决策质量与可靠性,为构建可信、可解释的医学人工智能奠定了基础。
整理 | DrugOne团队
参考资料
Ma, L., Liang, H., He, Y. et al. A vision–language pretrained transformer for versatile clinical respiratory disease applications. Nat. Biomed. Eng (2025).
https://doi.org/10.1038/s41551-025-01544-z
内容为【DrugOne】公众号原创|转载请注明来源