近年来,人工智能(AI)技术,尤其是大语言模型(LLMs),在医学领域取得了显著进展。这些模型在静态医疗问答任务中表现优异,甚至在某些情况下能够媲美人类专家。然而,医学诊断并非单一静态的任务,而是一个动态、复杂的过程,涉及多轮互动和信息收集。
为了更全面地评估LLMs在动态医疗场景中的能力,来自华中科技大学、阿里巴巴、复旦大学的研究人员在第31届国际计算语言学会议(ACL Anthology)上发表了一篇题为《AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator》的论文,提出了AI医院——一个由多智能体组成的交互式医疗模拟器。
在真实的临床诊断中,医生与患者之间的互动通常是动态的、迭代的。医生需要通过多轮对话,逐步收集患者的症状信息,推荐合适的检查,并根据检查结果做出诊断和治疗决策。这种动态过程与静态医学问答任务有着本质的区别:后者假设所有患者信息在开始时就已完全提供,而前者则要求医生主动提问、整合信息,并在不确定性中进行决策。
尽管LLMs(如GPT-4)在静态医学问答任务中的表现令人印象深刻,但其在动态诊断场景中的能力仍不明确。为了解决这一问题,研究人员提出了AI医院框架,旨在模拟真实的医疗交互过程,并评估LLMs在动态场景中的表现。
AI医院是一个由多智能体组成的框架,模拟了医生、患者和检查员之间的互动。该框架的设计目标是尽可能贴近现实中的临床诊断流程,同时为评估LLMs的动态交互能力提供一个可控的环境。
AI医院中的角色分为三类:
这种角色分配方式与现实临床场景高度一致:医生需要通过与患者的互动收集主观信息,并通过检查员获取客观数据。
为了构建AI医院的模拟环境,研究人员从中国的医疗网站收集了506份高质量的中文病历。这些病历涵盖了12个医学专科和48个亚专科,涉及多种疾病、症状和检查项目。每份病历被分为以下三个部分:
在AI医院中,医生代理需要通过多轮对话与患者和检查员互动,最终生成包含以下五部分的诊断报告:
研究人员提出了多视角医学评估(MVME)基准,用于量化LLMs在AI医院中的表现。MVME基准从以下三个关键维度评估医生代理的能力:
评估方法包括三种:基于链接的自动评估、基于GPT-4的模型评估以及人类专家评估。
研究人员在AI医院框架中测试了多种大语言模型,包括GPT-3.5、GPT-4、Wenxin-4、QwenMax、Baichuan 13B、HuatuoGPT-II等。实验结果揭示了LLMs在动态医疗交互中的优势与局限性。
尽管LLMs在静态医学问答任务中表现优异,但在动态诊断场景中的表现显著下降。例如,即使是性能最好的GPT-4,其在动态诊断中的表现也仅达到静态诊断的50%。这表明,当前LLMs在动态信息收集和临床决策方面存在明显不足。
通过线性回归分析,研究人员发现患者信息的完整性与诊断质量之间存在显著正相关。这表明,LLMs在动态交互中难以有效提问以获取完整的患者信息,进而影响诊断准确性。此外,不同模型的表现差异显著,参数较少的模型在动态诊断中的表现较弱。
在不同医学专科中的表现差异也提供了重要见解。例如,大多数模型在外科和耳鼻喉科的表现优于其他科室,而在儿科中的表现较差。这表明,不同医学专科的复杂性对LLMs的表现有显著影响。
为了提升诊断准确性,研究人员引入了一种协作机制,允许多个LLMs独立诊断同一病例并通过讨论达成共识。实验表明,协作机制能够在一定程度上提高诊断质量,但仍未能弥合动态诊断与静态诊断之间的差距。
AI医院框架的意义 AI医院为评估LLMs在动态医疗交互中的能力提供了一个创新的平台,不仅可以用于模型性能的测试,还可以为医学教育和AI辅助诊断工具的开发提供支持。通过生成高质量的医疗对话数据,AI医院有潜力进一步推动医疗AI的发展。
当前LLMs的局限性 尽管LLMs在静态医学问答任务中表现出色,但其在动态诊断中的不足仍然显著。具体表现为:
未来研究方向 未来的研究应重点解决以下问题:
AI医院框架为评估LLMs在动态医疗交互中的能力提供了一个全新的视角。尽管当前的LLMs在静态任务中表现优异,但在动态场景中仍面临显著挑战。通过进一步优化模型的动态交互能力,AI有望在未来的医疗诊断中扮演更重要的角色,为医疗行业带来更多创新和突破。
Fan, Zhihao, Lai Wei, Jialong Tang, Wei Chen, Wang Siyuan, Zhongyu Wei, and Fei Huang. "Ai hospital: Benchmarking large language models in a multi-agent medical interaction simulator." In Proceedings of the 31st International Conference on Computational Linguistics, pp. 10183-10213. 2025.