近日微软人工智能团队分享了一项研究,展示了多智能体如何逐步调查和解决医学上最复杂的诊断挑战——专家医生难以回答的病例。以《新英格兰医学杂志》 (NEJM) 每周发布的真实病例记录为基准,微软提出的人工智能诊断协调器 (MAI-DxO) 对 NEJM 病例的诊断准确率高达 85%,比经验丰富的医生团队高出四倍以上。此外, MAI-DxO 还能比医生更经济高效地获得正确诊断。
虽然这是一个医疗智能体,不过其设计思路值得我们学习,如何将现实世界的流程模拟为多智能程序。
他们根据 NEJM 的病例系列创建了交互式病例挑战,称之为“序贯诊断基准”(SD Bench)。该基准将 304 例近期《新英格兰医学杂志》病例转化为分步诊断,模型(或人类医生)可以迭代提问并安排检查。随着新信息的出现,模型或临床医生会更新其推理,逐步缩小诊断范围。然后,可以将该诊断与《新英格兰医学杂志》上发表的金标准结果进行比较。
全球领先的医学期刊之一《新英格兰医学杂志》(NEJM)每周都会发表麻省总医院的病例记录,以详尽的叙述形式呈现患者的诊疗历程。这些病例是临床医学中诊断最复杂、智力要求最高的病例之一,通常需要多位专家的诊疗和多项诊断测试才能得出确诊。
简单讲,就是按照人类诊断流程,分步诊断。比如你去医院,医生先做初步整段,然后可能是要验血或者拍片,然后将验血完成,根据验血结果进一步判定等等。
所以你在开发智能体程序过程中,千万不要闭门造车,而是模拟原本的工作流程,而不是一股脑的把所有输入都给大语言模型判断。如果这个工作是专员 A 做的,那么 A 就是智能体 A,专业化负责某件事,是流水线还是并行也一样依据现实的流程来就可以了。
微软开发的这套诊断 Agent,命名为人工智能诊断协调器 MAX-DXO,它模拟了一个虚拟的医生专家组,协同合作以解决诊断案例。如下图所示,单个语言模型会扮演五个不同的医疗角色,每个角色都为诊断过程贡献其专业知识。这种精心编排 (orchestrated) 的方法旨在复现团队临床推理的优势,同时减轻个体的认知偏见,并最大限度地降低成本和侵入性。
这个虚拟专家组由 5 个专家组成:
然后经过辩论链 (Chain of Debate)达成共识,是要继续问询,还是安排检查,做出最终检查。可以看到这套架构是模型无关的,即支持大部分模型。
通过这种多角色协作和迭代式推理,MAI-DxO 能够有效避免单一模型可能出现的思维局限,并以更经济、更高效的方式逼近正确诊断。
诊断流程如下图所示:
MAI-DxO 提升了测试的每个模型的诊断性能。性能最佳的设置是 MAI-DxO 与 OpenAI 的 o3 搭配使用,正确解决了 85.5% 的 NEJM 基准病例。为了进行比较,还评估了来自美国和英国的 21 位执业医师,每位医师都有 5 至 20 年的临床经验。在相同的任务中,这些专家 在已完成病例中的平均准确率只有 20%,只有 MAI-DxO 的1/4。具体如下图所示。
也可以看到 OpenAI o3 虽然也能达到 78%左右的准确率,但是其医疗成本高达 8000 刀,因为没有限制的 AI 它会采用各种各样的检查。而多智能体则会根据预算控制检查项目,MAX-DxO 在 2500 左右的成本下就已经实现了 80%的准确率。成本下降 1/4。而 Gemini-2.5-Pro 和 Cluade 也非常强大,而我们国产 DeepSeek-R1 在此项评分中表现一般。
多说一句 gemini-2.5-flash 这么强吗?有同学测试过么?
论文今日刚刚发表Sequential Diagnosis with Language Models[1],论文中表示代码可能后续会放出。我在想,其实多智能体就是模拟人类分工合作的,测试也表明,多智能体的效率也远比单个模型的效率高的多。而且随着大语言模型的发展,多智能体的程序的准确率和效率只会进一步提高。
[1]
Sequential Diagnosis with Language Models: https://arxiv.org/pdf/2506.22405