首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >微软新出多智能体将医疗诊断准确率提到85%,比人类医生高出4倍!

微软新出多智能体将医疗诊断准确率提到85%,比人类医生高出4倍!

作者头像
AgenticAI
发布2025-07-04 15:08:50
发布2025-07-04 15:08:50
1680
举报
文章被收录于专栏:AgenticAIAgenticAI

近日微软人工智能团队分享了一项研究,展示了多智能体如何逐步调查和解决医学上最复杂的诊断挑战——专家医生难以回答的病例。以《新英格兰医学杂志》 (NEJM) 每周发布的真实病例记录为基准,微软提出的人工智能诊断协调器 (MAI-DxO) 对 NEJM 病例的诊断准确率高达 85%,比经验丰富的医生团队高出四倍以上。此外, MAI-DxO 还能比医生更经济高效地获得正确诊断。

虽然这是一个医疗智能体,不过其设计思路值得我们学习,如何将现实世界的流程模拟为多智能程序。

那么他们如何做到的呢?

他们根据 NEJM 的病例系列创建了交互式病例挑战,称之为“序贯诊断基准”(SD Bench)。该基准将 304 例近期《新英格兰医学杂志》病例转化为分步诊断,模型(或人类医生)可以迭代提问并安排检查。随着新信息的出现,模型或临床医生会更新其推理,逐步缩小诊断范围。然后,可以将该诊断与《新英格兰医学杂志》上发表的金标准结果进行比较。

全球领先的医学期刊之一《新英格兰医学杂志》(NEJM)每周都会发表麻省总医院的病例记录,以详尽的叙述形式呈现患者的诊疗历程。这些病例是临床医学中诊断最复杂、智力要求最高的病例之一,通常需要多位专家的诊疗和多项诊断测试才能得出确诊。

简单讲,就是按照人类诊断流程,分步诊断。比如你去医院,医生先做初步整段,然后可能是要验血或者拍片,然后将验血完成,根据验血结果进一步判定等等。

所以你在开发智能体程序过程中,千万不要闭门造车,而是模拟原本的工作流程,而不是一股脑的把所有输入都给大语言模型判断。如果这个工作是专员 A 做的,那么 A 就是智能体 A,专业化负责某件事,是流水线还是并行也一样依据现实的流程来就可以了。

微软开发的这套诊断 Agent,命名为人工智能诊断协调器 MAX-DXO,它模拟了一个虚拟的医生专家组,协同合作以解决诊断案例。如下图所示,单个语言模型会扮演五个不同的医疗角色,每个角色都为诊断过程贡献其专业知识。这种精心编排 (orchestrated) 的方法旨在复现团队临床推理的优势,同时减轻个体的认知偏见,并最大限度地降低成本和侵入性。

这个虚拟专家组由 5 个专家组成:

  • 假设生成医生 (Dr. Hypothesis) – 维护一个按概率排序的鉴别诊断列表,列出最可能的三种病症,并在每次获得新发现后,以贝叶斯方式更新概率。
  • 检查选择医生 (Dr. Test-Chooser) – 每轮选择最多三个诊断性检查,这些检查要能够最大程度地区分当前最有可能的几种假设。
  • 挑战者医生 (Dr. Challenger) – 扮演“魔鬼代言人”(唱反调)的角色,通过识别潜在的锚定偏见,指出相互矛盾的证据,并提出可以证伪当前主要诊断的检查。
  • 成本管控医生 (Dr. Stewardship) – 强制推行有成本意识的医疗服务,当存在诊断效果相当的方案时,倡导选择更便宜的替代方案,并否决那些效益低下的昂贵检查。
  • 质控核查医生 (Dr. Checklist) – 执行静默的质量控制,确保模型生成有效的检查名称,并保持专家组内部推理逻辑的一致性。

然后经过辩论链 (Chain of Debate)达成共识,是要继续问询,还是安排检查,做出最终检查。可以看到这套架构是模型无关的,即支持大部分模型。

通过这种多角色协作和迭代式推理,MAI-DxO 能够有效避免单一模型可能出现的思维局限,并以更经济、更高效的方式逼近正确诊断。

诊断流程如下图所示:

诊断流程
诊断流程

性能测试

MAI-DxO 提升了测试的每个模型的诊断性能。性能最佳的设置是 MAI-DxO 与 OpenAI 的 o3 搭配使用,正确解决了 85.5% 的 NEJM 基准病例。为了进行比较,还评估了来自美国和英国的 21 位执业医师,每位医师都有 5 至 20 年的临床经验。在相同的任务中,这些专家 在已完成病例中的平均准确率只有 20%,只有 MAI-DxO 的1/4。具体如下图所示。

也可以看到 OpenAI o3 虽然也能达到 78%左右的准确率,但是其医疗成本高达 8000 刀,因为没有限制的 AI 它会采用各种各样的检查。而多智能体则会根据预算控制检查项目,MAX-DxO 在 2500 左右的成本下就已经实现了 80%的准确率。成本下降 1/4。而 Gemini-2.5-Pro 和 Cluade 也非常强大,而我们国产 DeepSeek-R1 在此项评分中表现一般。

多说一句 gemini-2.5-flash 这么强吗?有同学测试过么?

总结

论文今日刚刚发表Sequential Diagnosis with Language Models[1],论文中表示代码可能后续会放出。我在想,其实多智能体就是模拟人类分工合作的,测试也表明,多智能体的效率也远比单个模型的效率高的多。而且随着大语言模型的发展,多智能体的程序的准确率和效率只会进一步提高。

参考资料

[1] 

Sequential Diagnosis with Language Models: https://arxiv.org/pdf/2506.22405

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 那么他们如何做到的呢?
  • 性能测试
  • 总结
    • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档