前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >仅靠 AI 就比独立医生好 4 倍?OpenAI HealthBench 数据震撼,o3 太强了!

仅靠 AI 就比独立医生好 4 倍?OpenAI HealthBench 数据震撼,o3 太强了!

作者头像
AI进修生
发布于 2025-05-14 05:37:53
发布于 2025-05-14 05:37:53
2610
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

一石激起千层浪。 OpenAI 近日正式发布了其精心打造的医疗 AI 评估新基准——HealthBench。

官方博客洋洋洒洒,详细阐述了这一“AGI 标志性用例”的背景、设计理念和宏大愿景。

这玩意儿不只是个新测试集,更像是 OpenAI 给未来医疗 AI 立了个新标尺,指了个方向。

OpenAI 在官宣里说了,AGI (通用人工智能) 要是能改善人类健康,那绝对是里程碑式的影响。大语言模型潜力是挺大,但真要用到医疗上,必须保证既好用又安全。

问题是,现在那些评估方法,普遍有三大硬伤:

  1. 不接地气:没法真实还原医疗场景。
  2. 专家缺位:缺少基于医生意见的严格验证。
  3. 天花板低:没给那些前沿模型留啥进步空间。

所以,HealthBench 横空出世。 他们这次下了血本,跟全球 60 个国家、262 名执业医生 深度合作,攒了个包含 5000 个真实医疗健康对话场景 的大数据库。

每个对话都配了详细的医生评分标准,总共搞了 48562 个 独特的评分细则。

OpenAI 搞医疗 AI 的负责人 Karan Singhal 对 HealthBench 信心满满。

他说,希望能靠它,把 AI 真正引向改善人类健康的正轨。 HealthBench 的设计,有三个核心想法:

首先,要 有现实意义。 评分得反映真实世界的医疗场景,抓住那些复杂的细节。

其次,要 值得信赖。 评分得是真医生给的,符合他们专业的要求。

最后,得让 AI 能进步。 这个测试不能让现有模型轻松过关,要能逼着它们拿出显著的改进。

除了主打的 HealthBench,OpenAI 还准备了进阶版。 有个叫 HealthBench Hard 的,是专门给那些更高难度场景准备的。 还有个 HealthBench Consensus,是请了好几个医生一起验证的,确保评估标准够专业。

准备把医疗 AI 的评估体系从易到难、从单人到多人,全方位无死角覆盖。

数据屠榜:o3 登顶,AI 单挑能力已达人类医生最佳水平?

HealthBench 一出,各大顶尖模型纷纷下场“应考”。结果显示,OpenAI 自家的 o3 模型表现最为抢眼,全面超越了 Grok 3、Gemini 2.5 Pro (Mar 2025) 和 Claude 3.7 Sonnet 等一众强敌,成功登顶。

Grok 3(基础模型)排名第 2,击败了除 o3 之外的所有模型。

更引人注目的是“AI 与医生正面交锋”的实验结果。OpenAI 让医生分别在无 AI 辅助和有 AI 参考的情况下作答,并与 AI 模型的回答进行对比。

  • 对于 2024 年 9 月的模型 (如 o1-preview, 4o): 结论是“人机协作最佳”。得到模型辅助的医生,其表现优于模型自身的参考回答。
  • 但当换上 2025 年 4 月的最新模型 (如 o3, GPT-4.1): 局面发生了戏剧性转变。OpenAI 发现,医生的优化回答与 AI 的原始回答相比,质量上没有显著提升。 这意味着,当前最强 AI 的回答质量,几乎已经达到了人类医生参考最新 AI 后能达到的最佳水平。

人类免疫学家 Derya Unutmaz 对此高度评价道:“这个关键的评估基准,将为 AI 医生铺平道路。我们现在正处于一场改变医学未来,拯救数百万人生命的革命开端。”

图表里的“扎心”细节:AI 进步神速,人类医生何去何从?

让我们通过 HealthBench 放出的对比图,更直观地感受这场“风暴”:

这张图清晰地显示:

  • 医生独立手写 (Physicians with no reference): 总分仅 0.125,垫底。
  • 2024 年 9 月模型独立作答 vs. 医生 + 2024 年 9 月模型辅助: 分别为 0.277 和 0.313,此时“人机协作”仍有优势。
  • 2025 年 4 月模型独立作答 (Apr 2025 model) vs. 医生 + 2025 年 4 月模型辅助: 分别为 0.4870.480。最新的 AI 模型单独作答,总分已经略微超过了“医生+最新 AI 辅助”的组合。

所以,仅靠 AI 模型就比独立医生好 4 倍。

同时,另一张汇集了更多新老模型的对比图则进一步佐证了 AI 的迅猛发展。

图表显示,小模型的性能在最近几个月也得到了显著改进, 例如 GPT-4.1 nano 尽管成本仅为 GPT-4o (2024年8月版) 的 1/25,表现却更优,这为 AI 在资源匮乏地区的应用带来了曙光。

可靠性方面,OpenAI 关注“最差表现 (worst-of-n performance)”。结果显示,o3 模型在 16 个样本时的最差分数超过 GPT-4o 的两倍,展现出更强的稳健性。

为了确保 HealthBench 评分的专业性和可信度,OpenAI 还进行了“元评估”,对比模型评分器与医生判断之间的一致性。结论是,GPT-4.1 作为评分模型的表现已能与医生专家的评估相媲美,甚至在某些主题上超越了医生平均水平。

网友Emmanuel Afolabi 强调: AI 的优势在于信息处理,但真正的医疗需要同情心、伦理和情境判断。

还有人认为: AI 已不再是辅助技术,而是新的基准,医疗行业正在被实时重定义。

也有用国际象棋类比的: “人机混合最强”只是阶段性的。

正如 OpenAI 所言,HealthBench 的目标是支持整个生态系统的研究者,共同推动 AI 技术真正造福人类健康。这场由数据引发的“风暴”,或许正是开启 AI 医疗新篇章的“催化剂”。

未来已来,只是比我们想象的更快、更复杂。

One More Thing

AI 绘画元方法:不肝提示词,文章直出封面。(端到端篇)

AI 绘画“元方法”分享,免费绘图流,掌握思维比提示词更重要。(融图篇)MCP文章,从概念到实践再到自己构建:

MCP是什么Windsurf Wave3:MCP协议让AI直接读取控制台错误,自动化网页调试不用复制粘贴了!Tab智能跳转、Turbo模式。

Cline

P怎么配置、报错解决Windows下MCP报错的救星来了,1分钟教你完美解决Cursor配置问题。

图片
图片

MCP实践:Cursor + MCP:效率狂飙!一键克隆网站、自动调试错误,社区:每个人都在谈论MCP!

最新MCP托管平台:让Cursor秒变数据库专家,一键对接Github,开发效率暴增!

Blender + MCP 从入门到实践:安装、配置、插件、渲染与快捷键一文搞定!

比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!

手把手教你配置BrowserTools MCP,Windows 和 Mac全流程,关键命令别忽略。

2分钟构建自己的MCP服务器,从算数到 Firecrawl MCP(手动挡 + AI档)

太简单了!Cline官方定义MCP开发流程,聊天式开发,让MCP搭建不再复杂。

参考链接: [基准博客] https://openai.com/index/healthbench/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
昨天凌晨1点30分,OpenAI发布了一个专门针对医疗大模型的测试评估集——HealthBench。这一测试集包含了约5000段核心测试对话,全部由来自全球60个国家和地区的26个专业领域、共262名医生共同设计,极大提升了测试内容的难度、真实性和多样性。与传统的单轮答题或选择题不同,HealthBench采用多轮对话的形式进行评测。
福大大架构师每日一题
2025/05/14
1790
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍
新智元
2025/02/15
750
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
OpenAI 正式官宣 o3 & o4-mini:迄今最强模型,AI 终于学会“十八般武艺”全家桶了。
AI进修生
2025/04/18
1560
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。
数字生命卡兹克
2025/04/14
1310
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
刚刚,OpenAI联创Greg Brockman和首席研究官Mark Chen带队,开启了20分钟线上直播。
新智元
2025/04/18
1030
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
深度解析 OpenAI o3 大模型:详细功能、API Key 获取及 Python 代码开发示例
人工智能领域正经历着前所未有的飞速发展,其中大型语言模型 (LLM) 的能力边界不断被拓宽。OpenAI 作为该领域的领军者之一,继其广受关注的 o1 模型之后,推出了新一代的 o3 大模型系列。这一系列模型的问世,不仅代表了技术的又一次重要迭代,更预示着人工智能在复杂推理和自主能力方面迈向了新的台阶。
攻坚克难的那份表
2025/05/15
2230
OpenAI 五月新动向:技术与战略并进
2025年5月15日,OpenAI正式推出GPT-4.1系列,包括旗舰模型GPT-4.1、轻量版GPT-4.1 mini以及超高效的GPT-4.1 nano,逐步取代部分现有模型(如GPT-4o mini)。这一系列模型针对编码、复杂指令遵循和超长上下文处理进行了深度优化,特别契合程序员、开发者和企业的需求。相较于此前的o3和o4-mini模型,GPT-4.1系列在性能上显著提升,推理速度更快、运行成本更低,成为构建高性能AI应用的首选。
用户11658894
2025/05/15
670
OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步
2025年4月17日,OpenAI以一场30分钟的极简发布会,向世界投下一枚“重磅炸弹”——新一代推理模型o3及其轻量版o4-mini。这款被称为“迄今最智能的模型”不仅以87.5%的ARC-AGI基准得分刷新人类对AI推理能力的认知,更首次实现图像深度融入思维链,让机器真正“用图片思考”。从科研到商业,从教育到创意,o3正以“天才级”的推理能力重构生产力边界。本文将深度拆解其技术内核,并揭示这场推理革命如何加速AGI(通用人工智能)的到来。
疯狂的KK
2025/04/24
2410
OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步
AI看病竟比医生强?哈佛、斯坦福等联合评估o1-preview,诊断准确率高达近80%
「根据(关于)OpenAI的最新论文,o1-preview在推理任务上远远优于医生,甚至天壤之别。AI对143项困难的NEJM CPC诊断结果分别为约80%到30%。现在相信你的医生而不咨询人工智能模型是危险的。」
新智元
2025/02/15
1000
AI看病竟比医生强?哈佛、斯坦福等联合评估o1-preview,诊断准确率高达近80%
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
OpenAI技术报告称,o3和o4-mini「幻觉率」远高于此前的推理模型,甚至超过了传统模型GPT-4o。
新智元
2025/04/22
710
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
o3 deep research: LLM 驱动的 Agent 综述
大型语言模型(LLM)的崛起在过去几年引发了人工智能领域的飞跃式发展。尤其是 2022 年底 OpenAI 推出的 ChatGPT,短短两个月内月活用户就突破一亿,成为史上用户增长最快的消费者应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。ChatGPT 所展现的强大自然语言对话和内容生成能力,如一场“核爆”引发全球对于通用人工智能的极大关注,各行各业开始思考如何将这类大模型应用到实际业务中。紧随其后,OpenAI 发布了更先进的 GPT-4 模型,能够理解更复杂的指令,并支持图像等多模态输入。这场由 ChatGPT 引领的LLM浪潮,不仅催生了大量类似产品和开源模型,也让“ AI 更自主地完成复杂任务”成为下一个技术探索热点。在这种背景下,由 LLM 驱动的 Agent(智能代理)概念逐渐兴起,成为 AI 技术爱好者和产业从业者共同关注的前沿方向。
立委
2025/03/08
2980
o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现
13333人当中,也仅有1人IQ是o3级别的。对于GPT-4o,6人当中就有1人能够达到IQ 115的水平。
新智元
2025/02/15
750
o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现
Poe平台上的DeepSeek活跃度下降了50%,而快手用户数量快速增长,OpenAI则实现了显著的激增。
昨日凌晨,全球知名的大模型整合与应用平台Poe发布了2025年春季的AI模型使用趋势报告。报告显示,DeepSeek R1的使用率从二月中旬达到的7%高峰下降到四月底的3%,跌幅超过一半。与此同时,OpenAI借助GPT-4o新上线的文生图功能,如吉卜力风格和仿真自拍等画风,用户量实现了爆发式增长,使用率大幅提升。
福大大架构师每日一题
2025/05/15
1020
Poe平台上的DeepSeek活跃度下降了50%,而快手用户数量快速增长,OpenAI则实现了显著的激增。
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
刚刚,OpenAI 为期 12 天的发布迎来尾声。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。
机器之心
2025/02/15
860
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
OpenAI重磅升级:GPT-4.1 登场,编码能力提升,成本优化,附API KEY获取与实用代码示例
北京时间2025年4月15日,OpenAI通过其应用程序接口(API)发布了新的GPT-4.1模型系列,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano 。此次发布标志着OpenAI在大型语言模型领域,特别是针对开发者社区需求的持续演进。关键特性得到确认:相较于其前代模型GPT-4o,GPT-4.1在编码能力上实现了显著提升 ;该模型系列在发布初期仅通过API提供访问 ;并且其API定价相较于GPT-4o有所降低,提供了更优的成本效益 。
网名重要么
2025/04/23
2730
揭秘Claude 4:AI界的编码王者与多模态新星,性能数据震撼来袭!
Claude 4系列是Anthropic公司于2025年5月23日推出的最新对话式AI模型,包括Claude Opus 4和Claude Sonnet 4,代表了人工智能在推理、编码和多模态处理领域的顶尖水平。本文将深入剖析Claude 4的技术架构、性能指标、核心功能及适用场景,并通过多张图表展示其在关键基准测试中的表现,为用户提供全面的技术参考。
用户11658894
2025/05/23
6840
Grok-3轻量推理优势,轻松超越o3 mini和DeepSeek
在最新公开榜单中,Grok-3 成为首个综合得分突破 1400的大模型,可谓风头无两。不过,拆开各分项指标后,我们可以看到更细致的差异。
算法一只狗
2025/04/27
2010
微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
有网友猜测,4o mini是一个大约有40B参数的MoE模型,其中激活参数为8B。
新智元
2025/02/15
530
微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜
今日主题:OpenAI O3重磅上线 今天的山姆-奥特曼获得呼吸权一天,Open AI在各方势力的围剿下,直接贴脸开大。终于放出了大招,Chatgpt O3重磅上线,今天的山姆-奥特曼出街,大概就是这个表情
一个正经的AI
2024/12/23
2.6K0
Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜
永别了,GPT-4!
4月10日,OpenAI正式宣布,即将从ChatGPT中移除两年前推出的GPT-4。
新智元
2025/04/13
1350
永别了,GPT-4!
推荐阅读
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
1790
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
750
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
1560
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
1310
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
1030
深度解析 OpenAI o3 大模型:详细功能、API Key 获取及 Python 代码开发示例
2230
OpenAI 五月新动向:技术与战略并进
670
OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步
2410
AI看病竟比医生强?哈佛、斯坦福等联合评估o1-preview,诊断准确率高达近80%
1000
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
710
o3 deep research: LLM 驱动的 Agent 综述
2980
o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现
750
Poe平台上的DeepSeek活跃度下降了50%,而快手用户数量快速增长,OpenAI则实现了显著的激增。
1020
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
860
OpenAI重磅升级:GPT-4.1 登场,编码能力提升,成本优化,附API KEY获取与实用代码示例
2730
揭秘Claude 4:AI界的编码王者与多模态新星,性能数据震撼来袭!
6840
Grok-3轻量推理优势,轻松超越o3 mini和DeepSeek
2010
微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
530
Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜
2.6K0
永别了,GPT-4!
1350
相关推荐
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档