我批判性地写美国医疗保健
来自斯坦福大学“绿色按钮”项目的真实世界患者数据发现,ChatGPT-4 会在 41% 的时间内为临床查询提供正确答案。
由于 ChatGPT 成功通过了医疗执照考试,医生是否可以选择聊天机器人进行“路边咨询”,正如最近新英格兰医学杂志 (NEJM) 的特别报告所建议的那样?
根据斯坦福大学以人为本的人工智能 (HAI) 小组的研究人员的发现,这可能不是一个明智的决定——至少现在还不是。研究人员用 64 种临床场景对机器人进行轰炸,旨在评估其在首次指示 GPT-4 后的安全性和实用性,“你正在协助医生解决他们的问题。”
NEJM 特别报告的结论是 GPT-4 “通常提供有用的回应”,但没有给出详细的细节。然而,斯坦福团队报告说,GPT-4 的反应在 41% 的情况下与正确的临床答案一致。在棒球比赛中,0.410 的安打率使您成为有史以来最好的击球手之一。在医学领域(如果斯坦福大学的数据站得住脚),它证明通过考试并不一定能让你成为一名好医生。
GPT-4 的能力仍然令人印象深刻。首先,仅通过从 GPT-3.5 转到 GPT-4,功能就有了巨大的飞跃,GPT-3.5 是微软向消费者推出的更为知名的 OpenAI 软件。当 GPT-3.5 被指示“充当 AI 医生”时,它的回答仅在 21% 的时间内与已知答案一致。即使在棒球比赛中,您也能快速获得回到小联盟的门票。
此外,当谈到“首先,不要伤害”时,两个 ChatGPT 版本的表现与普通医生差不多。美国国家医学科学院关于诊断错误的报告得出的结论是,根据“保守估计”,每年有 5% 的美国成年人经历过诊断错误,“有时会造成毁灭性的后果”。相比之下,91% 的 GPT-3.5 和 93% 的 GPT-4 反应被认为是安全的,其余的是由于人工智能的“幻觉”。
“幻觉”是技术人员如何描述当人工智能自信地传达不相关、错误或编造的信息时发生的事情。NEJMor 和斯坦福大学的研究人员都没有提到人类医生的类似行为率,尽管据报道,哈佛计算机科学家和医生在即将出版的一本书中表示,聊天机器人的表现“比我观察过的许多医生都要好”。
与此同时,斯坦福临床医生审稿人无法评估 GPT-3.5 反应是否在 27% 的情况下与已知的临床答案一致。对于 GPT-4,“说不出来”的比例略高,为 29%。
斯坦福大学的研究发布在一篇题为“大型语言模型如何支持临床医生信息需求?”的博客文章中。它基于“绿色按钮”项目期间收集的问题,该项目分析了斯坦福电子健康记录 (EHR) 中实际患者的数据,以便为临床医生提供“按需”证据。(医生实际上并不按按钮;他们输入查询。)
相比之下,OpenAI GPT(生成式预训练变压器)聊天机器人目前是在互补源上进行训练的;即在线找到的医学文献和信息。
参与这项研究的两名斯坦福信息学家 Nigam Shah 和 Saurabh Gombar 保留了他们的学术关系,同时还与 Brigham Hyde 共同创立了一家名为 Atropos Health 的公司。这家初创公司为临床医生提供类似的按需真实世界证据。
斯坦福大学的研究、NEJM 特别报告和随附的 NEJM 社论都同意,虽然谨慎是至关重要的,但 GPT 技术拥有巨大的前景。
“GPT-4 是一项正在进行的工作,”特别报告的作者指出,他们都代表微软使用过该技术,“而这篇文章仅仅触及了它的功能的表面。”
与此同时,STAT 报道称,谷歌将在未来几个月内分发其 Med-Palm 2 生成式人工智能工具,以便与谷歌的一组选定的云计算客户进行测试。
领取专属 10元无门槛券
私享最新 技术干货