前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >《Nature》发表:AI运用在医疗临床决策支持的系统评估

《Nature》发表:AI运用在医疗临床决策支持的系统评估

作者头像
用户11203141
发布2025-03-06 13:25:02
发布2025-03-06 13:25:02
720
举报

未来人们很可能会转向AI大型语言模型(LLMs)来咨询健康/医疗建议,就像在以前用百度/Google上搜索诊断一样.

这篇今天3月发表在《Nature》文献,针对临床决策支持任务的 ChatGPT、Google 搜索和 Llama 2 的系统分析

文献地址:https://www.nature.com/articles/s41467-024-46411-8

Abstract

作者评估了GPT-3.5和GPT-4在临床上的准确性,为110个医疗病例提供初步诊断、检查步骤和治疗建议。此外,还评估了开源Llama 2模型的两种配置。为了对诊断任务进行基准测试,我们进行了简单的谷歌搜索进行比较。

总体来看,GPT-4在诊断和检查方面表现最好,优于GPT-3.5,并且在诊断上超过了Google。除了治疗外,这三种方法在常见疾病和罕见疾病上的表现都显著更好。子研究显示,Llama模型的性能略低。

总之,商业LLMs(GPT-4)在连续两个主要版本中展示了医疗问答的潜力不断增长。然而,一些弱点凸显了医疗保健领域需要强大且受监管的人工智能模型。

Introduction

ChatGPT在纯文本任务上展现出巨大潜力,如文本生成、编程等。用户可以像咨询个人助理一样使用它们解决问题。然而,现有训练语料库可能存在不一致、不完整或偏差,导致ChatGPT有时会传播虚假信息,尤其在医学领域。

研究表明,ChatGPT 可以通过美国医疗执照考试(USMLE)和高级心血管生命支持(ACLS)考试 。除了考试模拟之外,之前的作品还展示了 ChatGPT 在日常医学中的潜在好处,例如,在医学写作中,通过从电子健康记录中提取信息、协助文献检索或提供写作风格和格式指导的使用,例如加强牙科远程医疗服务或改善放射学中以患者为中心的护理

Results

关于诊断,可以观察到最高水平的一致性:GPT-3·5 的 κ = 0·8、GPT-4 的 κ = 0·76 和 Google 的 κ = 0·84。检查的特征是 GPT-3·5 的 κ = 0·53 和 GPT-4 的 κ = 0·64。关于治疗,我们观察到 GPT-3·5 的 κ = 0·67 和 GPT-4 的 κ = 0·73。

根据兰迪斯等人的说法。 1977 年,这对应于实质性 (0·61–0·8) 到几乎完美 (0·81–1) 的一致性 20 。研究结果没有提供任何证据表明一致的评级差异有利于一位评级者而不是另一位评级者。结果的详细信息参见补充图 2 和补充数据 1。

a:GPT-3·5 与 GPT-4 与 Google 的诊断性能对比。

b:用于检查的 GPT-3·5 与 GPT-4 的性能(精确调整的 p 值 p = 3.2241·10 −6 )。

c:GPT-3·5 与 GPT-4 的治疗表现。气泡图显示两种方法的成对比较。累积频率图显示每个疾病频率亚组的累积病例数(Y 轴)及其准确度得分(X 轴)(浅蓝色:罕见,中等蓝色:不太常见,深蓝色:频繁)。采用单侧曼-惠特尼检验进行统计检验(考虑到 n = 12 次诊断测试,n = 7 次检查和治疗测试,对多重测试进行 Bonferroni 校正进行调整)。

在诊断方面,对所有三种工具进行了评估。成对比较显示:

GPT-4(中位数:4·5,IQR = [3·81;4·75])的性能明显优于 GPT-3·5(中位数:4·25,IQR = [3·0] ;4·75],p = 0·0033)以及 Google(中位数:4·0,IQR = [2·75;4·75],p = 0·0006)。

然而,GPT-3·5 和 Google 之间没有观察到显着差异 (p = 0·6215)。考虑到疾病频率,图 1a 中的图表明,与罕见疾病相比,常见疾病的表现持续更好。对所有工具都进行了这一观察(深蓝色线 - 频繁 - 与浅蓝色线相比上升更陡 - 罕见)。与罕见疾病相比,GPT-3·5 在常见疾病方面的表现显着更好 (p < 0·0001),而 GPT-4 在常见疾病与罕见疾病 (p = 0·0003) 以及不太常见疾病与罕见疾病 (p = 0·0067)。对于 Google,没有观察到罕见疾病和不太常见疾病之间的差异(图 1a)。尽管与常见疾病相比存在一些明显差异,但结果并不显着。

考虑到检查,我们将 GPT-4(中位数:4·5,IQR = [4·0;4·75])与 GPT-3·5(中位数:4·25,IQR = [3·75;4·5] ])。成对比较显示 GPT-4 具有优越的性能 (p < 0·0001)。评估两种模型与疾病频率相关的性能,结果表明 GPT-3·5 对于常见疾病具有优越的性能。然而,这些结果并不显着。GPT-4 对于常见疾病和不太常见疾病的表现相当,但与罕见疾病相比表现明显更好 (p = 0·0203)。

关于治疗选择,比较 GPT-4(中位数,4·5,IQR = [4·0;4·75])与 GPT-3·5(中位数:4·25(IQR = [4·0;4])的表现·69])观察到的差异较少。图1c 表明GPT-4 的性能优越,但没有观察到疾病频率对性能的任何影响。

九个 GPT-4 得分最高病例的中位分数和四分位数范围分别为 14·5 [14·5;14·75]、14·0 [13·25;14·0]、12·25 [11·25]分别针对GPT-4、GPT-3·5、L12-7B和L12-70B;13·5]和11·75[11·25;12·75]。类似地,对于九个得分最差的情况:11·0 [9·25;11·25]、10·25 [9·5;10·5]]、10·25 [8·5;11·0] 和8·5 [7·75;10·25]。

总体而言,与 GPT3·5 和 GPT-4 相比,我们观察到开源 LLMs 的性能稍差。此外,我们无法观察到两种开源 LLM (Llama )配置之间存在明显的性能差异。

小编总结

GPT-4 > GPT-3.5 ≈ Google > Llama 2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信俱乐部 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Abstract
  • Introduction
  • Results
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档