题图 | 王光宇
撰文 | 王聪
准确的诊断在医疗保健中至关重要,它是获得恰当且及时治疗的关键所在。近期,以 ChatGPT 为代表的大语言模型(LLM)在少样本或零样本学习方面展现出了令人瞩目的能力,然而,它们在临床诊断中的有效性,仍未得到证实。
2025年1月8日,北京邮电大学王光宇联合北京大学第三医院宋纯理教授、宜昌市中心人民医院/三峡大学第一临床医学院杨简教授,在Nature Medicine期刊发表了题为:A generalist medical language model for disease diagnosis assistance 的研究论文。
研究人员开发了一种用于疾病诊断辅助的通用大语言模型——MedFound。
图:参考文献
在这项最新研究中,王光宇团队推出了一款名为 MedFound 的大语言模型,这是一款拥有 1760 亿参数的通用医学语言模型,其在来自不同医学文本和真实世界临床记录的大规模语料库上进行了预训练。研究团队进一步对 MedFound 进行了微调,采用基于自引导策略的链式思维方法来学习医生的推理诊断,并引入了一个统一的偏好对齐框架,使其与标准临床实践保持一致。
广泛的实验表明,在八个医学专科领域内,该医学大语言模型在分布内(常见疾病)、分布外(外部验证)和长尾分布(罕见疾病)场景中优于其他基准大语言模型和专业模型。进一步的消融研究表明,该医学大语言模型训练方法中关键组件的有效性。
研究团队对大型语言模型(LLM)诊断的临床适用性进行了全面评估,包括人工智能(AI)与医生的比较、人工智能辅助研究和人工评估框架。
该研究提出的框架纳入了八项临床评估指标,涵盖了诸如病历总结、诊断推理和风险管理等能力。总的来说,这性研究结果表明,MedFound模型在临床工作流程中辅助医生进行疾病诊断方面是可行的。
诊断通用系统的开发与评估示意图(图:参考文献)
MedFound模型诊断案例:
对于上述病情描述,医生诊断为急性支气管炎,而MedFound模型诊断为慢性支气管炎急性加重,医生将诊断结果修正为慢性支气管炎急性加重。
对于上述病情描述,医生诊断为亚临床甲状腺功能减退,而MedFound模型诊断为自身免疫性甲状腺疾病,医生将诊断结果修正为自身免疫性甲状腺炎。
参考文献:
https://www.nature.com/articles/s41591-024-03416-6
领取专属 10元无门槛券
私享最新 技术干货