首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一个医药大语言模型亟待解决的问题

一个医药大语言模型亟待解决的问题

作者头像
DrugOne
发布2025-10-14 16:38:09
发布2025-10-14 16:38:09
700
举报
文章被收录于专栏:DrugOneDrugOne

大语言模型的发展给医疗领域带来了前所未有的可能,未来淘汰的是不懂人工智能的人,而不是专家本身,这句话的含义不知道大家是否能够真正理解。作为严肃医疗使用场景,大语言模型到底和专家差在哪里?这种差距如何进行补充就是本次内容要讨论话题。

当一个大语言模型输出一个带有建议性的结论时,首先需要的是背景知识。如果大模型不具有这样的知识,那么自然无法输出有建议性的观点。

比如在肿瘤研究中,终点指标OS为8.9个月,那么是否算长?当然这需要细化到具体的适应症,患者基线,试验设计方案等诸多因素。但是大语言模型能够在这些因素变化的情况下,准备是评级出一个临床试验的结论。这就需要AI具有相关的背景数据,才能够完成结论性输出

由此可见,当我们希望使用大语言模型输出一些观点时,AI需要背景知识。对于临床评价而言,需要知道目标适应症的biomarker以及相关的benchmark,这样在出现一个新的临床结果时,才能输出有价值的观点。这就是当前医药大语言模型应用一个亟待解决的问题。

我们用Harmoni-2临床研究来说明这个问题。

HARMONi-2试验(AK112-303;NCT05499390)的主要分析结果,对于PD-L1阳性晚期NSCLC患者,与帕博利珠单抗相比,依沃西单抗一线治疗可使疾病进展或死亡风险降低49%。依沃西单抗是一种针对PD-1和VEGF的新型双特异性抗体,前期已被证明在该人群中具有临床获益和安全性(1b/2期HARMONi-5试验)。

HARMONi-2试验纳入ECOG体能状态(PS)评分为0或1、PD-L1 TPS≥1%的IIIB至IV期晚期NSCLC患者,排除接受过系统性治疗、EGFR突变或ALK重排的患者。研究将398名患者按1:1的比例随机分配接受依沃西单抗(20mg/kg,每3周一次[Q3W])或帕博利珠单抗(200mg,Q3W)治疗。治疗持续长达24个月或临床获益丧失或毒性不可接受。患者按临床分期(IIIB/C vs. IV期)、组织学类型(鳞状vs非鳞状)和PD-L1 TPS(≥50% vs. 1%-49%)分层。研究的主要终点是按照RECIST 1.1标准通过盲法IRRC确定的PFS。次要终点包括总生存(OS)、研究者评估的PFS、ORR、缓解持续时间(DOR)、至缓解时间(TTR)和安全性。生活质量作为探索性终点。

疗效数据

在8.67个月的中位随访期内,依沃西单抗治疗患者的中位PFS为11.14个月(95%CI: 7.33-不可估计[NE]),而帕博利珠单抗治疗患者的中位PFS为5.82个月(95%CI: 5.03-8.21)(分层HR=0.51;95%CI: 0.38-0.69;P<0.0001)。依沃西单抗和帕博利珠单抗的9个月PFS率分别为56%(95%CI: 47%-64%)和40%(95%CI: 32%-48%)。无论肿瘤PD-L1表达或组织学类型,依沃西单抗治疗组的PFS都有所改善。对于PD-L1肿瘤比例评分(TPS)介于1%~49%和≥50%的患者,分层HR分别为0.54(95%CI: 0.37-0.79)和0.46(95%CI: 0.28-0.75)。鳞癌和非鳞癌患者的HR分别为0.48(95%CI: 0.31-0.74)和0.54(95%CI: 0.36-0.82)。亚组分析显示,临床IIIB/C期患者(HR=1.01;95%CI: 0.29-3.51)是唯一未从依沃西单抗中获益的人群。

图片
图片

对于这样一个实验,我们先看专家如何来评价。

1.对照组选择的合理性:对于PD-L1低表达(TPS 1-49%)患者,国际指南推荐免疫治疗联合化疗,而非单药免疫治疗(如Pembrolizumab)。本研究对照组仅使用Pembrolizumab单药,可能未反映当前临床实践的最优选择,导致结果的外部有效性受限。

分析:对于阳性对照而言,这个试验使用的单药,而非一线治疗。所以只能评价针对非化疗的患者中,KA112优于K药,而无法证明KA112联合化疗优于K药联合化疗。背景知识是阳性对照首先应使用指南中的一线疗法,如果不使用一线疗法,需要考虑外部结果受限。所以AI需要了解针对相应适应症的所有一线疗法类型。

2. 分层因素的潜在偏倚:分层因素包括组织学类型、临床分期和PD-L1表达,但未明确说明是否平衡了其他潜在混杂因素(如肝转移、脑转移比例),可能影响结果的解释。

分析:仅仅描述biomarker的表达情况,但没有提及基线转移的情况,可能存在更多的变量而影响结果。背景知识是对于转移情况的判定,需要统一考虑在基线分析中。

3. PFS的临床意义:中位PFS差异(11.1 vs 5.8个月)虽具有统计学意义,但需结合OS数据判断临床价值。目前OS数据尚未成熟,无法确认生存获益。

分析:这是一个常见情况,需要继续试验观察。背景知识是需要直接获得金标准OS的数据结论,也就是AI应该知道哪些指标的真正的金标准。

4. 亚组分析的多重性:亚组分析未校正多重比较(如PD-L1高/低表达、鳞癌/非鳞癌等),可能增加假阳性风险。例如,PD-L1高表达亚组HR=0.48的结论需谨慎解读。

分析:对于而成二交叉变量,需要分布列举确定不同变量组合的指标。背景知识是对于亚组分析时,需要根据不同变量确定风险比。

那么如果我希望用大语言模型也得到专家这样的评论,应该如何做呢?

首选就是需要梳理不同适应症的背景知识,而且这类模型必须按照不同的适应症进行区分。例如,我们仅仅来构建一个针对NSCLC的临床结果评价模型。对于终点指标,我们需要通过当前指南相关的RCT试验进行确定,对于OS/PFS/ORR等指标达到多少才是当前的Benchmark。对于表达情况,我们需要准备好相关的基因型的突变范围尺度。对于转移情况,我们需要确定好肝转移、脑转移、腹膜等不同器官转移的基线比例。还有很多很多我们需要去补充的背景知识。

这就是大语言模型真实应用中的一个亟待解决的大问题,没有对于背景知识的评估,永远无法获得有价值的输出。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档