
DRUGONE
大语言模型能够根据自然语言指令生成数据分析代码和可视化结果,但其在生物医学数据科学场景中的准确性与可靠性仍缺乏系统评估。研究人员系统构建了一个覆盖 7 个生物医学研究领域、来源于 39 篇已发表研究的 BioDSBench 基准,包含 293 个真实数据分析任务,用于评估大语言模型在生物医学数据科学编程中的实际表现。
评测结果显示,在多种提示策略下,现有大语言模型在该基准上的平均正确率低于 40%,存在传播错误科学结论的显著风险。基于这些发现,研究人员提出一种以分析计划为核心的智能体框架,在生成代码前进行结构化规划与多轮自我修正,使整体准确率提升至 74%。该理念进一步被实现为一个支持人机协同的数据科学编程平台,在用户研究中显著提升了医学研究人员完成真实分析任务的效率。

数据科学已成为现代生物医学研究的核心组成部分,但高质量分析通常需要多年编程经验与对复杂医学数据的深入理解。随着对数据科学能力需求的快速增长,专业数据科学人员短缺已成为制约生物医学研究效率的重要瓶颈。
大语言模型在通用编程任务中展现出强大潜力,但生物医学数据分析具有显著不同的特点,包括任务描述高度多样、数据语义复杂、统计流程严格以及结果高度敏感。尽管已有研究探索了大语言模型在自动建模或生物信息工具开发中的应用,但缺乏针对真实生物医学研究流程的系统性代码准确性评估。
为此,研究人员提出 BioDSBench,并进一步探索如何通过结构化规划与人机协同设计,使大语言模型成为可信赖的数据科学编程助手。
方法
研究人员首先从 39 项已发表生物医学研究中提取真实数据分析任务,构建 BioDSBench,并由专家数据科学家复现原始分析流程,生成参考代码与自动化测试用例。
在模型改进方面,研究人员提出一种计划驱动(plan-driven)的智能体设计。该方法在生成代码前先形成明确的分析计划,并在执行过程中结合运行日志、错误信息与中间结果进行多轮自我反思与修正,最终生成更符合领域规范的分析代码。该设计被整合为一个可交互平台,支持用户与大语言模型共同制定分析方案并在受控环境中执行。

图 1|BioDSBench 的构建流程与任务分布。
结果
真实生物医学数据科学任务基准的构建
BioDSBench 覆盖生物标志物发现、基因组分析、整合分析、分子分型、治疗反应评估、转化研究和泛癌分析等七大研究方向,系统反映真实生物医学研究中的数据科学工作。
现有大语言模型准确率整体偏低
在 293 个任务上,多种主流模型在标准提示条件下的平均正确率均低于 40%,显示当前模型难以直接胜任高风险科研分析任务。

图 2|不同模型与提示策略在 BioDSBench 上的准确率。
结构化分析计划显著提升代码可靠性
引入结构化分析计划与多轮自我修正后,模型在 Python 与 R 任务中的准确率显著提升,整体 Pass@1 达到 74%,在所有研究层级均表现出稳定改进。

图 3|不同策略下的代码准确率对比。
计划驱动智能体在复杂任务中优势更明显
在中等和高难度任务中,计划驱动方法带来的相对提升幅度最大,表明该策略尤其适合复杂、多步骤的数据分析流程。

图 4|已开发的生物医学数据科学平台概览。
用户研究验证人机协同的实际价值
在五名医学研究人员参与的用户研究中,参与者能够在平台支持下完成超过 80% 的真实分析代码,显著降低了数据分析门槛。

图 5|医学研究人员使用平台的用户研究结果。
讨论
本研究表明,未经结构化约束的大语言模型在生物医学数据科学编程中存在显著可靠性风险,不宜被直接用于高风险科研分析。然而,通过引入以分析计划为核心的智能体设计,大语言模型可以转变为更透明、可控且可信的科研助手。
研究人员强调,生物医学数据科学不仅是代码生成问题,更涉及对数据语义、统计假设和研究目标的系统性理解。计划驱动的人机协同范式为未来构建安全、可复现的科研 AI 系统提供了重要方向。
总体而言,该研究为如何让大语言模型真正“可用、可信、可复现”地服务于生物医学研究提供了关键方法学证据。
整理 | DrugOne团队
参考资料
Wang, Z., Danek, B., Yang, Z. et al. Making large language models reliable data science programming copilots for biomedical research. Nat. Biomed. Eng (2026).
https://doi.org/10.1038/s41551-025-01587-2
内容为【DrugOne】公众号原创|转载请注明来源