引言:海量文献与自动化需求 生物医学领域每天产生海量的科学文献,仅以COVID-19疫情期间为例,相关论文数量就超过40万篇。这些文献蕴含丰富的知识,如基因功能、疾病关联和药物相互作用等,为构建生物数据库和推动医学研究提供了重要资源。然而,传统上依赖人类专家根据详细指南对文本进行标注的方式,既耗时又难以应对文献数量的快速增长。
近年来,基于BERT架构的模型在生物医学文本挖掘中表现出色,但其依赖大量标注数据进行微调的特性限制了其在新任务中的灵活性。以ChatGPT为代表的大型语言模型(LLMs)因其无监督预训练和零样本学习能力受到关注,被认为是替代人工标注的潜在工具。近期,东京大学Yichong Zhao和Susumu Goto团队的最新研究对LLMs在生物医学文本挖掘中的表现、挑战及优化策略进行了探讨,分析其是否能够取代传统标注员。
LLMs的局限性:为何表现不尽如人意? 研究表明,尽管LLMs在通用自然语言处理任务中表现出色,但在生物医学文本挖掘的判别性任务(如命名实体识别NER和关系抽取)中,其性能通常落后于经过微调的BERT模型。原因主要包括以下三点:
隐性特征难以捕捉
LLMs在训练过程中未针对特定数据集的标注偏好(如实体边界的定义)进行优化,导致其无法学习数据集中隐含的模式。例如,在标注“松果体和视网膜肿瘤”时,LLMs可能仅识别具体疾病实体,忽略更广义的疾病层级分类。格式化输出限制推理能力
生物医学任务常要求模型输出结构化格式(如JSON或BIO标记),这种强制性要求可能中断LLMs的链式思考(Chain-of-Thought),从而降低其推理能力。例如,在关系抽取任务中,药物“美西律”治疗“室性心动过速”应标注为“负相关”(根据指南),但LLMs可能误判为“正相关”。复杂标注指南的理解偏差
生物医学标注指南往往长达数十页,包含复杂的规则和上下文依赖定义(如“毒性”是否归类为疾病实体)。LLMs在理解和应用这些规则时容易出现偏差,导致标注结果与预期不符。这些局限性表明,LLMs在未经优化时难以直接满足生物医学文本挖掘的高精度需求。
优化策略:提升LLMs性能的突破 为克服上述挑战,研究团队提出了三种技术策略,显著提升了LLMs在生物医学任务中的表现。
1. 动态少样本提示(Dynamic Few-shot Prompting) 方法 :根据输入文本动态检索5篇最相似的已标注文献作为示例,注入提示词中,帮助模型适应任务特异性模式。效果 :在LitCovid多标签分类任务中,F1值从0.744提升至0.822,表明此方法有效增强了模型对数据集特征的感知能力。2. 两步推理法(Two-step Inference) 步骤 :第一步允许LLMs自由生成推理过程(如“为何A与B相关?”);第二步从推理文本中提取结构化结果(如关系三元组)。优势 :避免了格式化输出对推理的限制。在BC5CDR关系抽取任务中,F1值从0.618提升至0.781,接近甚至超越部分SOTA模型。3. 标注指南动态检索(Instruction Retrieval) 实现 :将冗长的标注指南拆解为规则片段,根据任务上下文实时检索相关条款并融入提示词。案例 :在BioRED数据集中,动态加载“疾病-化学实体关系类型”规则后,模型错误率降低40%,显示出对复杂规则的更好适应性。实践应用:从直接部署到模型蒸馏 尽管优化后的LLMs性能显著改善,其高昂的计算成本(GPU内存需求大、API调用费用高)限制了直接部署的可行性。为此,研究团队探索了“LLM标注+模型蒸馏”的替代方案:
合成数据生成
使用GPT-4o等LLMs标注新文献(如2024年4月后的PubMed论文),生成高质量合成数据集。轻量模型训练
用合成数据训练BERT模型,例如在HoC多标签分类任务中,蒸馏后的BioLinkBERT模型F1值达到0.817,接近人工标注训练的0.873。应用场景 :
冷启动任务 :LLMs无需人工标注即可处理新兴任务(如新疾病关系挖掘),展现出“零样本”优势。性价比权衡 :在精度要求较低的场景(如文献预分类),可直接使用LLMs;而在高精度场景(如生物数据库构建),推荐“LLM初筛+轻量模型精调”流程。实验结果与关键发现 实验表明,经过优化的LLMs在多项任务中表现出色。例如,在BC5CDR化学实体识别任务中,F1值达到0.902,超越部分现有SOTA模型;在多标签分类任务中,优化后的性能(F1值0.873)与微调模型相当。研究还验证了蒸馏方法的有效性,显示LLMs生成的合成数据能显著提升轻量模型的性能。
主要结论 :
潜力 :优化后的LLMs在某些任务中接近甚至超过SOTA模型,特别是在冷启动和低资源场景中具备明显优势。局限 :其性能仍受限于推理成本、数据污染风险(闭源模型)以及对高精度任务的不足支持。未来展望:挑战与发展方向 尽管LLMs展现出替代人工标注的潜力,但当前方法仍面临以下挑战:
自动化不足 :标注指南的拆解和规则注入依赖人工干预。数据安全性 :闭源LLMs可能受到训练数据污染的影响,影响结果可靠性。未来趋势包括:
自动化智能体 :开发能够自主查询指南、动态调整规则的LLM代理。推理能力升级 :引入支持实时计算的模型(如GPT-o1),进一步缩小与专家水平的差距。结语:人机协同的未来范式 LLMs目前尚无法完全取代人类专家的标注精度,但其“零样本冷启动”能力和辅助推理价值已不容忽视。未来,生物医学文本挖掘或将从“纯人工标注”转向“LLM初筛+专家复核”的协同模式。这种人机结合的范式不仅能提升效率,还能加速知识发现,为生物医学研究注入新的活力。
参考 参考文献Zhao, Y. and Goto, S., 2025. Can Frontier LLMs Replace Annotators in Biomedical Text Mining? Analyzing Challenges and Exploring Solutions. arXiv preprint arXiv:2503.03261. https://doi.org/10.48550/arXiv.2503.03261 代码https://github.com/ekkkkki/LLM-Replace-Annotators-in-Biomedical-Text-Mining 本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。