前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM在生物信息学中表现如何?Bio-benchmark给出了30项任务的全面评估

LLM在生物信息学中表现如何?Bio-benchmark给出了30项任务的全面评估

作者头像
实验盒
发布于 2025-03-10 06:46:45
发布于 2025-03-10 06:46:45
1570
举报
文章被收录于专栏:实验盒实验盒

随着计算生物学的进步,传统方法在解决蛋白质折叠、功能注释及新生物分子设计等问题时逐渐显露局限性,例如计算复杂度高或泛化能力不足。而大语言模型(LLMs)凭借其强大的语言理解与生成能力,为这些问题提供了新的解决方案。它们不仅能处理电子健康记录(EHR)或中医药问答等文本数据,还能分析蛋白质和RNA等生物序列,表现出比传统方法更高的准确性和适应性。

然而,如何系统性地评估LLMs在生物信息学任务中的表现,一直是一个难题。现有评估体系存在显著不足,包括测试数据与训练数据重叠、缺乏统一的答案提取工具以及任务覆盖范围有限等问题。这些缺陷限制了对LLMs在生物信息学中真实能力的全面衡量。因此,亟需一个标准化、覆盖广泛任务的评估框架。

为此,来自香港中文大学、香港大学及上海人工智能实验室的研究团队提出了Bio-benchmark——一个针对生物信息学NLP任务的全面评估框架。

Bio-benchmark框架

Bio-benchmark是一个基于提示(prompting)的评估框架,旨在通过零样本(zero-shot)和少样本(few-shot)设置,测试LLMs在生物信息学任务中的内在能力,而无需模型微调。该框架涵盖7大领域共30项任务,包括蛋白质设计、RNA结构预测、药物相互作用分析、电子病历推理及中医药智能问答等。

数据集设计

Bio-benchmark的数据集来源于多个权威数据库,覆盖以下子领域:

  • 蛋白质:基于蛋白质数据库(PDB),包括二级结构预测、家族序列设计和逆折叠设计等任务。
  • RNA:数据来自bpRNA和RNA-Central,涵盖功能预测、二级结构预测及逆折叠设计。
  • 药物:涉及抗生素设计、药物-药物相互作用预测及药物-靶标相互作用预测。
  • 电子健康记录(EHR):基于MIMIC数据库,包含诊断预测和治疗计划制定。
  • 医学问答:数据来源于HeadQA、MedMCQA等医学考试题库。
  • 中医药问答:基于中医药经典文献和临床案例,测试模型对中医药知识的理解。

这一多样化的数据集设计确保了评估的全面性与代表性。

评估方法与BioFinder工具

为准确评估LLMs的表现,研究团队开发了BioFinder,一种专门用于从模型自由格式输出中提取答案的工具。传统方法(如正则表达式)在处理复杂输出时的准确率仅为72%,而BioFinder通过结合正则表达式与自然语言推理(NLI)技术,显著提升了性能。其主要优势包括:

  • 生物序列提取:准确率达93.5%,较传统方法提升约30%。
  • 医学NLI任务:准确率89.8%,超越GPT-4约30%。
  • 长文本评估:支持无参考答案的质量评估。

以下是BioFinder与传统方法的性能对比:

方法

多选题

文本匹配

数值提取

生物序列

正则表达式

77.5%

74.8%

68.1%

68.0%

GPT-4

65.8%

80.5%

67.0%

38.5%

BioFinder

95.5%

94.3%

95.5%

93.5%

评估分为两类:客观评估(如选择题,使用BioFinder提取答案并与标准答案比对)和主观评估(如长文本生成,通过相似性、专业知识及逻辑一致性判断质量)。

实验结果与分析

研究团队对六种主流LLMs(GPT-4o, Qwen 2.5-72b, Llama-3.1-70b, Mistral-large-2, Yi1.5-34b, InternLM-2.5-20b)进行了zero-shot和few-shot测试,结果如下:

蛋白质任务

  • 物种预测:Mistral-large-2在few-shot设置下以82%准确率领先;少样本提示显著提升表现,如Yi-1.5-34b准确率提升6倍,InternLM-2.5-20b提升近20倍。
  • 结构预测:Llama-3.1在few-shot下恢复率达34%,表现最佳。

RNA任务

  • 功能预测:Llama-3.1在few-shot下准确率达89%,少样本效果显著。
  • 二级结构预测:所有模型表现较差,准确率普遍较低,显示任务复杂性。
  • sgRNA效率预测:InternLM在zero-shot下表现意外优于few-shot。

药物任务

  • 抗生素设计:Mistral-large-2在few-shot下准确率达91%,表现突出。
  • 药物-靶标预测:InternLM在few-shot下达73%。
  • 药物-药物相互作用:最佳准确率仅47%,表明仍有改进空间。

电子健康记录(EHR)任务

  • 诊断预测:GPT-4o在AgentClinic任务中准确率达82.24%,表现优异。

医学问答任务

  • 多选题:在HeadQA、MedMCQA等数据集上,平均准确率超70%,但少样本提示提升有限,甚至偶有下降。

中医药问答任务

  • 表现提升:少样本提示显著改善结果,如TCMSD任务中准确率从31.7%升至65.3%。

提示工程的最佳实践

基于百万级测试数据,研究总结出三条提示工程经验:

  1. 分字符输入:将连续生物序列改为换行分隔,准确率提升3倍。
  2. 动态few-shot:示例数与任务复杂度正相关,3-10个为最佳范围。
  3. 领域知识注入:在提示中加入专业术语解释,错误率降低41%。

结论与展望

Bio-benchmark表明,LLMs在蛋白质设计、药物开发及中医药问答等任务中表现出色,尤其在少样本设置下潜力显著。然而,RNA二级结构预测及药物-药物相互作用等复杂任务仍具挑战性。BioFinder的引入为答案提取提供了高效工具,未来可进一步优化提示策略或探索微调方案。

局限性

尽管Bio-benchmark覆盖广泛,但其评估限于zero-shot和few-shot场景,未涉及微调潜力。此外,任务虽多样,仍可能无法全面代表生物信息学所有挑战。BioFinder的性能也受输入数据质量影响,在复杂输出中可能面临限制。

参考

参考文献: Jiang, J., Chen, P., Wang, J., et al. (2025). Benchmarking Large Language Models on Multiple Tasks in Bioinformatics NLP with Prompting. arXiv preprint arXiv:2503.04013.

本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
万字综述|一文掌握大语言模型在生物信息学中的应用
随着大语言模型(LLMs)技术的飞速发展,其在自然语言处理(NLP)领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域,涉及基因组学、蛋白质组学、药物发现等多个方向,LLMs的引入为这些领域带来了新的研究工具和方法。
实验盒
2025/02/05
5090
万字综述|一文掌握大语言模型在生物信息学中的应用
北大高歌教授综述:ChatGPT在生物信息学的革命性应用
2024年6月,北京大学高歌教授课题组在《Quantitative Biology》期刊上发表了一篇题为《生物信息学中的基础模型》的综述。该文章系统探讨了大语言模型(ChatGPT、Claude等AI模型)在生物信息学中的应用,包括基于文本的大语言模型和基于生物数据的专门化模型,详细剖析了基础模型的影响、发展与局限性,以及未来的发展潜力。
用户11203141
2025/03/06
1830
北大高歌教授综述:ChatGPT在生物信息学的革命性应用
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
生物信息学是一门交叉学科,旨在通过应用计算机科学和数学方法来处理和分析生物数据。随着生物技术的飞速发展,产生了海量的生物数据,如基因序列、蛋白质结构数据等。机器学习,作为一种强大的数据处理和分析工具,在生物信息学领域发挥着越来越重要的作用,为生物学家揭示生物奥秘提供了新的途径。
Echo_Wish
2025/01/08
2420
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
[机器学习|理论&实践] 机器学习在生物信息学中的探索
机器学习是我一直深入研究和应用的领域,其在生物信息学中的应用尤为引人注目。通过让计算机从数据中学习模式,机器学习为处理生物信息学中的复杂问题提供了新的思路。我理解监督学习、无监督学习和强化学习等方法的区别和适用场景,这些方法在生物信息学中有着广泛的应用。
数字扫地僧
2023/12/20
5240
AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
人工智能程序AlphaFold (AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?),通过预测蛋白质结构解决了结构生物信息学的核心问题。部分AlphaFold迷们声称“该程序已经掌握了终极蛋白质物理学,其工作能力已超越了最初的设计”。事实真是如此吗?Skoltech Bio的研究团队让 AlphaFold 预测单个突变对蛋白质稳定性的影响,结果与实验结果相矛盾,这表明该人工智能并非结构生物信息学的万能良药。该研究发表在《PLOS One》杂志。
生信宝典
2023/08/30
2940
AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
顶级生物信息学 RSS 订阅源
早在 2018 年的时候我在"生信草堂"的公众号上写过一篇关于 RSS 的文章《使用 RSS 打造你的科研资讯头条》,介绍了关于 RSS 的一些内容和如何使用 inoreader 来订阅你感兴趣的一些科研资讯。 今天主要来给大家推荐一些常用的生物信息学的 RSS 订阅源,通过这些订阅源你可以及时掌握和了解到一些比较前沿的生物信息学研究资讯。
章鱼猫先生
2021/10/15
1.5K0
顶级生物信息学 RSS 订阅源
读书笔记 | 第 04 章 系统生物学的生物信息学工具和标准
系统生物学在准备高通量实验和使结果易于进行生物分析和建模方面,严重依赖于许多初步步骤。尽管这些步骤本身并不是我们通常所定义的系统生物学的一部分,但它们对于实现系统生物学方法至关重要(Ghosh 等,2011)。因此,本章概述了在典型分析工作流程(图4.1)中使用的生物信息学工具和标准,该工作流程包括以下步骤。一旦提出了生物和/或临床问题(①),就定义实验设计以有效回答所提出的问题(②)。然后,进行高通量实验(③)。扫描仪通常分析微阵列*、测序载玻片或表型筛选,并产生图像,这些图像使用适当的算法进行处理,以量化原始信号(④)。接下来是归一化步骤,旨在纠正系统性的变异源,以改善信噪比(⑤)。在图像分析和归一化步骤(⑥)的层面上检查数据的质量。在这个阶段,归一化后提供的信息仍然是粗略的。必须从数据中提取对生物学家有意义的生物信息(⑦)。一旦提取了相关信息,数据可以在横向分析中用于进行临床生物统计学、分类或系统生物学方法(⑧)。最后,结果需要被验证、解释,并可能导致新的实验(⑨)。生物信息学工作流程和计算系统生物学方法是涉及数据获取和预处理、建模和分析的循环过程。知识的整合和共享有助于维持这一循环的能力,以预测和解释生物系统的行为。因此,为了成功,工作流程强烈依赖于使数据注释(❶)、管理(❷)和计算(❸)的支持过程。在本章中,将描述步骤 ②、⑤、⑥ 和过程 ❶、❷、❸。步骤 ⑦ 和 ⑧ 将从第 5 章到第 12 章。本书不涉及图像分析,但读者可以参考 Fraser 等(2010)和 Novikov 与 Barillot(2007)。最后,本章说明了如何从文献和数据库中提取知识,并使用计算系统生物学中使用的适当标准和软件进行可视化。
生信菜鸟团
2024/11/28
1720
读书笔记 | 第 04 章 系统生物学的生物信息学工具和标准
我掌握的新兴技术:生物信息学:如何用AI分析和挖掘生物大数据
生物信息学是一门跨学科的科学领域,它将生物学、计算机科学和统计学等多个学科的知识相结合,利用计算方法和工具来解决生物学领域的问题。随着生物学数据的急剧增加,人工智能(AI)技术在生物信息学中的应用变得越来越重要。本文将介绍如何利用AI技术分析和挖掘生物大数据。
Echo_Wish
2024/02/08
9260
生物信息学入门必须了解的名词
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
DoubleHelix
2020/04/21
3K0
刷了一下历年的中国生物信息学十大进展
从上面的3个分类评选的入选的工作中进一步评选,产生每个年度“中国生物信息学十大进展”。
生信技能树
2023/09/04
1.3K0
刷了一下历年的中国生物信息学十大进展
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
生信菜鸟团
2025/01/02
1550
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
当前生物信息学研究面临的四大机遇和挑战(特别是最后一个,一定要足够重视)
生物信息学是应用计算方法分析生物数据,如 DNA,RNA,蛋白质和代谢物。生物信息学已成为促进我们对生命科学的理解以及开发新的诊断,治疗和生物技术产品的重要工具。本文我们将探讨生物信息学研究的一些当前趋势和发展,以及遇到的挑战。
简说基因
2024/07/30
6570
当前生物信息学研究面临的四大机遇和挑战(特别是最后一个,一定要足够重视)
生物信息学数据库分类概览 (第一版)
生物与计算机的结合让生物进入大数据时代,为方便管理各种生物数据,科学家们开发了各式各样的生物数据库。了解与自己研究领域相关的数据库,并加以利用可能会使研究工作得到事半功倍的效果。在此将常用数据库按照以下分类方式大致整理了一下,方便检索。
生信宝典
2018/12/18
3.5K0
密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR
自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。
AI科技评论
2024/07/29
1900
密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR
专注于多组学数据处理的生物信息学书籍推荐
这里给大家推荐一下一本关于生物信息学(Bioinformatics)的专著,专注于组学(Omics)技术及其数据分析,标题也是朴实无华哦:《Bioinformatics for Omics Data》,另外就是非常值得强调的是书籍居然是2011年的!
生信技能树
2024/11/21
2280
专注于多组学数据处理的生物信息学书籍推荐
基础生物信息学
我们正在见证生物医学研究的一场革命:几十年来,虽然人们一直清楚探索生物系统的遗传学对于了解生物系统是非常重要的,但是以前获得遗传序列是非常昂贵和复杂的。而现在,获取基因序列简单又便宜,以前所未有的速度生成数据。生物信息学序列分析是了解这些序列的核心,这本书简单介绍了DNA, RNA和蛋白质序列的研究。
生信挖掘姬
2020/06/05
5630
Drug Discov. Today | 生物信息学资源支持蛋白质-蛋白质相互作用的药物靶标发现
今天为大家介绍的是来自杨光富团队的一篇论文。蛋白质-蛋白质相互作用(PPIs)对于多种细胞性过程至关重要,为药物靶点发现提供了一个有前景的途径。PPIs的特征是多层次的复杂性:在蛋白质层面,可以利用相互作用网络来识别潜在的靶点;而在残基层面,可以利用单个PPIs的相互作用细节来检查一个靶点的可药性。在通过多层次PPI相关的计算方法进行靶点发现方面,已经取得了巨大的进展,但这些资源尚未得到充分讨论。在这里,作者系统地调查了用于识别和评估潜在药物靶点的生物信息学工具,检查它们的特性、限制和应用。这项工作将帮助将更广泛的蛋白质到网络的上下文与详细的结合机制分析相结合,以支持药物靶点的发现。
DrugAI
2024/06/04
5070
Drug Discov. Today | 生物信息学资源支持蛋白质-蛋白质相互作用的药物靶标发现
生信AI智能体遭遇滑铁卢?BixBench基准测试揭示主流LLM三大短板
大型语言模型(LLM)凭借其强大的语言理解和生成能力,被认为有潜力加速生物数据分析、实现自动化科学发现。然而,尽管这些模型在通用领域表现出色,其在生物信息学复杂任务中的实际应用能力仍需进一步验证。
实验盒
2025/03/11
1490
生信AI智能体遭遇滑铁卢?BixBench基准测试揭示主流LLM三大短板
数据与生命的对话:当大数据遇上生物信息学
在这个数据驱动的时代,生命科学也乘着大数据的东风一路狂飙。生物信息学就是那个站在风口上的行业,把生命数据拆解成“0”和“1”,然后用算法解码生命的奥秘。
Echo_Wish
2025/05/16
630
数据与生命的对话:当大数据遇上生物信息学
植物生物学与生物技术: 聚焦基因组学与生物信息学
分析植物适应环境变化和胁迫反应的分子机制对植物生物技术至关重要。其中关键方法包括生物信息学方法、高通量测序和后基因组技术。测序和系统生物学方法提供了从分子到细胞、器官和种群水平的植物生长的全面视图。基因组学和生物信息学促进了植物细胞中蛋白质-蛋白质和基因调控相互作用的建模,为更好的作物生产和可持续性提供了基础。同时,植物-病原体相互作用研究补充了这一领域的网络建模。
生信菜鸟团
2024/06/11
2330
植物生物学与生物技术: 聚焦基因组学与生物信息学
推荐阅读
相关推荐
万字综述|一文掌握大语言模型在生物信息学中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档