首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI智能体在药物发现中的应用概述

AI智能体在药物发现中的应用概述

作者头像
DrugOne
发布2025-12-17 16:58:18
发布2025-12-17 16:58:18
1250
举报
文章被收录于专栏:DrugOneDrugOne

AI智能体正成为药物发现领域的变革性工具,能够在复杂的研究流程中自主推理、执行任务并持续学习。在大语言模型(LLMs)的基础上,结合感知、计算、行动与记忆等多类工具,这些AI智能体系统能够整合多源生物医学数据、完成多步骤任务、借助机器人平台开展实验,并在闭环体系中不断迭代与优化假设。

2025年10月31日,博德研究所、剑桥大学、乌普萨拉大学等机构的研究人员在arXiv上联合发表综述文章,题为“AI Agents in Drug Discovery”。

文章从概念与技术两个层面对AI智能体架构进行系统梳理,并展示了其在药物研发关键阶段的实际应用。这是首个全面呈现已在真实药物研发场景中部署的AI智能体系统及其量化影响的工作。早期实验结果显示,这类系统在速度、可重复性和可扩展性方面具备显著优势,能够将过去需时数月的流程压缩到数小时,同时保持良好的科学可追溯性。文章最后讨论了当前在数据异质性、系统可靠性、隐私保护及基准评估方面的挑战,并展望了未来在支持科学研究与转化应用方面的技术发展方向。

背景

药物发现是一个漫长、昂贵且高风险的过程,从识别新的生物学靶点一直延伸到将安全有效的药物交付给患者。整个流程包含一系列紧密关联的阶段,每个阶段都会产生大量多样化数据,包括组学信息、成像数据、实验读数、药代动力学研究以及临床结果。尽管非动物替代方法(NAMs)以及机器学习等技术取得显著进展,但在许多关键节点上,复杂的决策仍主要依赖人工处理的重复性工作,以及跨学科团队对分散证据的检索、整理与解释。这种高度碎片化的流程导致研发成本持续攀升、周期延长,并带来较高的项目淘汰率。

以机器学习为代表的预测型AI已使QSAR模型在定量乃至定性的层面上取得了显著提升。生成式AI使设计具有特定理化性质的新化学结构成为可能,而LLMs则能够结构化机器可读的数据,用于提出科学假设(图1)。然而,这些范式仍存在共性局限:它们属于被动式系统,需要人为执行重复性任务,例如准备输入、解释输出等。更重要的是,它们无法在药物发现这种复杂且高度耦合的工作流中自主协调多步骤推理与决策。

近期兴起的一类新方法,AI智能体(agentic AI)有望突破这些限制(图1)。AI智能体基于LLMs强大的推理能力,并整合外部工具、记忆机制与多源数据,使系统能够通过“思考—行动—观察—反思”的迭代循环自主运行。这类智能体不再局限于单一的预测或生成任务,而是作为一组可适应的独立组件协同工作,可用于文献检索、化合物分类、毒性终点预测、实验规划,甚至直接与实验室自动化系统交互。

图1 人工智能的三次演进浪潮,从预测模型到生成式模型到智能体系统

AI智能体:概念及系统设计

在药物发现领域,根据功能性通常将智能体工具分为四类:感知工具用于数据收集与整合;计算工具执行分析与预测建模;行动工具执行真实世界的实验操作;记忆工具负责知识存储、检索与持续学习。

图2 药物发现中智能体AI的四类典型工具

图3展示了常见的AI智能体架构。ReAct智能体是一个由推理与行动组成的循环,其中LLMs会动态选择并调用工具(图3a)。Reflection智能体系统由多个LLMs构成,其中一个Generator负责提出方案,另一个Reflector对方案进行批判,并通过迭代不断优化策略(图3b)。Supervisor智能体系统是一种层级化多智能体架构,由监督者LLMs将子任务分配给专门化LLMs智能体,每个智能体都具备推理与调用工具的能力(图3c)。Swarm智能体系统是一种去中心化的多智能体系统,其中所有智能体彼此相连,每个智能体都具备推理与调用工具的能力(图3d)。表1总结了每种智能体系统在药物发现中的关键特征、优势/局限性以及适用任务。

图3 AI智能体系统结构

表1 AI智能体架构特点

智能体的记忆使其能够从经验中学习、保持连贯的交互,并完成复杂任务。智能体的记忆通常分为两类:短期记忆,用于保存即时情境的工作空间(图4a);长期记忆,用于保持持久知识。为了永久保留信息,智能体会使用长期记忆,其形式包括内部长期记忆与外部长期记忆两类。内部长期记忆指的是在初始训练过程中,被编码进神经网络权重中的参数化知识。而外部长期记忆(图4b)提供一种动态且持久的存储方式,通常通过检索增强生成(RAG)系统实现。由于药物发现领域的科学文献和数据快速增长,AI智能体必须通过主动与数据源及其他智能体交互来扩展其记忆。利用一种称为工具调用的机制(图4c),通过API与外部数据库与服务进行交互,使其能够查询数据库, 并将查询结果纳入其短期记忆。

图4 AI智能体系统中的记忆与外部集成

AI智能体加速药物发现应用

用于分子优选的综合文献分析

在临床前药物发现中,从大型分子数据集中进行全面文献分析是一项繁琐且耗时的任务。根据范围和专利环境的不同,这个过程通常需要数周,从而延缓先导化合物优选和合成决策,尤其是在快速迭代至关重要的早期发现阶段。一个多智能体框架可以通过在分布式数据源之间自动协调文献分析任务来改变这一过程(图5)。该系统由与Misogi Labs相关的作者开发,采用层级监督模式,其中一个Orchestrator智能体协调具有不同领域专长的专业子智能体,包括专利提取智能体、文献检索智能体以及交叉比对智能体。

图5 用于与分子结构/小分子相关的综合文献分析的智能体系统设计

作为案例研究,Misogi Labs的相关作者启动了一个BTK抑制剂发现工作流程,以评估acalabrutinib的选择性谱,并将其与新结构类似物进行比较。专利分析智能体通过基于Morgan指纹的相似性搜索检索到相关药物专利;文献检索智能体查询科学数据库获取激酶选择性数据(表2)和ADMET属性;交叉比对智能体识别不同来源之间的冲突测量(表3)。

表2 多来源IC₅₀数据提取-Acalabrutinib与多种激酶靶点

表3 冲突数据检测与合理性说明

体外毒性预测

在计算机毒理预测应用中,Human Chemical Co.的相关作者构建了一个采用ReAct架构的AI智能体系统,该系统可执行一系列观察、决策和任务。每个循环结束后,用户都可以提出后续问题或进一步任务,系统则基于这些输入继续运行并返回更多结果。这种人类参与的架构在保持化学安全评估所需的人类专业知识的同时,将研究生产力提升了一个数量级。作为示例,Human Chemical Co.的作者使用该AI智能体系统来辅助评估化合物Cashmeran的内分泌干扰风险。结果表明Cashmeran的代谢相对快速,其总体危害特征较为理想(图6)。

图6 六种化学物质在代谢步骤中的内分泌干扰概率

AI智能体系统还使用其化学信息学工具生成了Cashmeran的预测代谢物,并对这些代谢物重复进行了危害预测。表4汇总了AI智能体系统生成的结果。

表4 Cashmeran代谢物的危害预测结果

自动化协议设计与执行

设计和验证分子检测实验,如定量聚合酶链式反应(qPCR),仍然是一个缓慢且依赖专业知识的过程。作为案例,Potato公司的相关作者开发了一个多智能体系统Tater,该系统将RAG与涵盖实验规划、执行与迭代的专业科学工具集成。最终,系统提供了完整的qPCR实验协议,包括逐步操作细节(图7)。

图7 智能体生成的qPCR协议逐步工作流程

相比于手动设计和验证AAV qPCR实验的过程,Tater在整个工作流程中将总设置时间和人工投入减少了两个数量级以上(表5)。

表5 使用Potato的Tater智能体自动化qPCR实验开发

利用虚拟科学家加速药物发现

药物发现工作流程通常在生物学、化学和临床领域之间高度碎片化,必须整合异构数据、工具和模型。由Kiin Bio相关作者实现的虚拟科学家系统(图8),整合了来自生物学、化学和临床领域的100多种数据、工具和AI模型,包括基于API的工具、大规模生物信息学流程以及GPU驱动的模型,使其能够提出、评估和优先排序体外及实验室实验,同时保证透明性、可重复性和可扩展性。

图8 Kiin Bio虚拟科学家平台支持的药物发现工作流程

罕见病药物重定位

罕见病通常伴随患者群体数量极少且数据理解有限。在药物重定位中,传统发现方法依赖交叉参考异构数据集,以发掘市场上已有药物的潜在新疗法。然而,手动交叉参考既耗时又消耗资源,同时容易遗漏隐藏在生物学和化学数据集中的某些关联。知识图谱已成为罕见病药物重定位中整合生物医学数据的强大工具,但其主要作为静态资源,仅能揭示关联,而缺乏在异构数据源间主动推理、实时适应新证据以及协调药物再利用所需多步骤流程的能力。

为解决这一问题,一套基于MCP的智能体系统被用于加速药物重定位,其核心设计采用Supervisor架构(图9)。作为案例,Augmented Nature的作者使用该系统进行了如下查询:“寻找脊髓性肌萎缩症(SMA)的药物重定位机会”。其包含5个子智能体,每个子智能体负责特定领域:疾病智能体、通路智能体、分子智能体、蛋白智能体、安全智能体。流程结束时,由一个药物化学家智能体验证结果。人类可与监督者及药物化学家智能体进行交互。

图9 加速罕见病药物重定位的智能体系统

小分子合成自动化

候选化合物的合成往往是小分子发现过程中限制速度的关键步骤。其面临两个主要问题,分别为合成路线的设计以及实验执行及失败应对。AI智能体系统能够同时支持合成路线设计与实验自动执行两个方面。onepot.ai的相关作者开发了一个智能体平台,可通过Action Tools在物理世界执行有机化学实验。他们设计了一个“AI有机化学家”,能够在循环中执行实验并根据需要修改实验方案(图10)。该系统已应用于商业与科研环境的有机合成中。实验设置与智能体系统的整合,使其更接近完全闭环的发现流程。

图10 小分子自动化系统(结合硬件自动化与AI)

增强药物发现工作流程的搜索能力

作为案例,Plex Research的作者使用支持Focal Graph的LLMs进行复杂、长期的体外计算研究计划,生成可验证的、数据驱动的新假设(图11)。请求一个Focal Graph驱动的AI智能体规划并执行一个研究计划,以识别Wnt通路中的新型肿瘤学靶点。其执行流程包括,列出Wnt通路的已知成员,识别这些通路成员受扰动时的RNA-seq表达谱,

运行Focal Graph搜索,寻找其他潜在的新基因,其扰动会产生类似的基因表达谱。该工作流程表明,使用AI智能体进行的体外计算可以通过Focal Graph方法增强数据搜索能力,从而覆盖几乎任何治疗领域、治疗方式、数据类型或研发阶段。

图11 Focal Graph作为LLMs推理的数据源的工作流程

从发现到交易决策

在此案例中,Convexia Bio的作者开发了一个用于小分子资产搜索与评估的智能体工作流程(图12)。具体来说,规划器构建任务,将数据源的输入整合至每个查询的资产知识图谱(PKG)中。PKG支撑科学、临床及战略模块,实现数字孪生模拟、体外计算分析及市场建模。最终将洞察整合为商业开发报告,推荐最佳许可或合作路径。

图12 从发现到交易多智能体系统

总结

用于药物发现的AI智能体已展现出显著潜力与初步成果,有望降低成本、加速研发周期,并提升制药研发的整体成功率。本研究展示了AI智能体系统在药物发现流程中的多种应用,从文献综述、毒性预测到自动化实验流程生成及端到端决策制定。这些系统在速度、可重复性与可扩展性方面表现突出,能够将传统耗时数月的工作压缩至数小时,同时保持良好的科学可追溯性。大语言模型与感知、计算、操作类工具的深度整合,使其能够在复杂的研究工作流中实现自主推理,从而缓解长期存在的跨学科沟通障碍与决策瓶颈。

展望未来,药物发现领域的AI智能体要实现大规模部署仍需解决若干关键挑战,包括数据异质性、系统可靠性、隐私保护以及健全的基准评估体系。未来的发展愿景包括在闭环实验框架下运行的自驱动实验室;在实际实验前利用数字孪生实现虚拟预筛选;以及人类与AI的协同模式,其中科学家聚焦战略性与创造性问题,而AI负责常规性任务。随着治理框架与行业标准的逐渐成熟,相信AI智能体系统不会取代人类专业能力,而是将其增强,加速并民主化创新进程,推动更高效、更低成本的药物发现,最终惠及全球患者。

参考链接:

https://doi.org/10.48550/arXiv.2510.27130

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档