
期刊: arxiv 链接: https://arxiv.org/abs/2507.02925 代码: https://github.com/hoon-ock/AgentD 简介: 该论文提出了一个由大语言模型(LLMs)驱动的模块化框架 AgentD,用于自动化和简化早期计算药物发现流程中的关键任务,其创新点在于通过整合 LLM 推理与领域特定工具,实现了多任务的无缝协同。该框架以 GPT-4o 作为核心推理引擎和自然语言接口,结合多种外部工具和数据库,执行包括生物医学数据检索、领域特定问答、分子生成、性质预测、性质感知分子优化和 3D 蛋白 - 配体结构生成在内的六大任务。在针对淋巴细胞白血病中 BCL-2 靶点的案例研究中,AgentD 自主检索了相关生物分子信息,生成了化学多样性的种子分子,预测了 67 种 ADMET 相关性质并进行了迭代优化,经过两轮优化,QED>0.6 的分子从 34 个增加到 55 个,通过至少四项药物相似性规则的分子从 29 个增加到 52 个,还利用 Boltz-2 生成了 3D 蛋白 - 配体复合物并提供结合亲和力估计。该研究表明,AgentD 能有效支持分子筛选、优先级排序和结构评估,其模块化设计为 AI 辅助治疗发现提供了可扩展的基础。

药物研发领域正面临着前所未有的挑战与机遇。一方面,传统研发流程动辄耗时十余年、耗资超20亿美元的现状亟待改变;另一方面,AlphaFold等AI工具的突破性进展,为计算驱动的药物发现开辟了新路径。在这一背景下,卡内基梅隆大学团队提出的AgentD框架,通过大语言模型(LLM)与领域工具的深度融合,构建了一套完整的早期药物发现自动化解决方案,其创新性与实用性值得深入探讨。
当前计算药物发现工具存在显著的"碎片化"问题:分子对接、QSAR建模等方法虽已成为标准流程,但各自局限于单一任务,需依赖专家手动整合多步骤工作流。这种分散化实施严重制约了研发效率的提升,尤其在面对多目标优化、跨任务数据关联等复杂场景时,传统方法的局限性愈发凸显。
大语言模型的成熟为解决这一困境提供了可能。LLM不仅具备强大的自然语言理解与推理能力,其与外部工具的集成潜力,使其能够作为"智能控制器"协调多任务流程。AgentD的核心创新在于:它并非简单堆砌现有工具,而是通过模块化设计,将药物发现的关键环节重构为可自主协同的任务模块,实现了从数据获取到结构生成的端到端自动化。
AgentD的架构设计充分体现了对药物研发流程的深刻理解,六个核心模块既各司其职,又紧密联动,形成了逻辑严谨的工作流。

集成到 AgentD 药物发现流程中每个任务模块的关键外部工具:列举任务模块及对应的主要工具组件,如数据提取对应 UniProt、ChEMBL 等。

AgentD 支持的任务模块概述:在问答和分子优化任务中,输出由语言模型直接生成,而在其他任务中,最终结果由集成的外部工具产生。
该模块解决了药物研发的基础数据获取难题。通过调用UniProt数据库,AgentD可自动获取目标蛋白的FASTA序列;借助ChEMBL数据库,能检索已知药物的SMILES结构;同时通过Semantic Scholar API下载相关文献,构建全方位的知识基础。在BCL-2靶点研究中,该模块成功识别出维奈托克(venetoclax)等已知抑制剂,并同步获取其化学结构与作用机制文献,为后续研究奠定了扎实基础。
传统LLM在专业领域常产生"看似合理实则错误"的回答,而AgentD采用检索增强生成(RAG)策略,将回答严格锚定于数据提取阶段获取的文献资源。对比实验显示,在解释"维奈托克与蛋白酶体抑制剂协同机制"时,AgentD能精准阐述ATF3/ATF4介导的NOXA转录激活等细节,而标准GPT-4o则遗漏关键通路,凸显了RAG策略在保证回答准确性上的优势。
为构建高质量初始分子库,AgentD整合了两种互补生成模型:REINVENT用于无偏探索化学空间,生成结构多样的分子;Mol2Mol则以已知药物为模板,生成结构类似物,实现靶向探索。t-SNE可视化证实,REINVENT分子分布广泛,而Mol2Mol分子紧密围绕输入药物聚类,这种"广度+深度"的组合策略,有效覆盖了潜在活性分子所在的化学空间。
该模块通过Deep-PK API预测67种ADMET属性(包括吸收、分布、代谢等),同时利用BAPULM模型评估分子与靶点的结合亲和力(pKd)。这些预测不仅涵盖Caco-2渗透率、血脑屏障穿透性等药代动力学指标,还包括肝毒性、致突变性等安全性参数,为后续分子优化提供了全面依据。
AgentD利用LLM内置的化学知识,针对预测出的性质缺陷进行结构优化。例如,将羟基替换为甲基可提升膜渗透性,用胺基取代磺酰胺能改善 solubility。经过两轮优化,QED>0.6的分子从34个增至55个,通过至少4项药物 likeness规则的分子从29个增至52个,整体成药性显著提升。值得注意的是,优化过程中存在性质权衡现象(如渗透性改善可能伴随脂溶性下降),提示多目标优化仍是未来需突破的难点。
对于筛选出的高潜力分子,AgentD调用Boltz-2模型生成蛋白-配体3D复合物结构,并输出IC₅₀和抑制剂概率等结合强度指标。这些结构为分子对接、动力学模拟等深层分析提供了基础,尽管Boltz-2的预测精度有限,但其计算效率使其成为早期筛选的有效工具。

AgentD 中每个任务模块支持药物发现流程的工作流程:展示 AgentD 内各任务模块如何支撑药物发现流程。

基于 Mordred 衍生的分子描述符的化学空间 t-SNE 可视化:包括 AgentD 生成的种子分子(Mol2Mol、REINVENT)、基于属性优化后的优化分子、从 ChEMBL 中随机采样的 5,000 个化合物以及参考药物维奈托克。

分子优化示例:展示分子优化过程中,针对不同分子属性(如渗透性、毒性)改进的尝试及结果。
在针对淋巴细胞白血病靶点BCL-2的案例中,AgentD完整演示了从靶点信息检索到候选分子优化的全流程:
该案例证实,AgentD能自主完成多步骤任务,其优化后的分子库在药物 likeness指标上全面优于初始库,验证了框架的实用性。
AgentD的模块化设计使其具备极强的可扩展性,新工具可通过标准化接口快速集成。其采用的GPT-4o模型在科学推理任务中表现优异,结合LangChain框架实现了复杂工作流的高效管理。
未来发展可聚焦三方面:一是拓展文献来源 beyond 开放获取资源,提升RAG回答质量;二是开发多目标优化算法,平衡相互制约的药物性质;三是整合分子动力学模拟,增强结构预测的可靠性。
AgentD框架代表了AI驱动药物发现的重要进展——它不仅自动化了繁琐的流程性工作,更通过LLM的推理能力实现了任务间的智能协同。对于药物研发人员而言,这一工具能显著提升早期筛选效率,将更多精力投入创造性的 hypothesis 设计与实验验证。随着技术的持续迭代,我们有理由期待,模块化LLM智能体将在加速新药研发、降低医疗成本方面发挥越来越重要的作用。
(●'◡'●) 需要进一步讨论的同学欢迎留言交流!