随着生成式人工智能(如 ChatGPT)的快速发展,AI Agents(人工智能体)正从概念走向大规模应用。2025 年被广泛视为“AI Agent 元年”,其技术栈的成熟标志着智能系统从“被动响应”向“自主决策”的跃迁。那么什么是 AI Agents 呢?构成 AI Agents 的技术栈有哪些关键组成部分?本文参考了一些资料,尝试解释这一概念,主要参考了以下内容:
由于技术水平有限,理解可能存在偏差,如有疑问,建议阅读原文。
AI Agents 是指能够感知环境、做出决策并执行任务的智能系统。它们结合了多种 AI 技术,包括自然语言处理(NLP)、计算机视觉、强化学习和知识图谱等,能够处理复杂的任务并适应动态环境。
与传统 AI 系统不同,AI Agents 具有以下特点:
AI Agents 的技术栈总体架构如上图所示。大体上可分为五个关键层级,从底层基础设施到上层应用逻辑逐层递进:
标准 AI 聊天机器人与 AI Agent 的主要区别之一在于,Agent 能够调用“工具”(或“函数”)。通常情况下,LLM 会生成结构化输出(如JSON对象),指定要调用的函数及其参数。一个常见的误解是,工具的执行并不是由 LLM 提供商完成的 —— LLM仅负责选择调用哪个工具以及提供什么参数。支持任意工具或参数的 Agent 服务必须使用沙箱(如Modal、E2B)来确保安全执行。
Agent 通过 OpenAI 定义的 JSON 模式调用工具,这意味着不同框架的 Agent 和工具可以相互兼容。例如,Letta 的 Agent 可以调用 LangChain、CrewAI 和 Composio 的工具,因为它们都遵循相同的模式。因此,针对常见工具的工具提供商生态系统正在不断增长。Composio 是一个流行的通用工具库,同时还管理授权。Browserbase 是专门用于网页浏览的工具,而 Exa 则提供了专门的网页搜索工具。随着更多 Agent 的构建,我们预计工具生态系统将进一步扩展,并为 Agent 提供诸如身份验证和访问控制等新功能。
Agent 框架用于协调大语言模型(LLM)调用并管理Agent的状态,不同框架在设计上存在差异,主要体现在以下几个方面:
选择适合的框架取决于具体应用需求,例如是构建对话 Agent 还是工作流、在笔记本中运行还是作为服务部署,以及对开源模型支持的要求。未来,框架之间的差异可能会更多地体现在部署工作流、状态/记忆管理以及工具执行的设计选择上。
目前,大多数 Agent 框架设计的 Agent 仅存在于 Python 脚本或 Jupyter 笔记本中,无法脱离这些环境运行。我们认为,未来的趋势是将 Agent 作为一种服务部署到本地或云基础设施中,并通过 REST API 进行访问。类似于 OpenAI 的 ChatCompletion API 成为与 LLM 服务交互的行业标准,我们预计未来也会出现一个主流的 Agent API 标准,但目前尚未有明确的选择。
将 Agent 部署为服务比部署 LLM 服务更为复杂,主要因为涉及状态管理和安全工具执行的问题。工具及其所需的依赖和环境需要明确存储在数据库中,因为服务需要重新创建运行环境(当工具和 Agent 在同一个脚本中运行时,这不是问题)。应用程序可能需要运行数百万个Agent,每个 Agent 都会积累越来越多的对话历史。从原型开发到生产环境时, Agent 状态必须经过数据规范化处理,且 Agent 交互必须通过 REST API 定义。目前,这一过程通常由开发者自行编写FastAPI和数据库代码完成,但随着 Agent 技术的成熟,我们预计这些功能将更多地嵌入到框架中。
AI Agents 技术栈的成熟标志着人工智能从“工具”向“合作伙伴”的转变。2025 年,随着框架标准化(如 Letta 的数据库驱动模型)与工具生态的完善,AI Agents 将深入更多领域,重塑工作与生活方式。