
Hello,大家好,我是人月聊IT。
今天分享Google DeepResearch对AI Agent的研究分析报告。
具体使用的提示语如下:
请帮我整理一份AI Agent的研究报告,需要包括如下内容
1. 基本概念
2. 核心组件
3. 运作机制和工作原理,和大模型的关系
4. 关键能力,为何这些能力是大模型能力的有益补充
5. 关键实现技术
6. 常用的Agent开发框架和开发流程
7. 发展趋势(需要描述和大模型的关系,和MCP的关系)
7.1 详细说明通用智能体的发展和底层逻辑
7.2 详细说明智能体间协同和A2A协议
7.3 阐述随着MCP生态完善,大模型本身是否会演进为一个通用智能体
8. 应用案例和实践,重点讲在制造企业营销,供应链,生产制造三大业务域方面的应用案例
9. 当前落地的主要问题和挑战
希望研究报告关键内容能够配图,可以是可以互联网直接访问到的架构图或示意图。
人工智能代理(AI Agent)是利用人工智能(AI)来感知环境、代表用户追求目标并完成任务的软件系统 。这些系统的核心特征在于其目标导向的行为、推理能力、规划能力、记忆能力以及一定程度的自主性。AI Agent 的出现和发展,在很大程度上得益于生成式人工智能和基础模型的多模态处理能力,使其能够同时处理文本、语音、视频、音频、代码等多种信息,并进行对话、推理、学习和决策 。
AI Agent 的基本运作方式是与环境交互,收集相关数据,并基于这些数据和预设目标来执行任务 。与仅仅遵循预定义指令的传统软件程序不同,智能代理能够根据环境反馈和经验学习来调整自身行为,其核心原则是自主性,即在无需人类直接干预的情况下运行,同时仍然遵循人类创造者设定的目标 。
这种独立性和目标导向行为的结合,使其在处理复杂动态任务方面具有巨大价值。从更广泛的学术视角来看,人工智能本身常被定义为“对智能代理的研究与设计”,强调目标导向行为是智能的核心 。在商业环境中,AI Agent 则被视为能够以最少的人工监督来做出决策和执行任务的应用程序,它们补充而非取代人类的努力,旨在构建更高效、更有效的工作团队 。
AI Agent 的定义正从简单的基于规则的系统演变为由生成式AI和大型语言模型(LLM)驱动的复杂实体。这意味着AI Agent的能力和潜在应用正在迅速扩展,其发展与底层AI模型的进步直接相关。例如,多模态生成式AI和基础模型的发展,是现代AI Agent能够处理多样化信息、进行复杂对话和推理的关键推动因素 。若缺乏这些先进的AI基础,Agent的能力将受限于更简单的、基于规则的交互模式。
在人工智能领域,AI Agent、AI 助手(AI Assistant)和聊天机器人(Bot)是三个常被提及但功能和定位各不相同的概念。清晰区分它们对于理解AI Agent的独特性至关重要。
AI Agent 的核心在于其高度的自主性和主动性。它们能够独立运作并做出决策以达成目标,处理复杂的多步骤任务和工作流,并通过学习不断适应和改进其性能 。其交互模式是主动的、目标导向的。
AI 助手,如Siri或Alexa,其主要目的是协助用户完成任务。它们能够理解和响应自然语言输入,提供信息,完成简单任务,并可以推荐行动方案,但最终决策权仍在用户手中 。AI助手的自主性较低,通常需要用户的明确指令或提示,其交互模式是反应性的。
聊天机器人则更为基础,通常用于自动化简单的、预定义规则的任务或对话。它们遵循预设脚本,学习能力有限,主要进行基本交互,自主性最低 。
下表总结了这三者在关键特征上的差异:
表1:AI Agent、AI 助手与聊天机器人的特征比较
特征 | AI Agent | AI 助手 | 聊天机器人 (Bot) |
|---|---|---|---|
目标 | 自主、主动地执行任务 | 协助用户完成任务 | 自动化简单任务或对话 |
能力 | 执行复杂的多步骤操作;学习和适应;独立决策 | 响应请求或提示;提供信息和完成简单任务;可推荐行动,但用户决策 | 遵循预定义规则;学习能力有限;基本交互 |
交互模式 | 主动的;目标导向的 | 反应性的;响应用户请求 | 反应性的;响应触发器或命令 |
自主性 | 最高,能够独立操作和决策以实现目标 | 较低,需要用户输入和指导 | 最低,通常遵循预编程规则 |
复杂性 | 设计用于处理复杂任务和工作流 | 适用于较简单的任务和交互 | 适用于最简单的任务和交互 |
学习能力 | 通常采用机器学习进行适应和性能提升 | 可能具备一些学习能力 | 通常学习能力有限或没有 |
资料来源:综合整理自 2
从聊天机器人到AI助手再到AI Agent,这一演进过程反映了认知负荷和决策权从人类向人工智能逐步转移的趋势。这一趋势表明,未来人工智能将在人类社会中扮演日益复杂和自主的角色,这不仅可能重塑人机交互模式和工作职能,也对AI的伦理和社会影响提出了更深层次的考量。
这种进步的背后,是AI在学习和推理能力上的不断突破,以及对更高效率和自动化水平的持续追求。随着AI Agent能力的增强,目前由人类甚至AI助手执行的任务,未来可能会被AI Agent所取代,这将对劳动力市场、用户界面设计(可能更侧重于对Agent的目标设定)以及自主决策的伦理边界产生深远影响。
AI Agent 可以根据其感知能力、决策逻辑和学习机制等多个维度进行分类。理解不同类型的Agent有助于针对特定任务和环境选择或设计最合适的Agent架构。常见的Agent类型包括:
此外,根据Agent的数量,可以分为单Agent系统 (Single-agent systems) 和 多Agent系统 (Multi-agent systems, MAS)。单Agent系统由一个独立的Agent运作,而多Agent系统则包含多个Agent,它们之间可能进行协作或竞争以达成共同或各自的目标。
不同类型的AI Agent代表了不同层次的复杂性和“智能”。这种分类不仅具有学术意义,更直接指导了针对特定任务和环境构建适用Agent的设计选择。例如,一个简单的恒温器(简单反射型Agent 的架构与一辆自动驾驶汽车(可能是一个包含学习和基于效用组件的复杂混合型Agent) 的架构截然不同。开发者必须将Agent的架构与其任务需求相匹配:用过于简单的Agent处理复杂任务会导致失败,而对简单任务过度设计则效率低下。此类型学为Agent设计提供了关键的决策框架。
近年来,“Agentic AI”(代理型AI)这一术语越来越多地出现在讨论中,有时与“AI Agent”混用,但两者之间存在重要的概念区分。理解这种区分有助于把握AI领域的发展脉络。
根据Sapkota等人的研究,AI Agent 通常被定义为由大型语言模型(LLM)和大型图像模型(LIM)驱动的模块化系统,专注于狭窄的、任务特定的自动化。它们是生成式AI的进阶,通过工具集成、提示工程和推理增强来实现功能 。这类AI Agent通常是单个实体系统,通过调用外部工具、应用顺序推理和集成实时信息来完成明确定义的功能 。
相比之下,Agentic AI 则代表了一种范式上的转变,其核心特征是多Agent协作、动态任务分解、持久化记忆和精心策划的自主性 (orchestrated autonomy)12。
Agentic AI系统由多个专业化的Agent组成,它们在一在更广泛的工作流中进行协调、沟通和动态分配子任务 。这种架构上的差异导致了两者在可扩展性、适应性和应用范围上的深刻不同。
Agentic AI更侧重于决策过程,而不仅仅是内容生成,并且不完全依赖于人类提示,也无需持续的人类监督 。它引入了更高程度的自主性和上下文适应能力,使其能够独立地感知、推理和行动,根据环境动态决定最佳行动方案,甚至重新定义自身行动以优化结果 。
因此,“Agentic AI”代表了相对于一般“AI Agent”而言具备更加先进、通常更系统化且高度自主的范式。“AI Agent”可以涵盖更简单的单实体系统,而Agentic AI则强调在多Agent环境中的协作、动态行为和被精心设计的自主能力,通常暗示的是一个由多个Agent组成的系统,而非单个Agent。
“Agentic AI”这一术语的出现,标志着AI领域从关注单个智能行动者向构建复杂协作智能系统的成熟转变。这一转变对于AI的设计、管理和治理具有深远影响。控制单个Agent与协调一个可能产生突现行为的“Agent社会”是截然不同的挑战。Agentic AI的特征,如多Agent协作、动态任务分解、持久记忆和精心策划的自主性 ,本质上是系统性的,涉及多个组件或Agent之间的复杂互动。这类似于理解个体心理学与理解社会动态之间的差异。
因此,构建Agentic AI系统不仅需要AI专业知识,还需要系统工程、分布式计算,甚至可能借鉴社会科学的概念来管理协调和突现行为。相应的,治理模型也必须适应这种分布式、自主决策带来的复杂性。
AI Agent 的功能实现依赖于多个相互连接的核心组件,每个组件都扮演着至关重要的角色:
这些组件的模块化设计是AI Agent灵活性和专业化的关键。不同的Agent可以根据其特定目标,在各个组件的复杂程度上有所不同。例如,一个主要进行数据分析的Agent可能拥有高度发达的推理模块,但行动模块相对简单;而一个机器人Agent则需要一个复杂的行动模块。这种模块化特性对于构建能够适应广泛任务的多样化AI Agent至关重要。
同时,这些组件的功能是高度相互依赖的。“行动”组件的有效性直接取决于从“感知”、“推理”和“规划”组件流入的信息和决策质量。早期阶段的错误或局限性会逐级传递,最终影响Agent的行动效果。因此,确保每个组件,特别是感知和推理组件的鲁棒性,对于Agent的可靠性能至关重要。
如上图,该图展示了一个典型的LLM驱动的AI Agent架构,其中LLM作为核心,驱动画像、记忆、规划和行动四大模块的运作。画像模块定义Agent的角色和行为模式;记忆模块(包括短期和长期记忆)为Agent提供上下文信息和经验知识;规划模块负责任务分解、步骤生成和策略制定;行动模块则执行最终决策,可能涉及工具调用或直接输出。这些模块通过LLM紧密协同,实现Agent的自主智能行为。
Agent架构的选择(例如,单Agent与多Agent,集中式与分散式控制)不仅对性能和可扩展性产生深远影响,还关系到Agent系统的弹性、适应性乃至其潜在的突现行为。例如,分散式多Agent系统可能对单点故障更具鲁棒性,但在协调和预测方面更具挑战性 。集中控制(如垂直多Agent架构)对于顺序任务效率较高,但可能产生瓶颈;而去中心化控制(如水平多Agent架构)则能促进创新,但决策过程可能较慢。
在复杂的多Agent系统中,特别是去中心化的系统中,Agent之间的交互可能导致未明确编程的、系统层面的突现行为。因此,架构设计是一个关键的权衡过程。设计者不仅要考虑眼前的任务性能,还必须顾及长期的适应性、鲁棒性以及系统在开放环境中扩展和交互时可能出现的复杂动态。这也与后续将讨论的治理和控制挑战紧密相关。
AI Agent的运作通常遵循一个迭代的认知周期,这个周期使其能够与环境持续互动、处理信息并向目标迈进。这个周期常被称为OODA循环(Observe-Orient-Decide-Act),有时也会加入“学习”(Learn)阶段,形成一个更完整的智能行为模型 。
图2:AI Agent 认知周期 (OODA-L) 示意图
该图通常描绘一个循环流程,箭头指示从“观察”到“判断”,再到“决策”、“行动”,最后回到“学习”并影响下一轮的“观察”,形成一个持续优化的闭环。
OODA循环中的“学习”阶段是区分真正智能Agent与静态、基于规则的系统的关键。这种迭代学习能力,无论是通过强化学习、反馈循环还是记忆更新来实现,都是Agent在动态环境中适应并随时间改进其性能的基础。简单反射型Agent缺乏这一学习阶段,它们仅仅做出反应 。
学习使得Agent能够优化其对环境的理解(判断),改进决策过程(决策),并在后续周期中执行更有效的行动(行动)。因此,嵌入在此循环中的学习机制的复杂程度,决定了Agent长在自主性和智能的上限,这也是当前AI研究的一个核心领域。
AI Agent的运作机制围绕其感知环境、基于内部逻辑进行决策并最终采取行动的核心流程展开。大型语言模型(LLM)在现代AI Agent中扮演着越来越重要的角色,通常作为其“大脑”或核心认知引擎。
AI Agent的运作遵循一套结构化的流程,使其能够在环境中感知信息、分析情境、做出决策并采取行动以达成特定目标。这个过程可以概括为以下几个关键步骤:
这个过程通常是迭代的,Agent会持续感知环境变化,并根据新的信息调整其后续的决策和行动,形成一个反馈循环,即前述的OODA-L认知周期 。
在“决策”阶段,现代AI Agent越来越多地依赖大型语言模型(LLM)进行复杂推理。这标志着从简单的基于规则的逻辑向更细致、上下文感知的规划和模拟“思考过程”的转变,例如思维链(Chain of Thought, CoT)或思维树(Tree of Thoughts, ToT)等技术 。
早期的Agent可能仅使用简单的条件-行动规则进行决策 ,而LLM的引入使其能够“推理”问题、分解任务并评估潜在的行动路径 。例如,CoT技术明确旨在模拟在得出决策或行动之前逐步推理的过程。这种转变使得Agent更加灵活,更能处理新颖情况,但也带来了新的挑战,如决策过程的可解释性以及LLM在推理过程中可能出现的特有错误(例如幻觉)。
在众多现代AI Agent中,大型语言模型(LLM)正日益成为其核心认知引擎,通常被形象地比喻为Agent的“大脑”。LLM之所以能扮演这一角色,源于其强大的自然语言理解与生成能力、广泛的世界知识以及日益增强的推理能力 。
LLM在Agent架构中的具体作用体现在多个方面:
Wang等人提出的LLM 기반自主Agent统一框架明确将LLM定位为核心控制器,贯穿画像、记忆、规划和行动四大模块 。例如,画像模块可以利用LLM根据预设规则自动生成Agent的角色设定;记忆模块使用LLM处理和存储自然语言格式的记忆信息,并在记忆反思阶段总结经验;规划模块则利用LLM进行单路径或多路径推理,生成行动计划;行动模块在执行时,也可能依赖LLM的内部知识(如常识理解)或调用LLM来生成具体的行动参数或与用户沟通。
图3:基于LLM的AI Agent架构 (统一框架示意图)
此图清晰展示了LLM在Agent架构中的中心地位,连接并驱动着画像、记忆、规划和行动等关键模块,使Agent能够自主执行复杂任务。
强大LLM的崛起直接催化了当前AI Agent开发和能力的飞跃。若没有LLM,Agent在很大程度上仍将停留在功能有限的、基于规则或特定机器学习模型的系统中 。LLM提供了先前难以大规模实现的通用世界知识、语言理解和推理能力 ,而这些正是Agent有效理解目标、进行规划和与环境互动的认知基础。LLM相当于为Agent提供了一个现成的、强大的“认知引擎”,显著降低了创建复杂Agent的门槛。
然而,过度依赖单一LLM作为“大脑”也可能造成中心故障点或瓶颈,特别是在LLM可能存在弱点的特定推理类型或知识领域(例如精确计算、实时信息获取)。这表明未来趋势是发展混合架构,其中LLM由专业工具或其他AI模型进行增强 。LLM自身存在的局限性,如可能产生幻觉 或缺乏实时数据访问能力 ,促使了“工具使用” 这一概念的出现,允许Agent将特定任务分派给更合适的组件处理。这预示着最稳健的Agent架构将包含一个作为中央协调器或推理器的LLM,但会高度依赖一个多样化的外部系统和专业模型工具包,从而实现一种更分布式的认知功能,而非依赖单一的“大脑”。
AI Agent并非简单等同于LLM本身,而是LLM在特定框架下的应用和扩展。Agent框架负责构建与LLM的交互结构,利用LLM完成如规划、工具选择或响应生成等特定任务,而框架本身则处理执行、记忆管理以及与外部工具的交互 。
具体来说,交互和编排体现在以下几个层面:
AI Agent将LLM从一个被动的“缸中之脑”转变为能够与真实世界互动并解决问题的主动实体。它们为LLM的语言智能提供了“身体”(通过工具使用和行动执行)和增强的“心智”(通过持久记忆和结构化规划)。
LLM本身主要处理信息和语言 ,其固有的局限性在于超越上下文窗口的无状态性、无法执行任务以及无法直接访问外部工具或实时数据 。而Agent的能力正是对这些局限的补充:工具使用连接LLM与外部API、数据库和实时信息 ;记忆模块提供超越LLM上下文窗口的持久性 ;规划与行动执行则将LLM的推理转化为具体的步骤和行动 。这种协同作用使得Agent框架能够将LLM的智能操作化为有目的的行动。
AI Agent之所以能够有效地执行任务并与环境交互,得益于其拥有一系列关键能力。这些能力不仅定义了Agent的智能水平,更重要的是,它们能够显著补充和扩展大型语言模型(LLM)的固有功能,使LLM从一个强大的语言处理工具转变为能够主动行动和解决问题的智能实体。
AI Agent的核心能力是其实现复杂行为和达成目标的基础。这些能力相互关联,共同构成了Agent的智能特征:
这些能力并非孤立存在,而是构成一个相互依存的系统。有效的“规划”依赖于良好的“推理”和“记忆”;“学习与适应”则会随时间推移改进所有其他能力。正是这些组件之间的协同作用,共同塑造了强大的Agent行为。
例如,一个Agent若要有效地规划行动 ,就必须依赖记忆模块来回忆其目标和当前状态 ,而其计划的执行(行动)若缺乏稳健的推理能力则会漏洞百出。学习能力则对所有这些过程进行提炼和优化。
这表明,开发高级AI Agent需要一种整体方法,侧重于这些能力的整合与相互作用,而非孤立地优化单一能力。任何一个核心能力的薄弱都可能严重削弱Agent的整体性能和自主性。
大型语言模型(LLM)在自然语言理解、生成和一定程度的推理方面表现出色,但其本身存在一些固有局限,例如知识截止日期、缺乏直接行动能力、记忆受限于上下文窗口等。AI Agent的各项关键能力恰好能够弥补这些不足,从而极大地扩展LLM的实用性和应用范围。
AI Agent将LLM从一个强大的但相对被动的语言智能核心,转变为一个能够感知环境、记忆经验、规划行动、使用工具并主动解决问题的智能实体。Agent为LLM提供了与真实世界连接的“感官”和“肢体”,以及更持久和结构化的“记忆”与“执行意志”。
这种结合使得AI不再仅仅是一个分析或生成工具,而是演变成一种潜在的自主工作者或协作者。这种转变不仅在学术意义上让AI系统“更智能”,更重要的是,在实际应用中使其变得“更有用”和“更有影响力”。这种从信息处理到行动执行的飞跃,为企业和个人用户带来了巨大的实用价值,同时也引发了关于自动化、就业以及自主系统伦理的深远社会经济影响的讨论。
构建功能强大且可靠的AI Agent依赖于多种核心技术的协同工作。这些技术共同构成了Agent感知、思考、决策和行动的基础。
大型语言模型(LLM)和自然语言处理(NLP)技术是现代AI Agent,尤其是那些需要与人类进行自然语言交互或理解文本信息的Agent的核心。LLM,如GPT系列、Claude、Llama等,通过在海量文本数据上进行预训练,获得了强大的语言理解、生成、摘要、翻译和一定程度的推理能力 。
在AI Agent中,LLM通常扮演以下角色:
所选LLM的质量、规模及其特定的能力(如上下文窗口大小、特定领域的知识、推理的深度和准确性)会直接影响构建其上的AI Agent的整体性能和局限性 。并非所有LLM都同等适用于所有类型的Agent任务。
例如,一个为创意写作设计的Agent可能从一个擅长生成多样化文本的LLM中受益,而一个专注于逻辑规划或代码生成的Agent则可能需要一个在这些方面表现更强的LLM。因此,选择或微调合适的LLM是Agent开发中至关重要的第一步,Agent的能力上限在很大程度上取决于其底层LLM的能力。
机器学习是AI Agent实现学习、适应和优化决策的关键技术。不同的ML范式在Agent的构建和运行中发挥着不同作用:
尽管LLM为Agent提供了强大的通用知识基础,强化学习为Agent提供了一条通过直接经验微调其行为并适应特定环境或任务的途径,从而在这些特定情境下实现更优化和更稳健的性能。预训练提供了广泛的知识;RL则允许进行专门化的适应。
例如,一个LLM可能了解通用的客户服务原则,但一个经过RL训练的Agent可以学习在特定公司的生态系统中处理特定客户类型或问题的最佳方式。LLM预训练与基于RL的微调或在线学习相结合,可能是创建高能力和强适应性Agent的有效方法。然而,值得注意的是,Wang等人的研究指出,如果LLM的内部知识足够丰富,基于LLM的Agent可能并不总是需要广泛的RL训练 。这仍然是一个持续研究和发展的领域。
规划是AI Agent实现目标导向行为的核心能力之一,它涉及到在采取实际行动之前预先思考并确定一系列行动步骤,以从当前状态达到期望的目标状态 。
LLM与经典规划算法的集成代表了一种强大的神经符号方法。LLM能够处理自然语言目标描述的模糊性和丰富性,将其转化为形式化表示,而稳健、可验证的经典规划器则可以解决这些形式化问题。LLM的长处在于理解复杂、模糊的自然语言目标,而经典规划器的长处在于在形式化问题空间中生成最优或可靠的计划。
这种协同作用——LLM将用户意图转化为形式化的问题描述(如PDDL),经典规划器解决这个形式化问题——可能带来更可靠和可解释的Agent规划能力,因为形式化的规划过程可以被审查,同时仍然允许自然的交互方式。
为了使AI Agent能够有效地存储、访问和推理结构化知识,知识表示技术至关重要。知识图谱(Knowledge Graphs, KGs)是其中一种关键技术,它能够为Agent提供丰富的上下文信息,并支持更复杂的推理过程。
知识图谱作为一种关键的“锚定”机制,对于基于LLM的Agent尤为重要。它们有助于缓解LLM可能产生的幻觉,并提供可验证的、结构化的知识,以补充LLM中通常不透明的、隐性的知识。LLM的一个已知问题是可能产生幻觉 ,而知识图谱则提供了结构化的、基于事实的信息 。知识图谱可以充当一个“真理系统”,LLM可以查询它来验证信息或检索特定事实。
例如,在检索增强生成(RAG)技术中(常与Agent结合使用),通常会利用向量数据库(可以存储知识图谱的嵌入表示)或直接查询知识图谱,以便在LLM生成响应或计划之前为其提供上下文。因此,集成知识图谱能够通过将Agent的推理和响应锚定在明确的、经过筛选的知识中,从而显著提高AI Agent的可靠性和可信度。
除了上述核心AI技术外,还有一些其他技术也在AI Agent的实现和能力扩展中扮演着重要角色:
这些多样化技术的集成表明,AI Agent的开发正成为一个高度跨学科的领域,需要的专业知识远不止LLM或核心AI算法。构建复杂的Agent通常涉及复杂的系统集成工作。Agent需要与各种环境和系统进行交互 。
计算机视觉用于感知物理世界,RPA用于与现有的非API软件交互,云计算/边缘计算则用于可扩展部署和实时处理。这意味着Agent开发团队可能除了AI/ML工程师外,还需要计算机视觉、RPA、物联网(IoT)以及云/边缘基础设施方面的专家。因此,构建和部署能够充分利用这些技术的先进Agent,其复杂性是巨大的,需要大量的投资和多样化的技能组合。
开发AI Agent通常涉及使用特定的框架来简化构建过程,并遵循一套相对标准的开发生命周期。这些框架提供了预构建的模块、工具和抽象,使得开发者能够更高效地集成LLM、记忆、规划和工具调用等核心组件。
随着AI Agent需求的增长,涌现出许多开发框架,它们各有侧重,适用于不同的应用场景和复杂度需求。以下是一些广受关注的框架:
表2:AI Agent 开发框架比较概览
框架名称 | 核心理念/特性 | 主要应用场景 | 模块化程度 | 可扩展性 | 生产就绪度 | 学习曲线/易用性 |
|---|---|---|---|---|---|---|
LangChain | LLM应用开发,链式调用,Agent,记忆,工具集成 | 聊天机器人,文档处理,RAG,企业工作流自动化 | 高 | 中 | Beta | 较陡 |
LangGraph | 构建状态化、可控的(多)Agent工作流,基于图 | 复杂多步骤流程,动态决策,人工介入 | 高 | 中-高 | Beta | 陡峭 |
AutoGen | 多Agent对话与协作,异步,可定制Agent角色 | 群聊解决问题,代码生成与调试,需要动态交互的场景 | 高 | 高 | 预览 | 中等-较陡 |
CrewAI | 角色扮演型Agent团队协作,任务委派 | 研究团队,项目管理,内容创作,多Agent协作任务 | 中 | 高 | 可用 | 相对简单 |
Semantic Kernel | 企业级SDK,技能封装,规划器,多语言支持 | 将AI嵌入现有业务流程,企业应用,与Azure集成 | 中 | 高 | 生产 (v1.0+) | 中等 |
AutoGPT | 实验性自主Agent,任务分解与执行 | 网络研究,个人助理,小型自动化任务 | 低 | 可变 | 实验性 | 中等 |
MetaGPT | 模拟软件团队协作的多Agent框架 | 协作软件开发,网站/游戏开发,数字产品快速原型 | 中 | 中 | 实验性 | 中等 |
BabyAGI | 极简任务驱动自主Agent,动态任务列表管理 | 个人生产力Agent,任务列表生成,研究自动化 | 低 | 低 | 实验性 | 简单 |
Phidata | 多模态Agent框架,支持协作和组件化(记忆、工具) | 需要领域专家Agent协作的系统(如金融交易、研发) | 中-高 | 中 | 新兴 | 中等-较陡 |
Smolagents | 简单、轻量级,快速原型 | 快速原型,轻量级任务 | 中 | 低 | 实验性 | 非常简单 |
资料来源:综合整理自 35
这些多样化Agent框架的涌现,各自拥有不同的优势(例如,多Agent编排、状态化工作流、企业级准备度),表明不太可能出现“一刀切”的Agent解决方案。相反,一个新兴的趋势是针对不同类型的Agent应用的专业化框架。例如,CrewAI专注于多Agent团队协作,Semantic Kernel则面向企业级技能编排,而LangGraph则擅长处理复杂的状态化应用 。目前并没有哪个框架被普遍认为是“最佳”的;它们的适用性取决于具体的用例。这类似于编程语言或Web开发框架——不同的工作需要不同的工具。这意味着开发者需要熟悉一系列框架,并根据项目需求进行选择。这也暗示了未来可能需要不同框架构建的Agent之间的互操作性,这与后续将讨论的A2A/MCP协议相关。
构建AI Agent通常遵循一个迭代的生命周期,该周期与传统的软件开发生命周期(SDLC)有相似之处,但也融入了机器学习和LLM应用的特有元素。一个典型的开发流程包括以下关键阶段:
此图可描绘为一个迭代循环,包含以下主要阶段:1. 定义 (目标、范围、指标) -> 2. 设计 (架构、模型选择、数据策略) -> 3. 开发 (数据准备、模型训练/微调、工具集成) -> 4. 测试 (验证、性能评估、用户验收) -> 5. 部署 (集成、上线) -> 6. 监控与优化 (性能跟踪、反馈收集、持续改进)。箭头指示这是一个持续演进的过程。
AI Agent的开发生命周期与传统软件开发有共通之处,例如需求定义、设计、测试和部署等阶段 。然而,由于其数据依赖性、模型训练/调优的需求以及对非确定性行为进行持续监控的必要性,它也带有独特的MLOps (机器学习运维) / LLMOps (大型语言模型运维) 的特点。特别是“监控与优化”阶段,对于Agent而言至关重要,因为需要应对潜在的模型漂移、幻觉问题,并确保Agent能适应不断变化的环境 26。
这意味着构建AI Agent的组织需要采纳MLOps/LLMOps实践,这些实践扩展了DevOps原则,以包含ML模型和LLM生命周期管理的独特方面,如稳健的数据管道、模型和数据的版本控制、持续训练/评估以及专门的监控工具。
AI Agent领域正经历快速演进,其发展趋势与大型语言模型(LLM)的进步、多Agent协作平台(如MCP、A2A协议)的成熟以及对通用智能的持续探索紧密相连。
AI Agent与LLM之间的关系正从LLM作为简单组件向更深层次的共生演化转变。LLM的进步,如更大的上下文窗口、更强的推理能力和多模态处理能力,直接推动了更复杂、更强大的Agent能力的实现 。例如,Google Gemini 2.5 Pro模型先进的“推理”能力使其能够分步骤处理任务,这对于需要复杂规划的Agent至关重要 。LLM不再仅仅是生成文本的工具,而是正在演变为能够学习、推理并在动态环境中行动的自主系统的核心 。
反过来,Agent框架的应用需求也正在推动LLM的发展。Agent对可靠工具使用、长期记忆管理和复杂规划的需求,促使LLM研究者致力于提升模型在这些方面的性能,例如改进函数调用能力、减少幻觉、探索更有效的模型微调和更新机制 。这种双向促进形成了一个正反馈循环:LLM的进步赋能更强大的Agent,而对更强大Agent的需求则驱动LLM的进一步发展。
这种共生演化预示着未来的“基础模型”可能本身就更具Agent特性,将规划、工具使用和记忆管理等能力更紧密地集成到模型架构中,而不仅仅是由外部框架提供。目前,LLM主要作为语言处理器,由Agent框架赋予行动能力 。然而,LLM正逐步整合更多“类Agent”技能,如改进的函数调用 和对反思、动机等认知功能的研究 。将Agent能力更紧密地集成到LLM内部,有望带来更高效、更无缝的Agent性能。这可能催生新一代的“Agentic基础模型”,使得LLM“大脑”与Agent“框架”之间的界限变得模糊。
随着AI Agent数量和复杂性的增加,如何让它们有效协作成为关键问题。在此背景下,多Agent协调平台(Multi-Agent Coordination Platforms)及相关协议(如Anthropic的Model Context Protocol - MCP,尽管其最初侧重于工具集成,但也显示出支持Agent间交互的潜力)的重要性日益凸显。用户查询中提及的MCP,结合上下文及相关研究材料,主要指向Anthropic的Model Context Protocol在促进Agent生态系统发展中的作用。
Anthropic的MCP旨在为AI模型(尤其是LLM驱动的Agent)提供一个标准化的、安全的方式来连接和交互外部工具、数据源和上下文信息 64。其核心架构基于客户端-服务器模型 :
MCP通过JSON-RPC进行通信,并支持多种交互模式,包括同步请求/响应和服务器发送事件(SSE)的流式传输 。
该图可展示一个MCP客户端(代表AI Agent)通过标准化的MCP协议与一个或多个MCP服务器连接。MCP服务器则连接到各种后端系统,如数据库、API、文件存储等,从而为Agent提供所需的上下文和工具能力。AWS的博客中有一张图(Image 1)展示了使用MCP的Agent间交互示例,可以作为参考 。
MCP通过标准化AI Agent与外部世界(工具、数据)的接口,极大地增强了LLM驱动的Agent的能力和通用性:
Anthropic的MCP通过标准化工具和数据访问,为构建更可靠、可扩展的AI Agent奠定了关键基础。它减少了定制化集成的工作量,使LLM能够持续获取有效执行任务所需的上下文。
这种标准化促进了一个生态系统的形成,在这个生态系统中,工具和数据源可以更容易地“接入”AI Agent,从而加速开发并催生更复杂的Agent能力。尽管MCP主要关注工具/数据访问,但其架构本身也支持Agent间的通信。
这表明MCP可能成为更复杂的多Agent系统和更广泛互操作性的垫脚石,即使其他协议(如A2A)更专注于Agent间的任务编排。随着这些协议的演进和潜在的融合,界限可能会变得模糊。MCP在工具/数据访问方面的基础性作用使其处于有利地位,其固有能力可能使其在Agent间通信中发挥比最初设想更广泛的作用,从而补充或支撑更专业的A2A协议的某些部分。
通用人工智能代理(General-Purpose Intelligent Agents),常与AGI(Artificial General Intelligence,通用人工智能)的理念相关联,指的是能够像人类一样在广泛的任务和环境中理解、学习并应用知识的AI系统。其发展依赖于对人类认知能力的模拟和实现,以及能够支持这种能力的底层架构和逻辑。
通用智能体的理想特征包括:
实现这些特征面临巨大挑战,包括巨大的算力和数据需求、确保系统的可靠性与安全性、模拟人类智能的内在复杂性(融合逻辑、情感、社交技能和适应性),以及解决控制问题、价值对齐、经济影响、透明度和问责制等伦理问题 。
为了指导具有类人认知能力的自主Agent的创建,研究者们开始关注认知架构。Pengbo Hu等人提出的统一心智模型 (Unified Mind Model, UMM) 是一个基于全局工作空间理论 (Global Workspace Theory, GWT) 的新型理论认知架构 。
基于UMM,还开发了名为MindOS的Agent构建引擎,允许用户通过自然语言描述(定义个性、动机、背景、领域知识、工具等)快速创建特定领域/任务的自主Agent,无需编程 。
该图展示了UMM的层级结构,底层是各类专家模块(如感知、行动、工具调用),中间层是全局工作空间(由LLM作为核心驱动),可能还有顶层的元认知或动机系统,共同实现复杂的认知功能。
通用智能体的追求日益倾向于认知架构(如基于GWT的UMM),以此来结构化和整合LLM及其他专业模块提供的多样化能力(推理、记忆、学习、工具使用)。这标志着从纯粹数据驱动方法向更结构化、理论基础更坚实的智能模型的转变 。
随着Agent变得越来越复杂,仅仅将各种能力“附加”到LLM上可能不足够。认知架构为不同认知功能应如何交互提供了一个蓝图。LLM为这些认知架构中的模块提供了强大的组件(例如用于推理或感知处理)。
未来类AGI Agent的进步可能在很大程度上取决于计算认知科学的进展以及稳健、可扩展认知架构的开发,而LLM则在这些架构中扮演关键的使能技术角色。
此外,“自我主权、自主实体”概念,即能够“拥有”其心智、身体和经验的Agent,虽然高度概念化,但指出了AGI的一个哲学和技术前沿。如果Agent要实现真正的通用智能,它们可能需要一定程度的独立性和体验式学习,这是当前主要由人类控制和训练的系统所不具备的。这对于价值对齐和控制带来了深远的伦理和技术挑战。
随着单个AI Agent能力的增强,如何让多个Agent高效、可靠地协同工作,以解决更复杂的问题,成为一个核心议题。这催生了对Agent间通信协议和标准的需求。
Agent间通信语言(ACLs)和协议为异构Agent提供了一个共同的理解和交互框架。
标准化的A2A协议(如Google的A2A)和MCP(Anthropic的模型上下文协议)对于LLM驱动的Agent生态系统的发展至关重要。它们共同为构建更强大、更通用的AI系统铺平了道路:
标准化的A2A/MCP协议是未来AI的关键基础设施,它们将推动从构建单一AI应用向组合来自专业化、可复用Agent组件的复杂智能系统的转变。这类似于互联网协议(TCP/IP, HTTP)如何催生了万维网,或者标准化API如何支持了微服务架构。这种转变将促进专业化Agent生态系统的形成,推动模块化,降低集成成本,并最终实现更强大、更灵活的AI解决方案。
这种发展趋势也可能催生一个“AI服务经济”。在这个经济体中,专业化的AI Agent将其能力作为服务提供给其他Agent或人类用户。
例如,一个擅长高级医学影像分析的Agent可以向全科医生Agent提供服务;一个金融预测Agent可以向投资Agent出售其预测结果。这将极大地促进创新并为AI驱动的功能创造新的市场。
然而,这也带来了一系列挑战,例如Agent如何发现可信赖的合作伙伴?如何保证服务质量?如何解决冲突?以及Agent自主签约其他Agent服务所带来的安全隐患是什么?这些都是需要解决的复杂社会技术和经济问题。
探讨LLM是否会随着MCP(此处主要指Anthropic的模型上下文协议及其代表的标准化工具/数据访问趋势)和更广泛的Agent间通信协议(如A2A)生态的完善而自身演变为通用智能体,是一个复杂且引人深思的问题。
当前的趋势表明,LLM正变得越来越具备内在的Agent式行为能力。例如,LLM在指令遵循、上下文理解、多步推理以及与外部工具交互(如通过函数调用)方面的能力不断增强 。研究也在探索为LLM赋予更高级的认知功能,如自我反思和动机 。
然而,即使LLM变得更加强大和“Agent化”,完全演变为一个独立的、全功能的通用智能体,而无需任何外部Agentic架构或协调平台,可能性仍然有待商榷。原因如下:
因此,更可能的发展路径是LLM作为日益强大的核心认知引擎,与不断成熟的Agentic架构和互操作协议生态系统深度融合,共同构成通用智能体的基础。LLM本身可能会集成更多基础的Agent能力(如更可靠的本地工具使用、更强的短期规划),但复杂的、需要与广阔世界和多方协作的通用智能,仍将依赖于一个超越单个LLM的系统级解决方案。
LLM将变得更具内在的Agent行为能力(例如,原生的、可靠的工具使用;更稳健的规划),但复杂的通用智能仍需要 overarching 的Agentic架构和协调平台(如A2A/MCP生态系统)来管理复杂任务、长期记忆、多个专业工具/Agent,并确保安全和对齐。LLM日益强大的“认知引擎”将在一个更广泛的Agentic系统/生态系统中运作并受到其编排。
随着LLM变得更具Agent特性,以及MCP/A2A生态系统的成熟,AI系统“开发者”的定义可能会发生转变。重点可能减少对传统编码的关注,而更多地转向“Agent指令”、“多Agent系统设计”、“目标定义”和“伦理监督”。提示工程可能演变为“Agent行为工程”。
这可能进一步普及AI开发,但也需要系统思维、伦理学以及理解如何指导和管理自主系统的新技能。“AI编排师”或“Agent生态系统设计师”等角色可能会变得日益重要。