前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【愚公系列】《AI Agent技术、应用与商业》003-Al Agent 的分类方式

【愚公系列】《AI Agent技术、应用与商业》003-Al Agent 的分类方式

原创
作者头像
愚公搬代码
发布于 2025-03-12 13:48:53
发布于 2025-03-12 13:48:53
1790
举报

标题

详情

作者简介

愚公搬代码

头衔

华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。

近期荣誉

2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。

博客内容

.NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。

欢迎

👍点赞、✍评论、⭐收藏

🚀前言

随着人工智能技术的不断进步,智能代理(AI Agent)在各个领域的应用愈加广泛。然而,伴随着应用场景的多样化,智能代理的分类方式也变得愈发复杂。在这篇文章中,我们将深入探讨智能代理的不同分类方式,帮助大家更好地理解这一领域的多样性和复杂性。

智能代理可以根据其功能、学习方式、交互方式等多种标准进行分类。从简单的规则基础代理到复杂的自适应代理,不同类型的智能代理在解决问题时展现出各自独特的优势和适用场景。通过对这些分类方式的探讨,我们不仅可以加深对智能代理本质的理解,还能为实际应用提供指导。

🚀一、Al Agent的分类方式

目前常见的AI Agent分类主要有罗素和诺维格早期提出的五种方式,以及基于LLM衍生出的新方式。根据感知能力与作用目标、Agent的自主性能、Agent数量与协作能力、业务流程复杂程度,以及功能、任务与应用场景,本节将按照五种方式对AI Agent进行划分。

🔎1.AI Agent 分类方式(感知能力与作用目标)

随着AI技术的不断发展,到2000年左右,AI Agent已经衍生出了多种类型。根据Agent感知的智能与能力水平,罗素和诺维格在《Artificial Intelligence: A Modern Approach》(《人工智能:现代研究方法》)一书中提出了五种AIAgent分类。随着大规模语言模型(LLM)的崛起与应用,分层Agent逐渐成为新的主流分类方式。以下是根据感知能力与作用目标对AIAgent的六种分类。

🦋1.1 简单反射Agent(Simple Reflex Agent)

简单反射Agent是最基础的Agent类型,依赖于当前的感知信息做出反应,而不考虑历史信息。这类Agent不具备记忆和复杂的学习能力,只能对即时的环境变化作出反应。

特点:

  • 反应性:只对当前感知的环境做出反应,不考虑过去的感知或未来可能的影响。
  • 遵循规则:通常基于预定义的条件-动作规则(Condition-Action Rules)来执行任务。例如,当感知到某一特定情况时,Agent就会执行某个特定动作。

优点:

  • 易于设计和实现:因为没有复杂的决策过程,设计和实现相对简单。
  • 资源消耗少:不需要大量的计算资源或硬件支持,适合对实时响应有要求的场景。
  • 高可靠性:如果传感器精确并且规则设计良好,系统表现出很高的可靠性。

缺点:

  • 无法应对故障:如果传感器失效或者规则设计不当,Agent可能会做出错误的反应。
  • 没有记忆和状态:无法处理基于历史信息的决策或适应复杂、动态的环境。
  • 局限性:只能执行特定的预设动作,无法适应未知或突发的情况。

适用场景:适用于规则简单、变化不大的环境,如家用设备的自动控制系统。

🦋1.2 基于模型的反射Agent(Model-Based Reflex Agent)

相比简单反射Agent,基于模型的反射Agent不仅依赖于当前感知,还会通过构建和维护一个内部模型来描述环境的状态。这使得该Agent能够在部分可观察的环境中做出更加合理的决策。

特点:

  • 内部模型:它通过建立对世界的内部模型来弥补感知的不足,能够记住过去的状态,并通过该模型推测环境的未来变化。
  • 基于状态的决策:不仅依赖于当前感知的信息,还会基于内部状态来评估环境变化,选择最合适的反应。

工作原理:

  1. 感知:通过传感器获取当前环境状态。
  2. 模型:根据感知结果更新内部模型,反映现实世界的演变。
  3. 推理:基于当前感知和内部模型,选择合适的行为。
  4. 行动:根据推理结果执行动作。

优点:

  • 更精确的决策:通过内部模型理解世界的演变,使得Agent能够做出更精确的决策。
  • 适应性:能够根据环境变化调整内部状态,从而适应不同的环境情境。
  • 可靠性:在部分可观察的环境中能够进行较为有效的决策。

缺点:

  • 计算成本高:构建和维护一个有效的内部模型需要较高的计算资源,可能会导致效率低下。
  • 模型局限性:内部模型可能无法完全准确地模拟复杂的现实世界,导致决策失误。
  • 维护挑战:模型需要频繁更新,以应对环境的变化,否则可能导致模型失效。

适用场景:适用于需要部分环境感知和预测的应用,如自动驾驶系统、智能家居管理系统等。

案例:Amazon Bedrock平台可以看作是基于模型的反射Agent的典型应用。它利用多种基础模型来模拟操作,进行优化决策,并根据不断更新的世界模型进行资源规划。

🦋1.3 基于目标的Agent(Goal-Based Agent)

基于目标的Agent(Goal-Based Agent)是一类能够根据明确的目标或理想状态作出决策并采取行动的智能体。它们的核心特征是根据目标的实现进行行动规划和搜索,主动选择并执行一系列操作,以完成设定的目标。这类Agent需要考虑多种可能的行动步骤,并通过评估不同选项来选择最佳路径。

特点:

  • 目标驱动:与反射型Agent不同,基于目标的Agent不仅被动响应环境变化,而是主动追求特定目标。
  • 搜索和规划:Agent通过搜索算法和规划策略,在可能的行动中选择最优路径来实现目标。
  • 主动性:它们有明确的目标,并根据目标主动制定策略,进行一系列的推理、搜索和行动。

工作流程:

基于目标的Agent的工作过程通常包括以下五个主要步骤:

  1. 感知:Agent使用传感器或其他输入设备感知环境,收集周围环境的信息。
  2. 推理:Agent分析收集到的信息,进行推理并决定实现目标的最佳行动方案。此时,Agent会评估可行的选项,选择一条最有可能实现目标的路径。
  3. 行动:根据推理结果,Agent执行具体的行动。例如,移动、操作环境中的物体、发出指令等。
  4. 评估:在执行行动后,Agent评估是否朝着目标前进。如果目标进度不理想,可能会调整行动方案,改进策略。
  5. 目标完成:一旦目标达成,Agent会停止当前的任务。如果有新的目标,Agent可以切换到新的任务,继续执行下一个目标。

案例:

例如,Google Bard 是一个典型的基于目标的Agent。其目标是为用户查询提供高质量的回答。为了达成这一目标,Google Bard会通过以下步骤:

  • 感知:接收用户的查询。
  • 推理:分析查询的内容,理解用户的需求。
  • 行动:从数据库或互联网检索相关信息,并生成答复。
  • 评估:评估回答是否满足用户需求(通过反馈、点击率等评估)。
  • 目标完成:如果查询得到满意回答,系统会完成任务;如果没有,它会调整答案,直到达到预期效果。

优点:

  1. 易于实施和理解:基于目标的Agent结构简单,容易理解与实现,适合处理明确目标的任务。
  2. 高效实现目标:能够精准地进行任务规划,通过搜索和推理选出最佳路径来实现目标。
  3. 易于评估绩效:由于其任务是明确的,可以根据目标是否达成来评估Agent的表现。
  4. 与其他AI技术结合:基于目标的Agent可以与其他AI技术(如学习算法、感知系统等)结合,创建更为复杂和智能的系统。
  5. 适用于结构化环境:非常适合那些目标明确且规则清晰的应用场景,如自动驾驶、机器人导航、游戏AI等。

缺点:

  1. 仅限于特定目标:这种Agent专注于单一的目标,一旦目标改变或任务要求多样化,可能需要重新规划和调整。
  2. 对环境变化不敏感:基于目标的Agent在动态环境中的适应性较差,如果环境发生突变或出现未知因素,可能无法有效应对。
  3. 复杂任务处理困难:对于涉及大量变量或复杂环境的任务,基于目标的Agent可能效率低下,甚至无法完成任务。
  4. 依赖领域知识:为了有效地定义和优化目标,基于目标的Agent需要领域专家提供丰富的知识。如果领域知识不足,目标可能不准确,导致Agent的行动效果不佳。

应用场景:

  • 机器人技术:例如,工业机器人、家用清洁机器人等,它们的目标通常是完成一项具体的任务,如搬运、清洁等。
  • 游戏AI:游戏中的敌人或NPC(非玩家角色)经常会根据特定目标(如击败玩家、收集物品等)采取行动。
  • 自动驾驶:自动驾驶系统需要通过目标规划来决定如何在复杂环境中选择最佳路径,以实现安全、快速到达目的地的目标。
  • 自然语言处理(NLP):如Google Bard、Siri等虚拟助手,它们的目标是提供准确、相关的答案。

🦋1.4 基于实用程序的Agent(Utility-Based Agent)

基于实用程序的Agent(Utility-Based Agent)是一类以最大化其“效用”或“幸福感”为目标的智能体。与基于目标的Agent不同,基于实用程序的Agent不仅仅追求达成一个明确的目标,而是通过评估不同可能行动的预期效用,选择最能提升其效用(即“幸福感”)的行动。这个效用是一个衡量行动结果好坏的数值。

工作原理:

基于实用程序的Agent根据效用函数做出决策,效用函数是用来评估每个行动结果的优劣程度的数值化指标。Agent会根据预期效用,即衡量不同选择带来的好处,来选择最大化效用的行动。这个过程通常包括以下几个步骤:

  1. 环境建模:Agent首先对其所处的环境进行建模,可以是简单的也可以是复杂的模型,涵盖了环境的各类动态变化。
  2. 评估结果:基于模型,Agent评估每一个潜在行动所能带来的不同结果。这个评估过程是通过效用函数来量化的,效用函数将不同的结果与数值进行关联,从而得出哪个结果最有利于Agent。
  3. 选择行动:Agent选择具有最高预期效用的行动。这个选择基于当前的效用评估,并根据这些评估结果来指导下一步行动。
  4. 重复过程:随着时间的推移,Agent会不断重复此过程,在每个决策点根据最新的环境状态选择最优行动。

案例:

Anthropic的Claude 是一个典型的基于实用程序的Agent。Claude的目标是帮助持卡会员最大化使用卡的奖励和利益。为了实现这一目标,Claude会使用效用函数:

  • 对持卡人所面临的不同情境(例如购物、支付账单、兑换奖励等)分配不同的效用值。
  • 比较每个情境下不同行动的结果(例如购买不同商品、选择不同支付方式等)。
  • 根据效用值进行权衡,选择效用最高的行动。

此外,Claude还利用启发式方法和人工智能技术来简化决策过程,提高决策的效率和质量。

优点:

  1. 处理复杂决策问题:基于实用程序的Agent能够处理广泛的决策问题,尤其是那些需要从多个选项中进行比较和选择的场景。
  2. 能够从经验中学习:随着经验的积累,Agent能够调整其决策策略,提高效用,优化选择。
  3. 一致且客观的决策框架:通过效用函数,基于实用程序的Agent能够为复杂决策提供一致性和客观性,避免人为偏见。
  4. 灵活应对复杂场景:能够应对复杂、不确定的环境,做出更加理性和灵活的决策。

缺点:

  1. 需要准确的环境模型:如果环境模型不准确或不完整,基于实用程序的Agent可能会做出错误的决策,从而影响其效用最大化的效果。
  2. 计算成本高:由于涉及到大量的预期效用评估,计算成本可能相对较高,尤其是在复杂环境下。
  3. 不考虑道德或伦理因素:这种方法侧重于效用的最大化,而不考虑道德或伦理因素,可能导致在某些情境下作出不合适的决策。
  4. 难以理解和验证:基于效用的决策过程有时可能对人类来说不易理解,因为它依赖于数学模型和复杂的计算,这可能导致其决策过程不透明或难以验证。

🦋1.5 学习型Agent(Learning Agent)

学习型Agent是具有学习能力的智能体,它能够从与环境的互动中获取经验,并基于这些经验来调整其行为,以适应未来的决策任务。与基于规则的Agent不同,学习型Agent不仅仅依赖于预先设定的规则或目标,而是通过不断地学习和适应,逐步提高决策的质量。

架构:

学习型Agent一般由以下四个部分组成:

  1. 学习元素:根据从环境中获得的经验进行学习和改进。通过算法和模型来分析经验,优化决策。
  2. 评价者:根据预定义的标准(例如奖励或惩罚)对Agent的表现进行评估,并为学习元素提供反馈。
  3. 性能元素:根据学习元素和评价者的反馈,选择并执行外部动作,即采取实际行动。
  4. 问题生成器:建议采取新的行动或提出新的问题,为学习元素创造更加信息丰富的经验,从而提高其学习能力和表现。

工作流程:

学习型Agent通常遵循以下循环步骤来进行学习与决策:

  1. 观察:Agent通过传感器或其他输入设备感知环境,获取当前的状态信息。
  2. 学习:Agent使用算法和统计模型分析数据,基于过去的经验进行学习,改进行为决策。
  3. 行动:根据所学到的知识,Agent在环境中采取行动,选择最优决策。
  4. 反馈:通过奖励、惩罚或环境线索接收反馈,评估自己行为的效果。
  5. 适应:利用反馈信息,Agent调整自己的行为和决策策略,以便在未来的互动中做出更好的决策。

这个过程不断循环进行,随着时间推移,Agent能更好地适应环境并提升自身表现。

案例:

AutoGPT是一个典型的学习型Agent。假设你要购买一款智能耳机,AutoGPT可以通过以下过程为你提供帮助:

  • 观察:AutoGPT收集关于市场上排名前十的耳机产品的信息。
  • 学习:它通过分析多个来源(例如电商网站、用户评论等),评估各款耳机的优缺点。
  • 行动:AutoGPT根据所学到的信息,为你提供关于每款耳机的详细见解。
  • 反馈:它根据用户的反馈(例如选择了哪款耳机),进一步调整评估方法。
  • 适应:随着经验积累,AutoGPT能够提供更为精准和个性化的建议。

优点:

  1. 自动化决策过程:学习型Agent能够从实际经验中学习,将想法转化为实际行动,自动执行任务。
  2. 适应性强:学习型Agent能够随着时间推移不断优化决策策略,逐步提高性能。
  3. 考虑效用:相比基于规则的Agent,学习型Agent更能适应复杂和动态的环境,考虑到效用最大化问题,决策更加现实。

缺点:

  1. 偏见或错误决策:由于学习型Agent依赖数据进行学习,如果数据存在偏见或不准确,可能导致错误决策。
  2. 开发和维护成本高:学习型Agent的开发涉及复杂的算法和大量的数据收集,成本较高。
  3. 计算资源需求大:学习和训练过程中,尤其是涉及到大规模数据时,计算资源消耗较大。
  4. 数据依赖性:学习型Agent的表现与数据的质量和数量密切相关,缺乏足够的数据会影响其效果。
  5. 缺乏类人直觉和创造力:虽然学习型Agent可以通过经验优化行为,但其缺乏人类的直觉和创新能力。

🦋1.6 分层Agent(Hierarchical Agent)

分层Agent是按照层次结构构建的智能体,较高级别的Agent负责监督较低级别的Agent。在这种架构中,系统被划分为多个层次,较高级别的Agent管理全局目标,而较低级别的Agent则负责执行具体的任务。由于层次结构的存在,分层Agent能够高效地协调和管理多个任务,并确保任务按照优先级顺序执行。

分层Agent通常被应用于复杂系统中,如机器人、制造业、运输等领域,尤其适用于需要多任务协调的环境。

工作原理:

分层Agent的工作方式类似于组织结构,任务被分解为多个层级,每个层级有不同的职责:

  • 高级Agent负责定义全局目标,制定战略,并将任务分解成更小的子任务。
  • 低级Agent则负责执行这些子任务,并向高级Agent汇报进度和结果。
  • 在更复杂的系统中,可能还会有中间级别的Agent,它们作为桥梁协调低级Agent与高级Agent之间的工作。

应用示例:

UniPi是Google推出的一款分层Agent,利用文本和视频作为通用界面,能够在各种环境中学习并执行不同任务。UniPi包含两个主要策略:

  1. 高级策略:负责生成指令和演示,适应不同的任务和环境。
  2. 低级策略:通过模仿学习和强化学习,执行具体任务。

这种分层设计使得UniPi能够有效地将高级推理(如任务规划)与低级执行(如动作控制)结合在一起,既具有灵活性,又能高效执行任务。

分层Agent的优点:

  1. 提高资源利用效率:
    • 通过将任务分配给最适合的Agent,并避免任务重复执行,分层Agent能够有效利用系统资源,提高效率。
  2. 增强沟通与协调:
    • 层次结构清晰地定义了每个Agent的职责和控制权限,从而增强了不同层级之间的沟通和协调。高级Agent明确目标,低级Agent执行任务,中间层级Agent进行协调,确保各层级之间的协作顺畅。
  3. 分层强化学习优化决策:
    • 分层强化学习通过将复杂动作分解为较简单的操作,降低了每个决策的复杂性。这使得Agent能够在较简单的动作空间中进行学习,从而提升决策效率。
    • 高级Agent负责简化问题,而低级Agent通过探索具体细节进一步优化执行过程。
  4. 降低计算复杂性:
    • 通过将复杂问题分解为更小的子任务,并在不同层级上处理,分层Agent能够简化问题的表示。子任务的可重用性也减少了重复计算,从而提高了系统的整体效率。

分层Agent的缺点:

  1. 增加系统复杂性:
    • 分层架构本身引入了结构化的复杂性,需要设计并管理不同的层级,确保各层级之间协调工作。这可能导致系统的整体复杂度较高。
  2. 固定的层次结构限制适应性:
    • 固定的层级结构可能会限制分层Agent对环境变化的适应性。在面对不确定或动态变化的环境时,Agent可能难以及时调整或选择合适的替代方案。
  3. 可能产生瓶颈和延迟:
    • 由于分层Agent通常遵循自上而下的控制流,较低级别的任务需要等待较高级别任务的执行指令,即使低级任务已经准备就绪。这可能导致瓶颈,影响系统的响应速度和效率。
  4. 跨领域的可重用性差:
    • 分层结构通常是针对特定任务领域设计的。因此,在面对不同类型的问题时,可能需要为每个问题领域创建新的层级结构。这会增加设计和实现的复杂性,同时也需要专业知识支持。
  5. 训练和设计的挑战:
    • 训练分层Agent通常需要大量标记数据,并且需要精心设计训练算法。训练过程中,如何确保各层级的协作和正确性是一大挑战。
  6. 应用机器学习技术的困难:
    • 由于分层结构的设计本身已经较为复杂,直接应用标准的机器学习方法来提升性能可能会遇到很大的困难。传统的强化学习和深度学习技术可能难以直接适应这种多层级的结构。

🔎2.根据 Agent的自主性能划分

随着大语言模型(LLM)的出现,融合LLM的Agent在更加多元与复杂的业务应用场景中开始衍生出新的种类。LLM为Agent带来了更强的自主性,因为功能、生成方式和应用场景等方面的不同,出现了自主Agent与生成式Agent。

🦋2.1 自主Agent

自主Agent是一种特殊的AI Agent,具有自主决策和行动的能力,能够在没有外部指令或人工干预的情况下进行学习、推理和决策,并执行相应的操作。自主Agent相较于传统AI系统具有更高的自主性、适应性和交互性,代表了从算法驱动到行为驱动的重要演进。

基本架构:

自主Agent利用LLM的能力来感知环境并执行任务。当给定目标时,自主Agent能够自行创建任务、完成任务、创建新任务、重新确定不同任务的优先级,并不断循环直到达到目标。例如,AutoGPT等自主Agent,可以根据自然语言需求自动执行任务并实现预期结果。在这种合作模式下,自主Agent主要为人类服务,更像是一个高效的人机协同工具。

特点:

  • 自主性和行为能力:自主Agent在动态环境中自主地感知、决策和行动,以完成特定任务。
  • 核心能力:自主决策和控制,需要集成感知、规划、导航、操控等多种能力,才能适应复杂环境。

典型应用:

发展前景:

基于LLM的自主Agent被认为是通向通用人工智能(AGI)最有希望的道路。

🦋2.2 生成式Agent

生成式Agent通常基于GPT、文心大模型等LLM构建,以自然语言存储Agent的完整经历记录。生成式Agent的架构包含三个主要组件:记忆流、反思和规划。这些组件协同工作,使生成式Agent能够生成反映其个性、偏好、技能和目标的现实且一致的行为。

架构:

生成式Agent的架构如图所示,包含以下主要组件:

  • 记忆流:存储Agent的经历和记忆。
  • 反思:分析和总结过去的行为和经验。
  • 规划:根据记忆和反思生成新的行为策略。

应用示例:

2023年4月,斯坦福大学和谷歌的研究者共同创建了虚拟小镇Smallville,开启了生成式Agent的研究之路。小镇里的25个AI Agent每天都在进行散步、约会、聊天、用餐以及分享新闻等活动。这些生成式Agent拥有自己的记忆和目标,不仅与人类交往,还与其他机器人互动,类似于美剧《西部世界》中的人形机器人和《失控玩家》中的智能NPC。

特点:

  • 生成和创造能力:生成式Agent能够根据环境和目标自主生成、构建和优化各种智能内容或行为策略。
  • 核心能力:自主学习和优化,通过深度学习、强化学习和进化计算等技术,从数据或环境反馈中学习和改进。

典型应用:

  • 智能内容创作
  • 药物设计
  • 自动编程

🦋2.3 自主Agent和生成式Agent的结合

自主Agent和生成式Agent代表了人工智能在行动和创造两个维度的延伸与拓展。未来,这两类智能Agent将进一步融合,形成更加全面、灵活的Agent形态,在更广阔的应用领域发挥重要作用。

🦋2.4 延伸:自动化与拟人化成为AI Agent的两大应用方向

结合目前学术界和产业界基于LLM开发的AI Agent的应用情况,AI Agent可以分为两大类:自主Agent和Agent模拟。

自主Agent:

  • 目标:实现复杂流程自动化。
  • 特点:能够自行创建任务、完成任务、创建新任务、重新确定不同任务的优先级,并不断重复这个过程,直到完成目标。对准确度要求高,因此更需要外部工具辅助来减少LLM的不确定性。

Agent模拟:

  • 目标:拟人可信。
  • 特点:分为强调情感、情商的Agent和强调交互的Agent,后者通常在多Agent环境中,可能会涌现出超越设计者规划的场景和能力。LLM生成的不确定性反而成为其优势,多样性使其有望成为AIGC的重要组成部分。

两种智能体的主要区别:

如图所示,自主Agent和Agent模拟分别侧重于自动化和拟人化。两大方向并不是割裂的,自动化与拟人化将作为AI Agent的两大核心能力并行发展。随着底层模型的不断成熟以及行业探索的逐渐深入,有望进一步扩大AI Agent的适用范围,提升其实用性。

🔎3.根据 Agent 数量与协作能力划分

单Agent已经非常强大,但为了更好地发挥Agent的特性并解决单Agent存在的一些问题,出现了能够彼此通信、相互合作并扮演各种角色的多Agent系统。从Agent系统的数量、实际部署及协作应用角度,Agent可以分为单Agent系统与多Agent系统。复日大学NLP团队在论文《The Rise and Potential of Large Language Model Based Agents: A Survey》中将AI Agent分为三类,分别是单Agent系统、多Agent系统和人类与Agent的交互。

🦋3.1 单Agent系统

定义:

单Agent系统是指由单个Agent组成的系统,这个Agent在特定环境中独立运作,执行任务或做出决策。单Agent的行为和决策仅依赖于自身,而非其他个体。

特点:

  • 独立运作:单个Agent根据自身的感知、规划和决策,独立完成任务。
  • 决策方式:Agent通过感知环境、制定计划并执行行动来完成任务。

应用:

  • AutoGPT等系统属于单Agent系统。
  • 部署形式:在实际应用中,单Agent系统可以根据不同的需求,分为三种形式:
    • 任务导向型部署:聚焦于完成特定的任务。
    • 创新导向型部署:侧重于推动新的想法或创新。
    • 生命周期导向型部署:从系统的创建、执行到管理的全过程。

应用领域:

单Agent系统广泛应用于个人助手、自动化工具、在线客服等领域。这些系统通常需要执行明确的任务,并且能够高效地提供解决方案。

🦋3.2 多Agent系统

定义:

多Agent系统是由多个相互作用的Agent组成的系统。这些Agent在一定程度上是自治的,能够与其他Agent进行通信与协作,以解决复杂问题。

特点:

  • 自治与协作:各个Agent在系统中可以独立运作,也能与其他Agent进行通信、协作、甚至竞争。
  • 交互方式:
    • 合作性交互:多个Agent通过合作来共同解决问题,提升系统整体效能。
    • 对抗性交互:不同的Agent之间可能存在竞争或冲突,以达成各自的目标。

应用领域:

多Agent系统在多个领域中具有广泛应用,包括但不限于:

  • 供应链管理
  • 智能交通系统
  • 机器人协作
  • 经济模型
  • 社交网络分析等

目标:

多Agent系统的目标是将复杂的大系统拆解成多个小系统,这些小系统之间能够相互通信和协调,从而提高整个系统的管理和效率。

知名框架:

  • BabyAGI
  • CAMEL
  • MetaGPT

这些框架代表了当前在多Agent系统领域中的一些发展方向,它们通过多个Agent之间的协作和互动,实现了更为复杂和高效的任务执行。

🦋3.3 人类与Agent的交互

这一类别的交互模式分为两种:

  1. 指导者-执行者范式:
    • 在这一模式中,人类提供指导或反馈,Agent充当执行者角色。人类的反馈和指令直接影响Agent的行为,Agent在执行过程中根据指令和任务需求做出调整。
  2. 平等伙伴关系范式:
    • 在这种模式下,Agent像人类一样,能够与人类进行移情对话,并参与非合作任务。Agent不仅执行任务,还能与人类进行更为深层的情感交流和互动。

多Agent与人类交互:

  • 多Agent交互和人类与Agent的交互都涉及多Agent系统。多Agent系统不仅包括Agent之间的相互合作与竞争,还包括Agent与人类之间的互动与沟通。通过这种交互,系统能够更加高效、智能地完成复杂任务。

🔎4.根据业务流程复杂程度划分

根据任务处理的复杂程度,AI Agent可以分为两大类:行动类Agent和规划执行类Agent。这两类Agent分别适用于不同类型的任务处理,并有各自的特点和应用。

🦋4.1 行动类 Agent

定义:

行动类Agent主要负责执行简单、直接的任务。这类Agent通常是通过调用API或执行简单的操作来完成任务,如检索天气信息、查询股市数据等。

特点:

  • 任务简单直接:这些Agent的设计目的是快速响应输入,并直接输出结果。
  • 优先考虑效率:行动类Agent的优先级是快速处理任务,而非进行复杂的推理和符号操作。
  • 低计算资源需求:由于任务简单,这类Agent通常对计算资源的需求较低,因此能做出更快速的反应。

应用实例:

例如,通过调用API来获取天气信息,或使用语音助手执行简单命令(如设置闹钟、播放音乐等)。

🦋4.2 规划执行类 Agent

定义:

规划执行类Agent首先会制定一个包含多个操作步骤的计划任务,然后按照一定的顺序逐步执行这些操作。这种Agent适合用于处理复杂的任务,需要对任务进行多层次的规划和执行。

特点:

  • 任务规划与执行:这类Agent能够根据预定的计划步骤执行复杂任务。
  • 高复杂度任务:如AutoGPT、BabyAGI、GPTEngineer等,这些都是规划执行类Agent的典型例子。
  • 两个重要机制:
    • 反思与完善:设置自我反思机制,Agent可以自我批评并根据已有的错误和信息源对任务进行完善和优化。
    • 长期记忆:Agent通过外部的向量存储和快速检索机制,能够存储并调用大量的长期信息,而不仅仅依赖短期记忆。这使得Agent能够在处理长期任务时表现得更为智能和高效。

应用实例:

例如,在多步骤的任务中,Agent会制定一个长期计划,然后依次执行任务。它还会根据执行过程中获得的反馈,不断调整和优化其计划。

🔎5.根据功能、任务与应用场景划分

根据Agent的功能、任务和应用场景,AI Agent可以进一步划分为以下几类,每类Agent都有其特定的应用领域和任务目标。

🦋5.1 对话 Agent

  • 任务型对话 Agent:完成特定领域的任务,如客服、订票、点餐等。
  • 开放域对话 Agent:进行开放性话题的聊天,提供陪伴、娱乐等功能。
  • 知识问答 Agent:根据用户问题进行检索、推理和回答。

🦋5.2 智能助理 Agent

  • 个人助理 Agent:协助用户完成日程管理、邮件处理、信息检索等任务。
  • 工作助理 Agent:帮助专业人士进行数据分析、报告撰写、决策支持等。
  • 教育助理 Agent:为学生提供个性化学习指导、作业辅导等服务。

🦋5.3 推荐 Agent

  • 商品推荐 Agent:根据用户偏好、历史行为推荐商品或服务。
  • 内容推荐 Agent:根据用户兴趣推荐文章、视频、音乐等内容。
  • 社交推荐 Agent:推荐好友、社交活动、兴趣组等。

🦋5.4 自动化 Agent

  • 工业自动化 Agent:对生产线、设备等进行监控、调度、优化控制。
  • 办公自动化 Agent:完成文档处理、流程审批、信息录入等办公任务。
  • 家庭自动化 Agent:控制家电、安防、能源管理等智能家居设备。

🦋5.5 决策支持 Agent

  • 金融决策 Agent:进行投资分析、风险评估、交易执行等。
  • 医疗决策 Agent:辅助诊断、治疗方案制定、药物推荐等。
  • 企业决策 Agent:支持市场分析、战略规划、资源调度等决策。

🦋5.6 仿真 Agent

  • 游戏角色 Agent:扮演游戏中的虚拟角色,提供智能对战、互动体验。
  • 虚拟人/数字人 Agent:模拟现实人物,进行人机交互、创作表演等。
  • 群体仿真 Agent:模拟社会群体行为,进行政策分析、效果预测等。

🦋5.7 感知与交互 Agent

  • 计算机视觉 Agent:对图像和视频进行分析、识别、理解等。
  • 语音交互 Agent:进行语音识别语音合成、声纹认证等。
  • 体感交互 Agent:捕捉和理解人体姿态、手势、表情等信号。

🦋5.8 执行 Agent

  • 机器人控制 Agent:对物理机器人进行感知、规划、控制。
  • 无人系统 Agent:对无人车、无人机等进行自主导航、任务执行。
  • 智能硬件 Agent:对可穿戴设备、智能家电等进行控制和优化。

🦋5.9 安全 Agent

  • 网络安全 Agent:进行异常检测、威胁分析、攻击溯源等,维护网络安全。
  • 身份认证 Agent:通过生物特征、行为模式等进行用户身份验证
  • 隐私保护 Agent:对敏感数据进行脱敏、加密,防止隐私泄露。

🦋5.10 协作 Agent

  • 物流调度 Agent:协同优化仓储、配送、运输等物流环节。
  • 供应链协同 Agent:促进供应商、生产商、零售商等协同运作。
  • 跨组织协同 Agent:支持不同企业、机构之间的业务协同与资源共享。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档