Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全面超越 AutoGPT,面壁智能联合清华 NLP 实验室打造大模型“超级英雄”—— XAgent

全面超越 AutoGPT,面壁智能联合清华 NLP 实验室打造大模型“超级英雄”—— XAgent

作者头像
AI科技评论
发布于 2023-10-24 06:42:51
发布于 2023-10-24 06:42:51
1.5K0
举报
文章被收录于专栏:AI科技评论AI科技评论

近日,国内领先的人工智能大模型公司 面壁智能 又放大招,联合 清华大学NLP 实验室 共同研发并推出 大模型 “超级英雄”——XAgent。通过任务测试,XAgent在真实复杂任务的处理能力已全面超越AutoGPT。

XAgent在真实复杂任务处理中全面超越AutoGPT

现已在 GitHub 正式开源,地址:🔗 https://github.com/OpenBMB/XAgent

案例展示地址:🔗 https://x-agent.net/

博客地址:🔗 https://blog.x-agent.net

1

XAgent 何许“人”也?

XAgent是一个可以实现自主解决复杂任务的全新AI智能体,以LLM为核心,能够理解人类指令、制定复杂计划并自主采取行动。 传统智能体通常受到人类定制规则的限制,只能在限定范围内解决问题。它们更像是为人类所用的“工具”,而不是真正的“自主智能体”,难以自主解决复杂问题。

相反,XAgent被赋予了 自主规划和决策 的能力,使它能够独立运行,发现新的策略和解决方案,不受人类预设的束缚。

它的能力已全面超越AutoGPT,在众多场景任务上展示出了惊人的自主性和复杂任务的求解能力,将AI智能体的智能水平提升到了一个全新高度。

那么问题又来了:它是如何实现的呢?

2

“左右脑”协同,双循环机制

正如人类具备“左脑”和“右脑”,在处理复杂任务时通常从“宏观”和“微观”两个视角进行考虑,既要针对全局进行统筹和规划,也要从执行层面来考量。

相较于 AutoGPT,面壁智能和清华大学在 XAgent 的设计中创新地引入了一种 “双循环机制”

  • 外循环:负责全局任务规划,将复杂任务分解为可操作的简单任务。
  • 内循环:负责局部任务执行,专注于细节。

通过双循环机制的协作,XAgent 如同大模型领域的“超级英雄”,它在应对复杂任务的不同环节时,展现出超强的专业度和丰富的技能。

就像漫威宇宙中的“美队”,XAgent 既有全局观的领导力,也有细致入微的执行力。

在外循环中,XAgent 展现出作为一个 “规划者”(PlanAgent)的领导力,它会把复杂任务拆分成若干简单任务,并监督问题解决的完整过程。

首先,它将给定的复杂任务分解成更小、更易管理的“子任务”,生成“初始规划”,形成任务序列。

随后,它将逐次把每个子任务传递给内循环解决。在这个过程中,外循环会不断监督任务的进度和状态,并根据反馈对后续规划进行“迭代优化”

在内循环中,XAgent 快速转变身份,展现出作为一个高效 “执行者”(ToolAgent)的专业度,确保外循环传递的子任务达到预期。

根据子任务性质的不同,它可以从外部系统中检索工具,并针对子任务进行一步步求解。

在子任务完成后,它将生成当前子任务执行过程的反思,反馈给外循环,指示当前任务是否完成,以及任务执行中的潜在优化点。

如图所示,用户给 XAgent 提交了 iris.zip 文件,让 XAgent 对数据进行分析。

可以看到,XAgent 首先通过外循环将这个任务分解成了 4 个子任务:

  1. 对数据进行检查与理解;
  2. 检查系统的Python环境,查看相关数据分析库是否存在;
  3. 编写数据分析代码,对数据进行处理与分析;
  4. 根据python代码执行结果撰写分析报告。

随后,在执行每一个子任务时,XAgent 通过内循环熟练地使用文件读写、 shell 命令、python notebook 及相应 pandas、sci-kit learn、seaborn、matplotlib 等数据分析库,甚至会对数据进行可视化分析。

AutoGPT 在执行相同任务时,并没有制定检查 python 环境与相关库的规划,而是直接开始写代码执行,导致使用相关库时失败报错,最终也没有完成对数据的复杂分析。

3

人机协作:智能体交互新范式

虽然 AutoGPT 在一定程度上突破了传统 GPT 模型的局限性,但它仍然存在死循环、错误调用等执行出错的现象,需要人工干预才能解决。

而 XAgent 在设计之初就针对相关问题进行了考量,并引入了专为增强人机协作的交互机制:它可以自主与用户进行交互,并向人类发出干预和指导的请求。

对于一个智能体而言,“是否能够与人类协作”也是体现其智能程度的重要指标。

首先,XAgent 具备直观的界面,用户可以直接覆盖或修改它提出的建议,从而将AI效率与人类的直觉和专业知识有效结合。

其次,在面临陌生挑战的情况下,XAgent具备“向人类寻求帮助”能力,它会向用户征求实时反馈、建议或指导,确保即使在不确定的领域,智能体也能发挥出最佳作用。

这种交互范式,将 AI 的自主性与人类的智慧有机融合,展示了人与 XAgent 之间的全新的协作关系。

如图所示,用户想让 XAgent 帮忙推荐一些好吃的餐馆来和朋友聚会,但是却没有提供具体详细的信息。

这个时候 XAgent 可以意识到目前用户所提供的信息不够充足,难以进行推荐,于是向人类提出请求,询问用户的倾向地点、预算范围、口味喜好、有哪些忌口等等,在得到用户的反馈后从而提供了推荐的餐厅。

而 AutoGPT 则直接开始到网络上搜索餐馆信息进行推荐,最终推荐的结果地点不对,也没有考虑用户的预算,没有符合用户的需求。

4

高效通信语言,超强工具调用

无论“双循环”的运转机制,还是“人机协作”的交互能力,在 XAgent 的总体设计中,面壁智能和清华团队着重考虑的是智能体的稳定、高效和安全等核心特性。

结构化的通信方式 同样是建立强大、稳定智能体的重要因素之一。

XAgent 采用 Function Call 作为其内部的通信语言,具备结构化、标准化、统一化等优势。

  • 结构化:Function Call 具备清晰且严谨的格式,可以明确表述所需内容,从而最小化了潜在的错误。
  • 标准化:Function Call 可以将与外部工具的交互过程标准化,提供一种通用语言,使智能体具备使用和整合多种工具的能力,解决复杂任务。
  • 统一化:通过将信息摘要、任务规划、工具执行等所有环节转化为特定的 Function Call 形式,确保每个环节均以统一的方式进行处理,从而简化系统设计。

此外,工具调用也是评价 AI Agent 是否具备解决复杂问题的重要能力之一。

XAgent 在设计中原创了工具执行引擎 ToolServer,可以实现更安全、高效、可扩展的工具执行能力。

它在隔离的 Docker 环境中运行,确保工具执行不会危及主系统的稳定性或安全性。

这种设计带来多重好处:

  • 安全:在 Docker 容器内运行工具可以保护主系统免受潜在危害。
  • 高效:系统可以根据需求和使用模式启动、停止和重启节点,实现最佳资源使用。
  • 可扩展:方便管理代码,调试和扩展性更强。

ToolServer 的关键组件包括:ToolServerNode、ToolServerMonitor、ToolServerManager,在执行操作、节点检查、周期管理等方面提供强大的能力。

目前,XAgent 的 ToolSever 支持 FileSystemEnv、PythonNotoBook、WebEnv、ExecuteShell、RapidAPIEnv、AskHumanforHelp 等多种工具。

XAgent 不仅可以帮我们做一些简单的任务,它甚至可以帮助我们训练模型。

比如,用户希望能够对电影评论进行分析,判断一下大众对电影评价的好坏。这个时候 XAgent 会首先下载 imdb 数据集去训练一个 BERT 模型,并使用训练好的 BERT 模型对电影评论进行预测。

5

释放大模型潜力,全面超越AutoGPT

经过在一系列任务中的测试可以看到(如下图a、b所示),基于 GPT-4 的 XAgent 表现效果在所有基准测试中都超过了原始的 GPT-4,并全面超越了 AutoGPT。

这些任务需要 Agent 推理规划和使用外部工具的能力,包括:用搜索引擎回答问题的能力(FreshQA+HotpotQA)、Python 编程能力(MBPP)、数学推理能力(MATH)、交互式编程能力(InterCode)、具身推理能力(ALFWorld)、真实复杂任务等。

图a:XAgent在真实复杂任务处理中全面超越AutoGPT

图b:超越AutoGPTXAgent在六大AI Agent基准测试中全面领先GPT-4

可以看出,XAgent 的系统设计能够充分释放 GPT-4 的基础能力,并达到极高的测试效果和人类倾向(Human Preference)。

这不仅表明 XAgent 在需要推理规划的传统 AI 测试中表现出色,而且在处理复杂的实际指令时具有更高的性能。

6

AutoGPT拓展应用边界,坚实技术基础

AI Agent 的出现让整个行业看到了大模型技术的重要落地方向,无需进行复杂的 prompt 探索,就可以实现整套工作流的任务执行。

作为具有无限潜能的大模型“超级英雄”,XAgent 可以成为每一个普通的人的“个人助理”。它可以帮助我们规划日程,安排行程,管理生活和工作的时间和资源分配。

它还可以自主使用多种数据采集、处理和分析工具,全自动地完成对海量数据的分析并形成报告,帮助用户高效获取重要信息。

此外,XAgent 还能结合外部工具与自主规划算法,根据环境信息做出决策,以实现更高效和精确的任务执行。

XAgent 的研发团队是由来自面壁智能和清华大学 THUNLP 实验室的多位大模型领域的专家和学者组建。他们更像是大模型领域的“超级英雄”。

这一创新成果之所以能够成功推出,正是团队在长期的科研工作过程中构建了一系列前沿创新的大模型 Infra,坚实技术基础,拓展创新和研发的边界。

面壁智能联合清华大学 NLP 实验室、OpenBMB 开源社区打造了一个 “三位一体” 的大模型产学研生态布局,提出并发布了多个大模型工具使用框架和引擎:

  • Tool Learning:大模型工具学习范式,将专业工具与大模型的优势相融合,从而在问题解决方面达到更高的准确性、效率和自主性。
  • BMTools:大模型学习引擎,是让语言模型使用扩展工具的开源仓库,同时也是开源社区构建和共享工具平台。
  • ToolLLM,大模型工具学习框架,给大模型接入 16000+ 真实 API,让大模型可以通过调用外部工具以完成更复杂的用户指令任务。
  • WebCPM,中文领域首个支持联网搜索的模型框架,填补国产大模型该领域的空白,让大模型能像人类一样在网页上实时搜索答案,提高了 AIGC 的实时性和准确性。

XAgent 拓展了 AI 智能体在执行复杂任务中的能力上限,让我们看到大模型技术融入生产和生活的前沿趋势和无限潜力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【最全总结,建议收藏】一文看懂LLM / 智能体 / 工作流 和 MCP
长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态,日更精选技术文章。回复机器学习有惊喜资料。
Ai学习的老章
2025/06/08
7300
【最全总结,建议收藏】一文看懂LLM / 智能体 / 工作流 和 MCP
AutoGPT:自主完成任务工具
Auto-GPT 是一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“思想”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。
Dlimeng
2023/06/30
5910
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
汀丶人工智能
2024/07/05
3.5K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
5种大模型Agent模式
在大模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:
皮大大
2025/05/07
8330
清华版「AutoGPT」登GitHub热榜!复杂任务轻松搞定,还能自己训练模型
通过展示可以看到,XAgent在回答问题时会分条缕析,逐步给出回答,这是开发专门为其设计的双循环机制。
量子位
2023/10/25
6520
清华版「AutoGPT」登GitHub热榜!复杂任务轻松搞定,还能自己训练模型
AutoGPT:自动化GPT原理及应用实践
想象一下,生活在这样一个世界里,你有一个人工智能助手,它不仅能够理解你的需求,而且还能够与你一起学习与成长。人工智能已无缝融入我们工作、生活,并帮助我们有效完成各种目标。大模型技术的发展与应用,使以上想法成为现实。特别是ChatGPT等生成式对话模型的出现,极大改变了人们的生活与工作方式。
学习猿地
2023/05/19
3.7K0
成本2元开发游戏,最快3分钟完成!全程都是AI智能体“打工”,大模型加持的那种
家人们,OpenAI前脚刚发布自定义GPT,让人人都能搞开发;后脚国内一家大模型初创公司也搞了个产品,堪称重新定义开发——让AI智能体们协作起来!
量子位
2023/11/16
4080
成本2元开发游戏,最快3分钟完成!全程都是AI智能体“打工”,大模型加持的那种
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
2月1日,刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。
AI科技评论
2024/02/06
5890
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
基于大模型(LLM)的Agent 应用开发
目前,业界一般认为基于大模型的应用集中在两个方向上:RAG 和 Agent,无论哪一种应用,设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。随着开发人员开始创建日益复杂的LLM应用程序,开发流程不可避免地变得更加复杂。这种流程的潜在设计空间可能是巨大而复杂的,《如何构建基于大模型的App》一文给出了一种探索中的大模型应用开发基础框架,基本可以适用于RAG 和Agent。但是,对于面向Agent的大模型应用开发,有没有其独特之处呢?有没有聚焦于Agent的大模型应用开发框架呢?
半吊子全栈工匠
2023/10/23
6.5K0
基于大模型(LLM)的Agent 应用开发
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。
AI拉呱
2024/02/09
8120
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
所谓AI Agent就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等,都是这样的系统。然而,并不是所有的AI Agent都有很好的表现,其核心还是取决于LLM的水平。尽管LLM已经在许多NLP任务上取得进步,但它们作为代理完成实际任务的能力缺乏系统的评估。清华大学KEG与数据挖掘小组(就是发布ChatGLM模型)发布了一个最新大模型AI Agent能力评测数据集,对当前大模型作为AI Agent的能力做了综合测评,结果十分有趣。
技术人生黄勇
2024/07/19
3470
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
在当今科技迅猛发展的时代,人工智能(AI)已经渗透到我们日常生活的方方面面。从智能家居到自动驾驶汽车,AI技术的应用无处不在。而在这一广泛的应用背后,有一个关键的概念——AI Agent,它为这些智能系统的高效运作提供了基础支持。那么,究竟什么是AI Agent?它具备哪些独特的特征?又该如何准确定义这一概念呢?在本文中,我们将深入探讨AI Agent的基本概念、核心特征以及其在实际应用中的重要性。希望通过这篇文章,能够帮助您更好地理解和把握这一前沿科技领域的关键要素。
愚公搬代码
2025/03/10
3640
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
机器之心专栏 机器之心编辑部 大模型工具学习系统性综述 + 开源工具平台,清华、人大、北邮、UIUC、NYU、CMU 等联合发布。 近期,来自清华大学、中国人民大学、北京邮电大学、UIUC、NYU、CMU 等高校的研究人员联合知乎、面壁智能公司探索了基础模型调用外部工具的课题,联合发表了一篇 74 页的基础模型工具学习综述论文,并发布了开源工具学习平台。该团队提出了基础模型工具学习的概念,系统性地整理和阐述了其技术框架,同时展示了未来可能面临的机遇和挑战。这项研究对于了解基础模型工具学习的最新进展及其未
机器之心
2023/05/01
3070
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
媲美GPT-4!清华&&人大 | 提出IN3基准,大幅增强Agent系统交互能力
有些情况下,Agent给出的结果并不好,并不是说Agent能力不强,而是一开始下达命令的时候就有问题,例如问题本身就没有答案、问题描述模糊等。那么,如何才能让Agent主动引导用户表达自己的需求来实现满意的结果呢?
ShuYini
2024/02/22
3870
媲美GPT-4!清华&&人大 | 提出IN3基准,大幅增强Agent系统交互能力
AutoGPT
https://github.com/Significant-Gravitas/AutoGPT
阿超
2025/01/17
2440
一文带你揭密 AutoGPT 底层实现原理
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - AI Agents(AI 代理) ,本文将继续聚焦在针对 AutoGPT 的技术进行解析,使得大家能够了解 AutoGPT 底层实现机制以便更好地对其进行应用及市场开发。
Luga Lee
2024/01/10
5K0
一文带你揭密 AutoGPT 底层实现原理
AI Agent智能应用从0到1定制开发(已完结12章)
随着大语言模型(LLM)在23年的快速发展,大模型逐步收敛为以闭源为代表的ChatGPT和以开源为代表的Llama2。
小企鹅204415010
2024/04/18
5050
拥有自我意识的AI:AutoGPT | 得物技术
ChatGPT在当下已经风靡一时,作为自然语言处理模型的佼佼者,ChatGPT的优势在于其能够生成流畅、连贯的对话,同时还能够理解上下文并根据上下文进行回答。针对不同的应用场景可以进行快速定制,例如,在客服、教育、娱乐等领域中,ChatGPT可以作为智能助手为用户提供便捷的服务和娱乐体验。
得物技术
2023/05/25
5910
拥有自我意识的AI:AutoGPT | 得物技术
面壁智能:GPT-4o,我是你的破壁人
面壁智能最近发布了很吊很炸裂的端侧全模态大模型,看演示视频功能很强大,并且支持看图说话、听音说话以及超拟人情感对话支持,参数只有8B!!!
AIGC新知
2025/01/17
1980
面壁智能:GPT-4o,我是你的破壁人
AutoGPT:自主人工智能AutoGPT如何实现设定目标
OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。近日,AI 界貌似出现了一种新的趋势:自主人工智能。这不是空穴来风,最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉前 AI 总监、刚刚回归 OpenAI 的 Andrej Karpathy 也为其大力宣传,并在推特赞扬:「AutoGPT 是 prompt 工程的下一个前沿。」
Freedom123
2024/03/29
2040
AutoGPT:自主人工智能AutoGPT如何实现设定目标
推荐阅读
相关推荐
【最全总结,建议收藏】一文看懂LLM / 智能体 / 工作流 和 MCP
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档