部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AGI-Eval行业动态 NO.6】Manus爆火48小时:一场关于AI未来的“乐观”与“警惕”

【AGI-Eval行业动态 NO.6】Manus爆火48小时:一场关于AI未来的“乐观”与“警惕”

原创
作者头像
AGI-Eval评测社区
发布于 2025-03-24 02:26:22
发布于 2025-03-24 02:26:22
1340
举报

前言:Manus 的火出圈后,没有第一时间进行文章撰写,没有真实的实测还难以下定论,但最近随着我们和上海交大联合开发的 DPT-Agent 框架开源后,我们对这个话题有了新的一些认知和想法,今天也和大家一起来深度进入 Manus 爆火的分析中。

图片
图片

目录:

01 Manus爆火分析

   1.1自主执行与多模型协同系统

   1.2演示视频冲击力强

   1.3话题制造与热度传播

02 Manus 回放解析

   2.1成功案例

   2.2翻车案例

   2.3目前不足

03  Agent 的平替产品

   3.1 OWL 

   3.2 OpenManus

   3.3 OpenHands

   3.4 DPT-Agent

04 关于评测的思考

3月11日,Manus 公开基础大模型技术细节并宣布与阿里合作:其基础大模型架构结合了Claude 3.5 Sonnet v1 和阿里千问的微调版本

阿里与 Manus 双方将基于通义千问系列的开源模型展开深度合作,将推出 Manus 中文版,目标是在国产模型和算力平台上实现 Manus 的全部功能。

图片
图片

Manus 在其官方微博宣布与阿里通义千问团队合作

01. Manus 爆火背后

倒推 Manus 的自带流量的认知,还得从3月6日谈起。3月6日凌晨 Monica 团队推出号称全球第一款通用 Agent 产品——Manus,回放视频和自媒体自来水的宣传让这个 Agent 破圈了,#Manus 为何一夜爆火也冲上热搜榜单。

图片
图片

1.1 有记忆点的 Pattern

Manus 实际是什么可能很多观众还不是很了解,所以热搜词条 #Manus 会是下一个 DeepSeek吗?冲上榜单。

图片
图片

Manus 并不是一个大模型,而是一个通用 AI 智能体,它的核心功能由多个独立的 AI 模型共同完成,每个模型专注于不同任务或领域,如自然语言处理数据分析、推理等,协同工作以处理更复杂多样的任务。

它更像是一个多 Workflow 组成的产品,根据输入指令调用不同的模型完成指令,如果单这样不足够以支撑 Manus 破圈。

但 Manus 找到了一个显性化的 Pattern,Manus 同 DeepSeek 一样,外显展示了其工作流或者 COT 链,只是 Manus 是通过电脑屏幕展示应用工作,用户能直观看到 AI 一步步拆解和执行任务,加强对产品能力的认知。

图片
图片

1.2 演示视频冲击力强

与 Manus 同时受到关注的还有一个 4 分钟的演示视频,在演示案例中,Manus 自主完成了从规划到执行的整个过程,展示了真正的代理能力。

Manus 更多依靠背后的大模型能力,通过“套壳”技术,灵活调用多个大模型和 Agent 的能力,做到了 AGI 定义的 Level 3 级别,第三级的人工智能系统能够代表用户与环境交互,具备更高的自主性和决策能力。

它们能够在特定领域或任务中自主执行任务,根据环境的反馈调整策略,最终完成目标,而不仅仅是执行预设的指令。

图片
图片

1.3 话题制造与热度传播

“全华人班底”“性能远超 OpenAI 的同类产品” “国运级AI”“天才少年创始人”等话题点,也吸引了大量关注,将 Manus 的话题性拉满。

此外,官方对邀请码的限量发放、自媒体宣传造势,迅速扩大知名度,引发了用户的争抢,在二手平台上邀请码被炒至高价,进一步推高了产品热度,Manus 成为好奇心与稀缺性的叠加产物。

Manus 的团队在10点给各自媒体做了一场小型闭门产品展示,自媒体的宣传也加大了热度的发酵。

图片
图片

02.Manus回放分析

上面都是关于 Manus 热度分析,但 Manus 的效果如何呢?

Monica 官方公布的内容中,Manus 在 GAIA 基准测试的三个难度级别上都达到了新的最先进性能,实际效果可能需要从回放视频中一探究竟。

图片
图片

2.1 成功案例

测试1:写一本自定义主题的小说

Manus 在进行思考后,逐一执行每个步骤,左侧选框为思考和执行过程,右侧预览窗,Manus 自己查阅了相关资料后就开始写框架,短短几分钟就生成了 34 页的小说,具体文字的内容是否符合需求可能没办法直接分析到,但是生成的速度和能力还是值得认可。

图片
图片

测试2:英伟达财务估值Excel建模分析

Manus 这次按照要求的二级分析师定位,详细地进行财务估值并建模,最后得出的关于英伟达的财务报告,报告的样式展示符合一个分析报告的需求。

图片
图片

测试3:开发谷歌CEO模拟游戏

这个测试包含了代表编写、游戏策略制定、前端布局等指令,但 Manus 却能在一个简单的 Prompt 中分析出所有的指令要求,最后呈现出的游戏也是相当不错。

图片
图片

2.2 翻车案例

对京东的商品数据进行Excel分析

某博主测试数据爬取和分析工作,这个算是很基础的工作。虽然 Prompt 还有缺陷,没有具体到行业板块,也没有时间范围限制,但是 Manus 在执行的过程中却没有明确提醒该博主,还像模像样地给出了最后的数据分析表格,要不是博主眼尖,那么就被蒙混过关了。

图片
图片
图片
图片

该测试来自于博主【追风少女晴岚】

2.3目前不足

基于上面的案例表现 Manus 表现还是较为稳定,但仍存在不足。

交互能力有限:

在实测视频中,我们可以看到 Manus 更像是回合制协作,用户输入一个指令后,Manus 进行规划,列出自己需要完成的任务,并逐步完成。用户只能在 Manus 完成任务的过程中等待,无法修改 Manus 的计划,也无法和 Manus 实时交流,直到 Manus 完成计划才能开始新的交互。

但我们与同伴协作完成任务的过程并不是回合制互动的,人与人之间存在着更多频繁的互动交流,外界环境状态的改变需要 Agent 有即时反应能力,Manus 的交互形式目前仍然无法解决对人类的实时响应问题

外界获取渠道有限:

Manus 虽然取得了比 OpenAI 更好的基准测试成绩,但广义上的通用 AI 智能体不能仅限于完成某些特定种类的任务,而是要尽可能得在众众多各类测试中获得良好的反响——而由于受邀测试者非常有限,因此外界无法获得 Manus AI 是否“通用”的更多信息

Manus 当前运行环境仍然在官方调试的虚拟系统之中,而用户使用则需要用到云端访问,而非自己的电脑,或者广义的Windows、安卓或者 iOS 系统,正是因此,Manus 究竟能否在通用环境中流畅运行各种任务让人生疑。

Manus 的邀请码机制虽是系统容量的无奈,但这种方式所造成的破圈,与互联网初期的产品营销模式有着相同注脚。

图片
图片

Manus官方账号对于邀请码的说明

尚未有技术突破:

Manus 这种“大模型主干+多个小模型组件”的架构技术难度并不大,具有高度的可复制性。推出不到3小时就有人复现成功,同时在 GAIA 基准测试中,Manus 宣称“超越 Open AI ”,但尚未公布明确的测试细节和数据集。

Manus 底层逻辑还是需借助背后大模型的能力完成指令输出,很大程度受限于接入的模型的能力,Manus可能在工程框架上做到了创新,但是技术上并没有完成突破。Browser Use 官方评价道:“事实证明,Manus 只是另一个 Devin 包装器。”

图片
图片

海外社交媒体有关 Manus 的讨论,虽受到一些关注,但讨论度不像之前 DeepSeek 那般火爆。

图片
图片

全球最大 AI Newsletter 的缔造者对Manus的评价

03. Agent 的平替产品

Manus实际如何可能还需要等团队公测才可以深度分析了,虽然买不起天价邀请码,但 Manus 的“平替”我们也给大家整理了几个:

同时往期我们也写过 Open AI 推出的 AI Agent“Operator”,里面也有一些更多关于 Agent 的信息和思考,可以跳转查看哦;

下期我们也会深入解析一下现在 Agent 行业的内容。关注我们可以及时获取最新资讯。

3.1 OWL 

OWL 是 CAMEL-AI 下的一个项目组,CAMEL-AI 之前开发过一套强大的跨平台操作系统的通用智能体——CRAB,本次 OWL 项目直接做到开源界 GAIA 性能天花板,达到了58.18%,超越 Huggingface 提出的 Open Deep Research 55.15%的表现。

GitHub地址:https://github.com/camel-ai/owl

图片
图片

3.2 OpenManus

OpenManus 是由 MetaGPT 社区的成员在短短3小时内开发完成的开源版Manus,与 Manus 在云端运行不同,OpenManus 直接在用户本地电脑上运行,让用户能够亲眼目睹 AI 代理如何操控自己的电脑完成各种任务。

而且 OpenManus 无需任何准入门槛,用户只需克隆代码、配置 LLM API 即可快速上手。项目基于 Python 开发,结构简单明了,支持通过终端输入任务来驱动智能体执行操作。

GitHub地址:https://github.com/mannaandpoem/OpenManus

图片
图片

需要提醒的是,目前 OpenManus 和 QWL 都没有可视化界面,OpenManus主要是通过命令行输入提示语交互,而 QWL 是通过在代码文件里面修改问题文本完成交互。

3.3 OpenHands

OpenHands作为Manus的开源平替,已经斩获了49K星!旨在通过人工智能技术帮助开发者完成代码编写、命令执行和网络操作等任务。

OpenHands提供强大的兼容性,支持任意大型语言模型(LLM),支持多智能体协作提高开发效率,减少开发者的编码工作量。并且提供了强大的交互机制、安全的沙箱环境、多代理协作能力及全面的评估框架,支持用户实现新代理的开发、安全的代码执行、多代理间的协调及在多种任务上的评估。

技术论文:https://arxiv.org/pdf/2407.16741

GitHub地址:https://github.com/All-Hands-AI/OpenHands

图片
图片

3.4  DPT-Agent

上海交大(共同第一作者为博士生张劭和王锡淮,导师为温颖副教授和张伟楠教授)与 AGI-Eval 评测社区开发的 DPT-Agent 框架和基于 Overcooked-AI 重新升级的 Overcooked Challenge 实时同步协作评估环境

DPT-Agent 使用的Overcooked Challenge 环境现已开源,支持 Act,ReAct,Reflexion,ReAct in DPT, Reflexion in DPT, DPT-Agent w/o ToM,DPT-Agent 多种框架下的模型评估。

GitHub地址:https://github.com/sjtu-marl/DPT-Agent

图片
图片

04. 关于评测的思考

随着 AI 行业不断的发展,更多像 Manus 这样的 AI Agent 会呈井喷式出现,应用评测的市场也会慢慢变得更加重要,现在的模型越来越多,我们上期也盘点了近期的模型动态,选择适合的模型去处理对应的实际场景会成为一个新的发展思路,现在我们社区也正在做这样的应用评测榜单,敬请期待!

同时AGI-Eval也创新性地提出了人机协作评测模式https://agi-eval.cn/llmArena/home。在这种模式下,参与者可以与最新的大模型共同完成任务,不就是和 Manus 这样人机交互的 Agent 趋同的一些思考吗。

图片
图片

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,记得关注我们!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.1 有记忆点的 Pattern
  • 1.2 演示视频冲击力强
  • 1.3 话题制造与热度传播
  • 2.1 成功案例
    • 测试1:写一本自定义主题的小说
    • 测试2:英伟达财务估值Excel建模分析
    • 测试3:开发谷歌CEO模拟游戏
    • 这个测试包含了代表编写、游戏策略制定、前端布局等指令,但 Manus 却能在一个简单的 Prompt 中分析出所有的指令要求,最后呈现出的游戏也是相当不错。
  • 2.2 翻车案例
    • 对京东的商品数据进行Excel分析
  • 2.3目前不足
    • 交互能力有限:
    • 外界获取渠道有限:
    • 尚未有技术突破:
  • 03. Agent 的平替产品
    • 3.1 OWL 
    • 3.2 OpenManus
    • 3.3 OpenHands
    • 3.4  DPT-Agent
  • 04. 关于评测的思考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档