前言:Manus 的火出圈后,没有第一时间进行文章撰写,没有真实的实测还难以下定论,但最近随着我们和上海交大联合开发的 DPT-Agent 框架开源后,我们对这个话题有了新的一些认知和想法,今天也和大家一起来深度进入 Manus 爆火的分析中。
目录:
01 Manus爆火分析
1.1自主执行与多模型协同系统
1.2演示视频冲击力强
1.3话题制造与热度传播
02 Manus 回放解析
2.1成功案例
2.2翻车案例
2.3目前不足
03 Agent 的平替产品
3.1 OWL
3.2 OpenManus
3.3 OpenHands
3.4 DPT-Agent
04 关于评测的思考
3月11日,Manus 公开基础大模型技术细节并宣布与阿里合作:其基础大模型架构结合了Claude 3.5 Sonnet v1 和阿里千问的微调版本。
阿里与 Manus 双方将基于通义千问系列的开源模型展开深度合作,将推出 Manus 中文版,目标是在国产模型和算力平台上实现 Manus 的全部功能。
Manus 在其官方微博宣布与阿里通义千问团队合作
01. Manus 爆火背后
倒推 Manus 的自带流量的认知,还得从3月6日谈起。3月6日凌晨 Monica 团队推出号称全球第一款通用 Agent 产品——Manus,回放视频和自媒体自来水的宣传让这个 Agent 破圈了,#Manus 为何一夜爆火也冲上热搜榜单。
Manus 实际是什么可能很多观众还不是很了解,所以热搜词条 #Manus 会是下一个 DeepSeek吗?冲上榜单。
Manus 并不是一个大模型,而是一个通用 AI 智能体,它的核心功能由多个独立的 AI 模型共同完成,每个模型专注于不同任务或领域,如自然语言处理、数据分析、推理等,协同工作以处理更复杂多样的任务。
它更像是一个多 Workflow 组成的产品,根据输入指令调用不同的模型完成指令,如果单这样不足够以支撑 Manus 破圈。
但 Manus 找到了一个显性化的 Pattern,Manus 同 DeepSeek 一样,外显展示了其工作流或者 COT 链,只是 Manus 是通过电脑屏幕展示应用工作,用户能直观看到 AI 一步步拆解和执行任务,加强对产品能力的认知。
与 Manus 同时受到关注的还有一个 4 分钟的演示视频,在演示案例中,Manus 自主完成了从规划到执行的整个过程,展示了真正的代理能力。
Manus 更多依靠背后的大模型能力,通过“套壳”技术,灵活调用多个大模型和 Agent 的能力,做到了 AGI 定义的 Level 3 级别,第三级的人工智能系统能够代表用户与环境交互,具备更高的自主性和决策能力。
它们能够在特定领域或任务中自主执行任务,根据环境的反馈调整策略,最终完成目标,而不仅仅是执行预设的指令。
“全华人班底”“性能远超 OpenAI 的同类产品” “国运级AI”“天才少年创始人”等话题点,也吸引了大量关注,将 Manus 的话题性拉满。
此外,官方对邀请码的限量发放、自媒体宣传造势,迅速扩大知名度,引发了用户的争抢,在二手平台上邀请码被炒至高价,进一步推高了产品热度,Manus 成为好奇心与稀缺性的叠加产物。
Manus 的团队在10点给各自媒体做了一场小型闭门产品展示,自媒体的宣传也加大了热度的发酵。
02.Manus回放分析
上面都是关于 Manus 热度分析,但 Manus 的效果如何呢?
Monica 官方公布的内容中,Manus 在 GAIA 基准测试的三个难度级别上都达到了新的最先进性能,实际效果可能需要从回放视频中一探究竟。
Manus 在进行思考后,逐一执行每个步骤,左侧选框为思考和执行过程,右侧预览窗,Manus 自己查阅了相关资料后就开始写框架,短短几分钟就生成了 34 页的小说,具体文字的内容是否符合需求可能没办法直接分析到,但是生成的速度和能力还是值得认可。
Manus 这次按照要求的二级分析师定位,详细地进行财务估值并建模,最后得出的关于英伟达的财务报告,报告的样式展示符合一个分析报告的需求。
某博主测试数据爬取和分析工作,这个算是很基础的工作。虽然 Prompt 还有缺陷,没有具体到行业板块,也没有时间范围限制,但是 Manus 在执行的过程中却没有明确提醒该博主,还像模像样地给出了最后的数据分析表格,要不是博主眼尖,那么就被蒙混过关了。
该测试来自于博主【追风少女晴岚】
基于上面的案例表现 Manus 表现还是较为稳定,但仍存在不足。
在实测视频中,我们可以看到 Manus 更像是回合制协作,用户输入一个指令后,Manus 进行规划,列出自己需要完成的任务,并逐步完成。用户只能在 Manus 完成任务的过程中等待,无法修改 Manus 的计划,也无法和 Manus 实时交流,直到 Manus 完成计划才能开始新的交互。
但我们与同伴协作完成任务的过程并不是回合制互动的,人与人之间存在着更多频繁的互动交流,外界环境状态的改变需要 Agent 有即时反应能力,Manus 的交互形式目前仍然无法解决对人类的实时响应问题。
Manus 虽然取得了比 OpenAI 更好的基准测试成绩,但广义上的通用 AI 智能体不能仅限于完成某些特定种类的任务,而是要尽可能得在众众多各类测试中获得良好的反响——而由于受邀测试者非常有限,因此外界无法获得 Manus AI 是否“通用”的更多信息。
Manus 当前运行环境仍然在官方调试的虚拟系统之中,而用户使用则需要用到云端访问,而非自己的电脑,或者广义的Windows、安卓或者 iOS 系统,正是因此,Manus 究竟能否在通用环境中流畅运行各种任务让人生疑。
Manus 的邀请码机制虽是系统容量的无奈,但这种方式所造成的破圈,与互联网初期的产品营销模式有着相同注脚。
Manus官方账号对于邀请码的说明
Manus 这种“大模型主干+多个小模型组件”的架构技术难度并不大,具有高度的可复制性。推出不到3小时就有人复现成功,同时在 GAIA 基准测试中,Manus 宣称“超越 Open AI ”,但尚未公布明确的测试细节和数据集。
Manus 底层逻辑还是需借助背后大模型的能力完成指令输出,很大程度受限于接入的模型的能力,Manus可能在工程框架上做到了创新,但是技术上并没有完成突破。Browser Use 官方评价道:“事实证明,Manus 只是另一个 Devin 包装器。”
海外社交媒体有关 Manus 的讨论,虽受到一些关注,但讨论度不像之前 DeepSeek 那般火爆。
全球最大 AI Newsletter 的缔造者对Manus的评价
Manus实际如何可能还需要等团队公测才可以深度分析了,虽然买不起天价邀请码,但 Manus 的“平替”我们也给大家整理了几个:
同时往期我们也写过 Open AI 推出的 AI Agent“Operator”,里面也有一些更多关于 Agent 的信息和思考,可以跳转查看哦;
下期我们也会深入解析一下现在 Agent 行业的内容。关注我们可以及时获取最新资讯。
OWL 是 CAMEL-AI 下的一个项目组,CAMEL-AI 之前开发过一套强大的跨平台操作系统的通用智能体——CRAB,本次 OWL 项目直接做到开源界 GAIA 性能天花板,达到了58.18%,超越 Huggingface 提出的 Open Deep Research 55.15%的表现。
GitHub地址:https://github.com/camel-ai/owl
OpenManus 是由 MetaGPT 社区的成员在短短3小时内开发完成的开源版Manus,与 Manus 在云端运行不同,OpenManus 直接在用户本地电脑上运行,让用户能够亲眼目睹 AI 代理如何操控自己的电脑完成各种任务。
而且 OpenManus 无需任何准入门槛,用户只需克隆代码、配置 LLM API 即可快速上手。项目基于 Python 开发,结构简单明了,支持通过终端输入任务来驱动智能体执行操作。
GitHub地址:https://github.com/mannaandpoem/OpenManus
需要提醒的是,目前 OpenManus 和 QWL 都没有可视化界面,OpenManus主要是通过命令行输入提示语交互,而 QWL 是通过在代码文件里面修改问题文本完成交互。
OpenHands作为Manus的开源平替,已经斩获了49K星!旨在通过人工智能技术帮助开发者完成代码编写、命令执行和网络操作等任务。
OpenHands提供强大的兼容性,支持任意大型语言模型(LLM),支持多智能体协作提高开发效率,减少开发者的编码工作量。并且提供了强大的交互机制、安全的沙箱环境、多代理协作能力及全面的评估框架,支持用户实现新代理的开发、安全的代码执行、多代理间的协调及在多种任务上的评估。
技术论文:https://arxiv.org/pdf/2407.16741
GitHub地址:https://github.com/All-Hands-AI/OpenHands
上海交大(共同第一作者为博士生张劭和王锡淮,导师为温颖副教授和张伟楠教授)与 AGI-Eval 评测社区开发的 DPT-Agent 框架和基于 Overcooked-AI 重新升级的 Overcooked Challenge 实时同步协作评估环境。
DPT-Agent 使用的Overcooked Challenge 环境现已开源,支持 Act,ReAct,Reflexion,ReAct in DPT, Reflexion in DPT, DPT-Agent w/o ToM,DPT-Agent 多种框架下的模型评估。
GitHub地址:https://github.com/sjtu-marl/DPT-Agent
随着 AI 行业不断的发展,更多像 Manus 这样的 AI Agent 会呈井喷式出现,应用评测的市场也会慢慢变得更加重要,现在的模型越来越多,我们上期也盘点了近期的模型动态,选择适合的模型去处理对应的实际场景会成为一个新的发展思路,现在我们社区也正在做这样的应用评测榜单,敬请期待!
同时AGI-Eval也创新性地提出了人机协作评测模式https://agi-eval.cn/llmArena/home。在这种模式下,参与者可以与最新的大模型共同完成任务,不就是和 Manus 这样人机交互的 Agent 趋同的一些思考吗。
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,记得关注我们!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有