最近一段时间,很多人都再讨论Agent这个话题。最主要的原因在于,前段时间号称全球首个通用Agent:Manus迅速走红
Manus在自媒体上迅速爆火起来,很多人都觉得超级智能体Agent终于要诞生了,这就像“iphone时刻”、“GPT时刻”一样。
但是Manus在走红的同时,又被突然打脸说是媒体炒作。大部分人都觉得是自媒体在过度炒作Manus。
与此同时,openai也自己发布了agent api,让人人都能够自己构建一个属于自己的Agent
Agent字面意义:直译的意思,其实就是代理
这个词本身确实会让人产生误解,更准确的翻译其实是“智能体”
我们常用的LLM大模型的回复,日常只能够闲聊和问答一些问题。
如果设定一些比较复杂的任务,跟外界有交互的任务的时候,那么LLM其实是没有办法给你执行的。比如
因此,Agent的真正核心概念:能够让AI真正的脱离人类的指导,能够真正实现自主完成任务。
要构成一个超级Agent,需要有三大能力:
1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。
2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等
一开始,研究人员发现,大模型很多时候张口就来,很多的题目都存在幻觉。
比如最著名的那道数学题目:
例如GPT-3.5,他就认为9.11大:
拿Gemini来问问,好家伙,不假思索的直接认为9.11大
再看看Claude 3.5 Sonnet,给出了自己的推理,但是一看答案又开始犯困了,直接认为9.11更大。
于是就有了让大模型思考,再回答的逻辑。让模型再回答之前,先主动拆解一下问题,一步一步进行回答。这时候需要引入一个思维链COT,来让模型深度思考问题,再给出正常的答案。这个过程其实就是类似于人类的思考过程。
而这就有了o1推理大模型的出现。这类模型的推理能力使得数学任务、代码任务的完成效果直线提升。
基础调用方式:本质上各种各样的集成好的API
更标准的方式——MCP协议(模型上下文协议):anthropic在去年11月发布了mcp协议。主要目的
原本大模型在调用API的时候,类似于需要一个工具配一把钥匙和锁。
MCP则要求所有人都按照某个规格来做接口。大家只需要依赖于这个标准,就能做出统一的接口。不需要没把锁配一把要钥匙
Manus爆火之后,MetaGPT团队3小时就复刻了Manus,开源了OpenManus项目
这个项目人人都能够使用,而且能够使用相应的Agent实现一些简单的任务。比如我这里实现一个写作任务:
又或者让它实现一个”马斯克吐槽论坛“:
Agent的发展正在迅速演进,从基础的LLM聊天问答,到具备感知、规划、行动能力的智能体,甚至是能够自主执行复杂任务的超级智能体。虽然Manus的爆红带来了一定的炒作成分,但它确实让更多人关注到Agent的潜力,也推动了Agent技术的加速发展。
2025年被称为Agent元年,标志着智能体技术迈入新的阶段。从Manus的爆红到OpenAI的Agent API发布,再到开源社区的快速复刻与创新,Agent正在成为AI发展的新趋势。未来,Agent不仅会在写作、编程、自动化任务等领域发挥作用,还可能彻底改变我们的工作方式,甚至成为我们生活的一部分。Agent时代才刚刚开始,谁能率先掌握这项技术,谁就能在AI变革中占据先机。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。