首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI Agent:定义、演进、应用落地与商业价值全面剖析-笔记

自大语言模型横空出世以来,AI Agent的热度持续攀升,被视为通向AGI(通用人工智能)的一条可行路径。我个人在使用GPT等AI产品时,不仅享受着它们在日常任务处理中的便捷,如辅助信息收集、验证新产品PMF(产品市场契合度)的可行性,同时也在不断探寻解决现存问题的途径。

如何使Agent能够可控、准确且高效地应对复杂任务?如何让它自动分解任务目标,并精准调动其他Agent协同处理分解后的子任务?如何构建更加科学合理的多Agent产品架构?正是这些疑问,促使我萌生了撰写这篇笔记的目的。通过理论与实践相结合的方式,我想尽可能的对Agent形成一个更为系统的认知,提炼出一套搭建Agent的方法论,并将这一过程分享给大家,作为学习交流的参考。

你或许好奇,Agent究竟是什么?它与大模型又有何区别?以及它能够帮助我们做什么?

从传统软件到大模型应用,再到Agent的演进历程,我们不难发现,传统软件如B站、微信或主机游戏《黑悟空》等,其功能均在限定的场景内,通过预设的程序规则和代码逻辑自动执行任务。例如,在B站搜索输入框中,明确要求输入文本内容,一旦输入“Agent”,应用程序便会遵循既定的处理规则,匹配全网视频标题描述,结合播放量、点赞数、评论数等数据,对搜索结果进行综合排序,最终以视频列表的形式呈现给用户。

而大语言模型应用,如ChatGPT、Claude、Kimi等,则模仿人类大脑,经由海量数据训练而成。在使用时,模型往往无法预知用户会输入何种内容,可能是文本、表格、图片,亦或是视频、音频。模型对信息的处理过程和输出结果同样充满不确定性,但正是这种不确定性赋予了模型创造力和生存能力,使其在一定程度上超越了基于规则的程序,向人类的方向迈进了一步。我们在使用ChatGPT时,通常会有这样的感受:输入一个任务后,模型即刻给出答案,但答案可能与我们的期望有所偏差。此时,我们需要调整指令,再次发送给ChatGPT,如此反复,直至得到满意的结果。这一过程,便是我们常说的“Prompt Engineering”(提示词工程),它考验的是使用者的提问能力和需求表达能力。

然而,要让大语言模型的输出质量更上一层楼,还会面临以下几个挑战:

数据时效性不足:模型训练数据具有时效性,如ChatGPT-4的训练数据截止至23年10月,因此无法提供该时间点之后发生事件的最新信息和见解。

缺乏垂直领域知识:大模型虽在广泛数据集上训练,具备泛化能力,但在医学、法律或金融等垂直领域,其分析和建议难以媲美领域专家。

上下文长度限制:在处理长文本时,大模型易丢失上下文,导致生成内容不连贯或前后矛盾。

为解决大语言模型自身的局限,更好地实现商业化落地,我们迎来了Agent时代。23年6月,OpenAI研究员在其博客上发表了一篇题为《基于大语言模型驱动的自主代理》的文章,引起了广泛关注。

那么,Agent究竟是什么呢?目前,中文里常将Agent称为“智能体”,但我更倾向于称为“代理”。它是代替人类处理任务的AI程序。以智能汽车为例,智能汽车集自动驾驶、自动泊车、语音控制等功能于一身,整体好比一个Agent。它具备与外界交互和执行任务的能力,而汽车引擎——即核心部件,是提供速度和强大动力的核心单元模型或多模态模型,如同引擎之于汽车,是Agent的智能大脑,负责理解和处理复杂指令。

当然,汽车除了引擎,还有轮胎、转向系统、刹车传感器等。要构建能够处理复杂任务的Agent,不仅需要依赖语言模型,还需数据的感知收集、外部工具的调用、决策制定、任务规划等其他组件的协同作用。如此看来,Agent就像是大模型的外挂,用于弥补和增强模型所不具备的能力。

通过对比案例,我们或许能更直观地感受Agent的魅力。如前所述,大语言模型的交互过程通常是:用户输入任务,大语言模型直接输出,用户根据输出内容评判,再次输入指令给大模型处理,如此反复直至满意。而AI Agent的交互过程则截然不同:用户输入任务后,Agent自动将任务拆分成多个子任务,并判断优先执行顺序。在处理过程中,Agent会根据任务需求,选择性地调用外部工具辅助处理。处理完成后,Agent还会进行反思和评估,优化执行策略以应对下一个任务。所有任务完成后,Agent再汇总输出最终结果给用户。因此,一个优秀的Agent输出的内容就是一个完整的任务解决方案。

吴恩达教授团队围绕编程问题对大语言模型和Agent进行了对比实验,发现GPT3.5和GPT4的输出准确性分别为48%和67%,而采用Agent架构的模型输出质量更高,准确率接近95%。

所以我总结一下Agent相比大语言模型有几个显著的特点:

第一具备规划和决策能力,相比于大语言模型落子无悔的生存方式,agent更贴近于人类的思考方式,通过探索试错迭代,从而找到任务目标的最优启发。

第二具备记忆能力,摆脱大言语模型上下文的限制,agent能够记住用户的偏好和使用习惯,能够将上下文总结后存储在数据库中,使大语言模型能够更好地理解长文本和应对复杂对话。

第三具备调用工具的能力。agent的架构下能够帮助单元模型识别自身的能力边界,通过调用外部工具或者调用其他模型来解决对应的问题。

第四具备合作机制,能够通过协同多个模型或者多个agent的组合来实现复杂的工作流程,比如在制定产品战略的场景下,增长agent和商业化a卷,它们的作用可以类比为公司的投放运营团队和商业化团队,在用户规模和商业收入上进行多目标的博弈,最终让AI制定一个权衡两边诉求的产品障碍方略。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OirolMD0KUIzrgAgmFcRkfvQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券