前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >38%成功率就能掀起Agent时代?Operator到底行不行!

38%成功率就能掀起Agent时代?Operator到底行不行!

原创
作者头像
算法一只狗
发布于 2025-01-25 14:27:10
发布于 2025-01-25 14:27:10
1580
举报
文章被收录于专栏:算法一只狗算法一只狗

OpenAI也正式发布了自己的第一个智能体,被称为Operator。这个智能体能够像人类一样操作电脑,完成一些最基本的任务。它能够在浏览器页面中,给定一些需求然后帮助你完成相应的操作。

也就是它可以自己使用浏览器查询,查看网页并通过键入、点击和滚动与之交互。目前OpenAI发出的是预览版,仅提供给Pro用户(200美元一个月)进行使用,所以我这个普通的plus用户还没有资格体验到。

在官方演示的案例中,它能够自动填写表格内容、上网购物、创建相应的表情包、在浏览器中处理大部分重复性任务。

Operator到底是怎么工作的?

这一次发布的Operator,其使用了一个新模型叫computer-using agent(CUA)。CUA结合了GPT-4o的视觉能力和通过强化学习的高级推理,经过训练,可以与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。

Operator可以通过调用屏幕截图,看到当前的浏览器的信息,然后通过控制鼠标和键盘操作浏览器,使得能够在网络上进行查询和点击,从而有效完成任务。

它还有一个自我纠正的能力。比如在官方演示的过程当中,设定了一个任务:

让它订一张今晚7点在Beretta的两人位子。

接受到命令后,Operator会实例化指令,然后操作浏览器。

随后,Operator转到了搜索Beretta的URL。虽然OpenTable默认的地址是弗吉尼亚,但operator学会自动纠正为旧金山的地址。

CUA其背后的流程如下所示。本质上就是通过处理原始像素数据理解屏幕状态,同时利用鼠标和键盘执行相应的命令。能够执行多步骤任务,处理错误,并适应意外变化,使其能够在多种数字环境中运行,无需专门的 API 支持即可完成诸如填写表单、浏览网页等任务。

从图上看,它的输入包含了用户的命令输入和当前扫描到的屏幕状态信息。然后利用COT思维链的方式总结出需要执行的步骤,最后操作浏览器执行相应的步骤信息。

整体的工作流程像这样:

  • 感知(Perception):CUA 通过截取屏幕截图,将当前计算机状态的视觉快照纳入模型的上下文。

这些截图为其提供环境信息,使其能够实时了解任务进展。

  • 推理(Reasoning):利用链式思维(chain-of-thought),结合当前与过往的截图和操作步骤进行推理。这种“内部独白”帮助模型评估观察结果、追踪中间步骤,并动态调整操作策略,提高任务完成的准确性和灵活性。
  • 操作(Action):行点击、滚动、输入等操作,直到判断任务完成或需要用户进一步指令。对于敏感操作(如输入登录信息或处理 CAPTCHA),CUA 会寻求用户确认,确保安全性和隐私保护。

我们知道,传统的要执行这样步骤的操作,往往需要调用相关的API进行相应的命令。但是Operator通过结合 GPT-4o 的视觉能力和强化学习驱动的高级推理功能,为用户执行网页任务。其核心模型 CUA能够像人类一样与图形用户界面(GUI)交互,而无需依赖特定的操作系统或网页 API,从而实现灵活的数字任务处理。

它的优势在于,对于多模态能力的理解能够更加准确,同时在多项的基准测试中完成了令人惊讶的成绩。

比如在计算机使用(computer user)测试中,CUA 的成功率为 38.1%,远高于之前的最优方法 (22.0%)。而在浏览器使用(Browser Use)测试中,CUA 的成功率为 58.1%,相较于之前的最优方法 (36.2%) 提升显著。

但值得一体的是,OpenAI其实在对于CUA评估的时候,有测试过在浏览器模拟和操作系统模拟的成绩,说明OpenAI也做过操作系统的Agent,只是目前成绩只有38.1%,远远达不到可用的地步,所以目前还只是基于浏览器模拟的方法给用户进行开放测试使用。

执行步数对Operator的成功率也有一定的影响。从下面图中可以看到,在10到100执行步数中,整体的测试成功率有一个比较明显的提高。从10%成功率提升到了38%。但是,与人类的 72.4% 成功率相比,仍存在较大改进空间。

另一方面,过大的执行步数需要消耗更多的时间,如果在实际使用过程中有时候步数过多会让人看着很烦。这个其实还有很大的优化空间,比如是不是可以针对一些常见的任务进行强化学习对其优化,然后进一步提升成功率的同时减少执行步数。

Agent时代到来?

OpenAI曾经把人工智能划分成5个等级,这5个等级表明了未来的AI发展的进展和方向。

  • 第一级别是chatbots,就是现有生成式大模型处于的阶段,能够与人类进行对话解决问题
  • 第二级别是推理者 Reasoners,具有一定的推理能力,能够解决人类水平的一些问题
  • 第三级别是智能体Agents,表明人工智能达到了一个整体系统,在系统中自主采取行为解决问题
  • 第四级别是创新者 Innovators。不依赖于人工,而是自身有创新思维
  • 第五级别是组织 Organizations,这已经达到或者超越人类水平,能够提升工作中的效率。

现阶段大模型的发展,已经触及到第二甚至是第三等级,能够在一定程度上解决我们日常生活中的问题。

对于OpenAI发布的这个Operator,标记着它正式迈入第三级别阶段。下一个目标,OpenAI还将扩展智能体的动作空间。接下来几周/几个月,我们还将会看到更多的智能体。

一些人认为 2025 年是智能体Agent的元年,很多公司也在2025年开始押宝Agent开发。就我个人而言,未来的十年应该都是智能体发展的黄金年代。但是 仍然需要大量的工作,才能使得目前的Agent真的不只停留在体验阶段,而是能够在日常工作中帮助到我们。或许那时候才是真的把事情变得更有趣也说不定。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Operator到底是怎么工作的?
  • Agent时代到来?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档