OpenAI也正式发布了自己的第一个智能体,被称为Operator。这个智能体能够像人类一样操作电脑,完成一些最基本的任务。它能够在浏览器页面中,给定一些需求然后帮助你完成相应的操作。
也就是它可以自己使用浏览器查询,查看网页并通过键入、点击和滚动与之交互。目前OpenAI发出的是预览版,仅提供给Pro用户(200美元一个月)进行使用,所以我这个普通的plus用户还没有资格体验到。
在官方演示的案例中,它能够自动填写表格内容、上网购物、创建相应的表情包、在浏览器中处理大部分重复性任务。
这一次发布的Operator,其使用了一个新模型叫computer-using agent(CUA)。CUA结合了GPT-4o的视觉能力和通过强化学习的高级推理,经过训练,可以与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。
Operator可以通过调用屏幕截图,看到当前的浏览器的信息,然后通过控制鼠标和键盘操作浏览器,使得能够在网络上进行查询和点击,从而有效完成任务。
它还有一个自我纠正的能力。比如在官方演示的过程当中,设定了一个任务:
让它订一张今晚7点在Beretta的两人位子。
接受到命令后,Operator会实例化指令,然后操作浏览器。
随后,Operator转到了搜索Beretta的URL。虽然OpenTable默认的地址是弗吉尼亚,但operator学会自动纠正为旧金山的地址。
CUA其背后的流程如下所示。本质上就是通过处理原始像素数据理解屏幕状态,同时利用鼠标和键盘执行相应的命令。能够执行多步骤任务,处理错误,并适应意外变化,使其能够在多种数字环境中运行,无需专门的 API 支持即可完成诸如填写表单、浏览网页等任务。
从图上看,它的输入包含了用户的命令输入和当前扫描到的屏幕状态信息。然后利用COT思维链的方式总结出需要执行的步骤,最后操作浏览器执行相应的步骤信息。
整体的工作流程像这样:
这些截图为其提供环境信息,使其能够实时了解任务进展。
我们知道,传统的要执行这样步骤的操作,往往需要调用相关的API进行相应的命令。但是Operator通过结合 GPT-4o 的视觉能力和强化学习驱动的高级推理功能,为用户执行网页任务。其核心模型 CUA能够像人类一样与图形用户界面(GUI)交互,而无需依赖特定的操作系统或网页 API,从而实现灵活的数字任务处理。
它的优势在于,对于多模态能力的理解能够更加准确,同时在多项的基准测试中完成了令人惊讶的成绩。
比如在计算机使用(computer user)测试中,CUA 的成功率为 38.1%,远高于之前的最优方法 (22.0%)。而在浏览器使用(Browser Use)测试中,CUA 的成功率为 58.1%,相较于之前的最优方法 (36.2%) 提升显著。
但值得一体的是,OpenAI其实在对于CUA评估的时候,有测试过在浏览器模拟和操作系统模拟的成绩,说明OpenAI也做过操作系统的Agent,只是目前成绩只有38.1%,远远达不到可用的地步,所以目前还只是基于浏览器模拟的方法给用户进行开放测试使用。
执行步数对Operator的成功率也有一定的影响。从下面图中可以看到,在10到100执行步数中,整体的测试成功率有一个比较明显的提高。从10%成功率提升到了38%。但是,与人类的 72.4% 成功率相比,仍存在较大改进空间。
另一方面,过大的执行步数需要消耗更多的时间,如果在实际使用过程中有时候步数过多会让人看着很烦。这个其实还有很大的优化空间,比如是不是可以针对一些常见的任务进行强化学习对其优化,然后进一步提升成功率的同时减少执行步数。
OpenAI曾经把人工智能划分成5个等级,这5个等级表明了未来的AI发展的进展和方向。
现阶段大模型的发展,已经触及到第二甚至是第三等级,能够在一定程度上解决我们日常生活中的问题。
对于OpenAI发布的这个Operator,标记着它正式迈入第三级别阶段。下一个目标,OpenAI还将扩展智能体的动作空间。接下来几周/几个月,我们还将会看到更多的智能体。
一些人认为 2025 年是智能体Agent的元年,很多公司也在2025年开始押宝Agent开发。就我个人而言,未来的十年应该都是智能体发展的黄金年代。但是 仍然需要大量的工作,才能使得目前的Agent真的不只停留在体验阶段,而是能够在日常工作中帮助到我们。或许那时候才是真的把事情变得更有趣也说不定。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有