Operator 背后的核心是 OpenAI 新研发的 Computer-Using Agent (CUA) 模型。CUA 结合了 GPT-4o 的视觉理解能力以及强化学习训练得到的高级推理能力,能够自主与图形用户界面(GUI)进行交互。
CUA 的工作流程可以概括为三大步骤:
CUA 会实时截取当前屏幕快照,并将其作为上下文输入模型,从而理解当前任务所处的状态。
CUA 通过链式思维(Chain-of-Thought, CoT)逐步规划操作步骤,并根据历史操作和视觉变化进行实时调整与自我修正。
CUA 控制鼠标和键盘,进行点击、滚动、输入等操作直至任务完成。如遇敏感操作(如登录、验证码处理等),它会主动寻求用户确认。
例如在一个演示中,用户命令 Operator:
“订一张今晚7点在 Beretta 的双人位。”
Operator 随即打开浏览器,搜索 Beretta 并识别出网页错误地点(默认显示弗吉尼亚州),随后自动修正为旧金山地址,并完成预订流程。这种灵活纠错能力,正是 CUA 的核心优势。
CUA 在多个基准测试中的表现显著超越传统方法:
值得注意的是,OpenAI 在测试中不仅仅评估了网页操作,也尝试了完整操作系统环境下的模拟任务。尽管目前操作系统上的成功率只有 38.1%,还未达到可用阶段,但这表明未来 CUA 有望成为全能型智能体。
同时,任务执行步数对成功率也有明显影响。从下图可以看出,当执行步骤控制在 10~100 步时,成功率从 10% 提升至 38%。但与人类 72.4% 的成功率相比,CUA 仍有很大的进步空间。
为了进一步优化体验,未来可能会对常见任务进行 RL 微调,从而在减少执行步数的同时提升成功率。
OpenAI 早在内部将人工智能的发展划分为五个等级:
Operator 的发布,意味着 OpenAI 已正式跨入第三级——Agent 智能体阶段。
接下来几周/几个月,OpenAI 将逐步扩展智能体的操作空间,从网页浏览延伸到更多任务场景,真正开启“自主软件操作”的新时代。
有不少人认为,2025 年将成为“智能体元年”。从 OpenAI 到 Google、Anthropic,再到国内各大厂商,都在押注 Agent 技术。
个人认为,未来十年将是智能体快速发展的黄金时代。但要真正让 Agent 成为工作、生活中的得力助手,仍需要大量工程实践与系统优化。
只有当智能体脱离“演示体验”,真正做到稳定、可靠、高效时,我们才能真正迎来一个由 AI 助手协同完成任务的世界。
也许那时,我们才真的“把事情变得有趣”——而不只是“让人类更省事”。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有