Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Operator 背后的技术:Computer-Using Agent(CUA)

Operator 背后的技术:Computer-Using Agent(CUA)

原创
作者头像
算法一只狗
发布于 2025-05-02 15:07:52
发布于 2025-05-02 15:07:52
1460
举报
文章被收录于专栏:算法一只狗算法一只狗

Operator 背后的核心是 OpenAI 新研发的 Computer-Using Agent (CUA) 模型。CUA 结合了 GPT-4o 的视觉理解能力以及强化学习训练得到的高级推理能力,能够自主与图形用户界面(GUI)进行交互。

CUA 的工作流程可以概括为三大步骤:

1. 感知(Perception)

CUA 会实时截取当前屏幕快照,并将其作为上下文输入模型,从而理解当前任务所处的状态。

2. 推理(Reasoning)

CUA 通过链式思维(Chain-of-Thought, CoT)逐步规划操作步骤,并根据历史操作和视觉变化进行实时调整与自我修正。

3. 操作(Action)

CUA 控制鼠标和键盘,进行点击、滚动、输入等操作直至任务完成。如遇敏感操作(如登录、验证码处理等),它会主动寻求用户确认。

例如在一个演示中,用户命令 Operator:

“订一张今晚7点在 Beretta 的双人位。”

Operator 随即打开浏览器,搜索 Beretta 并识别出网页错误地点(默认显示弗吉尼亚州),随后自动修正为旧金山地址,并完成预订流程。这种灵活纠错能力,正是 CUA 的核心优势。


性能表现:大幅超越以往方法

CUA 在多个基准测试中的表现显著超越传统方法:

  • Computer Use 任务成功率:38.1%(领先于此前最佳 22.0%)
  • Browser Use 任务成功率:58.1%(显著高于之前的 36.2%)

值得注意的是,OpenAI 在测试中不仅仅评估了网页操作,也尝试了完整操作系统环境下的模拟任务。尽管目前操作系统上的成功率只有 38.1%,还未达到可用阶段,但这表明未来 CUA 有望成为全能型智能体。

同时,任务执行步数对成功率也有明显影响。从下图可以看出,当执行步骤控制在 10~100 步时,成功率从 10% 提升至 38%。但与人类 72.4% 的成功率相比,CUA 仍有很大的进步空间。

为了进一步优化体验,未来可能会对常见任务进行 RL 微调,从而在减少执行步数的同时提升成功率。


Agent 时代真的来了?

OpenAI 早在内部将人工智能的发展划分为五个等级:

  1. 聊天机器人(Chatbots):当前主流大模型所处阶段。
  2. 推理者(Reasoners):具备较强逻辑与推理能力。
  3. 智能体(Agents):具备感知-推理-行动闭环,能自主执行任务。
  4. 创新者(Innovators):能够独立产生新知识和想法。
  5. 组织者(Organizations):具备协同能力,提升复杂系统效率。

Operator 的发布,意味着 OpenAI 已正式跨入第三级——Agent 智能体阶段

接下来几周/几个月,OpenAI 将逐步扩展智能体的操作空间,从网页浏览延伸到更多任务场景,真正开启“自主软件操作”的新时代。


写在最后:Agent 黄金十年

有不少人认为,2025 年将成为“智能体元年”。从 OpenAI 到 Google、Anthropic,再到国内各大厂商,都在押注 Agent 技术。

个人认为,未来十年将是智能体快速发展的黄金时代。但要真正让 Agent 成为工作、生活中的得力助手,仍需要大量工程实践与系统优化。

只有当智能体脱离“演示体验”,真正做到稳定、可靠、高效时,我们才能真正迎来一个由 AI 助手协同完成任务的世界。

也许那时,我们才真的“把事情变得有趣”——而不只是“让人类更省事”。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AGI 进阶之路探索:我和头部大模型对话学习3w+轮次后发现…
2024年7月,OpenAI 公司提出了通用人工智能(AGI)的五层框架理论,将 AGI 的发展分为5个阶段:聊天机器人(Chatbots)、推理者(Reasoners)、智能体(Agents)、创新者(Innovators)、组织者(Organizations)。
AGI-Eval评测社区
2025/05/22
670
AGI 进阶之路探索:我和头部大模型对话学习3w+轮次后发现…
38%成功率就能掀起Agent时代?Operator到底行不行!
OpenAI也正式发布了自己的第一个智能体,被称为Operator。这个智能体能够像人类一样操作电脑,完成一些最基本的任务。它能够在浏览器页面中,给定一些需求然后帮助你完成相应的操作。
算法一只狗
2025/01/25
1450
38%成功率就能掀起Agent时代?Operator到底行不行!
在AI 智能体Agent行业:什么是computer-use和 broswer-use ?
近年来,随着大语言模型(LLM)和自主代理(Agent)技术的迅速发展,越来越多的企业和研发团队开始探索如何利用 AI 自动化日常任务。其中,“computer-use”与“browser-use”作为两种不同的应用模式,正逐渐成为业界关注的焦点。本文将深入解析这两种模式的概念、实现原理、应用场景以及未来的发展趋势。
猫头虎
2025/03/07
1K0
在AI 智能体Agent行业:什么是computer-use和 broswer-use ?
OpenAI发布全新Agent工具,加速智能体开发
这次OpenAI发布的Agent工具,比之前的GPT-4.5有诚意许多。发布了共五个工具,太长不看版:
算法一只狗
2025/03/12
2060
“躺平神器”来啦~OpenAI即将发布人工代理工具Operator
Tibor Blaho,一位以准确泄露即将发布的 AI 产品而闻名的软件工程师,声称已经发现了 OpenAI 长期传闻的 Operator 工具的证据。包括彭博社在内的多家媒体此前都报道过 Operator,据说这是一个“代理”系统,能够自主处理编写代码和预订旅行、注册云服务、启动虚拟机,甚至创建比特币钱包等任务。
用户11203141
2025/03/06
490
“躺平神器”来啦~OpenAI即将发布人工代理工具Operator
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。
机器之心
2025/02/03
3450
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
一文读懂 OpenAI 最新 Operator
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景最新突破 - 构建高效、灵活的创新的 AI Agent。
Luga Lee
2025/02/05
1K1
一文读懂 OpenAI 最新 Operator
AI Agent:四大核心能力详解与技术演进
在人工智能领域的宏大版图中,智能体(Agent)正以迅猛之势,逐渐攀升至舞台的聚光灯下。当前技术收敛趋势表明,2025年将成为智能体突破「环境感知-自主决策-价值对齐」能力三角的关键里程碑——这不仅是底层技术栈的颠覆性迭代(多模态感知网络、神经符号推理架构、具身智能系统的深度融合),更预示着人机协作范式将进入「认知共生」的新纪元。科技巨头、开源社区与产业资本的竞逐布局(据Gartner预测,2025年全球智能体开发框架投入将突破270亿美元),折射出这场技术变革对全球数字生态的重构势能。当下,2025年被广泛视作智能体发展进程中具有里程碑意义的关键一年,其发展态势备受各界瞩目。
腾讯云开发者
2025/05/09
2690
AI Agent:四大核心能力详解与技术演进
OpenAI深夜大招暴打Manus!智能体全家桶杀器一统API,4行代码轻松上手
这个过程不仅耗时耗力,就像搭积木一样「摇摇欲坠」,如果一个环节出错,搭出的智能体系统随时可能崩盘。
新智元
2025/03/12
1050
OpenAI深夜大招暴打Manus!智能体全家桶杀器一统API,4行代码轻松上手
重磅!OpenAI正式推出智能体Operator:让AI帮你自动化浏览器任务
今天OpenAI正式推出Operator,一款能够通过自身浏览器为你自动化执行任务的智能助手,让这一切成为可能。
AgenticAI
2025/03/18
810
重磅!OpenAI正式推出智能体Operator:让AI帮你自动化浏览器任务
未来AI助手来了!ChatGPT『Tasks』功能能做的比你想象的更多!
OpenAI今天发布了一个名为Tasks的新功能。这个功能主要是用来帮助用户安排某些工作,同时也可以针对ChatGPT进行事项提醒等操作。
算法一只狗
2025/01/15
2950
未来AI助手来了!ChatGPT『Tasks』功能能做的比你想象的更多!
Deep Research:不只是一个工具,是新时代的开始(5+实践例子)
它基于o3的代理系统不是在做简单的总结,而是在思考,在发现联系,在独立得出结论。它真的在工作,真的在创造价值。
AI进修生
2025/02/05
4590
Deep Research:不只是一个工具,是新时代的开始(5+实践例子)
OpenAI 用Agent SDK重新定义Agent工作流构建方式
就在刚刚,OpenAI正式推出了第一组基础构建模块,旨在助力开发者和企业打造实用且可靠的Agent系统。
AIGC新知
2025/03/12
3780
OpenAI 用Agent SDK重新定义Agent工作流构建方式
【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒,「Operator」之后还应该探索什么?
OpenAI 放出大招!Maybe AI 真的要“替代”人工了,这或许也将成为未来迈出探寻 AGI 之路的新方向。OpenAl 推出的 Agent “ Operator(操作员)” 确实和名字很贴切,下面简单给大家聊聊这个智能体,再给大家说点新思考。
AGI-Eval评测社区
2025/03/18
470
【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒,「Operator」之后还应该探索什么?
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
刚刚,智谱推出最新的 AutoGLM 沉思模型,不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator)。并且,这个会“边想边干”的智能体还能自己接单赚到钱。
深度学习与Python
2025/04/05
1450
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
4000
【愚公系列】《AI Agent技术、应用与商业》002-Al Agent的发展历程
在科技迅猛发展的今天,人工智能(AI)已成为推动各行各业变革的重要力量。其中,智能代理(AI Agent)作为AI技术的一个重要分支,正逐渐走入我们的生活并改变我们的工作方式。那么,智能代理的发展历程究竟是怎样的呢?
愚公搬代码
2025/03/11
2800
GLM-PC和Operator对比:哪个Agent效果更好?
最近,智谱和OpenAI都发布了自己的第一个智能体,可以基于多模态自动化操作电脑。
算法一只狗
2025/02/05
3360
智能体GLM-PC已经干掉我一半工作量了!
智谱早前发布的GLM-PC在功能和用户体验上明显更胜一筹。GLM-PC由智谱AI推出,基于其多模态大模型CogAgent打造,是全球首款面向公众的即用型电脑智能体(Agent)。这一智能体具备类似人类的视觉感知与操作电脑的能力,能高效协助用户完成各种任务,带来前所未有的智能交互体验。
算法一只狗
2025/05/09
1040
Manus爆火的秘密武器Browser Use融资1700万美元!让AI「读懂」网页
AI智能体可能还没有一个大家都认可的定义,但这并不妨碍一大堆创业公司争相打造智能体工具,来自动化处理各种任务。
新智元
2025/03/27
1410
Manus爆火的秘密武器Browser Use融资1700万美元!让AI「读懂」网页
推荐阅读
AGI 进阶之路探索:我和头部大模型对话学习3w+轮次后发现…
670
38%成功率就能掀起Agent时代?Operator到底行不行!
1450
在AI 智能体Agent行业:什么是computer-use和 broswer-use ?
1K0
OpenAI发布全新Agent工具,加速智能体开发
2060
“躺平神器”来啦~OpenAI即将发布人工代理工具Operator
490
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
3450
一文读懂 OpenAI 最新 Operator
1K1
AI Agent:四大核心能力详解与技术演进
2690
OpenAI深夜大招暴打Manus!智能体全家桶杀器一统API,4行代码轻松上手
1050
重磅!OpenAI正式推出智能体Operator:让AI帮你自动化浏览器任务
810
未来AI助手来了!ChatGPT『Tasks』功能能做的比你想象的更多!
2950
Deep Research:不只是一个工具,是新时代的开始(5+实践例子)
4590
OpenAI 用Agent SDK重新定义Agent工作流构建方式
3780
【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒,「Operator」之后还应该探索什么?
470
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
1450
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
4000
【愚公系列】《AI Agent技术、应用与商业》002-Al Agent的发展历程
2800
GLM-PC和Operator对比:哪个Agent效果更好?
3360
智能体GLM-PC已经干掉我一半工作量了!
1040
Manus爆火的秘密武器Browser Use融资1700万美元!让AI「读懂」网页
1410
相关推荐
AGI 进阶之路探索:我和头部大模型对话学习3w+轮次后发现…
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档