开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Operator 背后的技术：Computer-Using Agent（CUA）

Operator 背后的技术：Computer-Using Agent（CUA）

原创

作者头像

算法一只狗

发布于 2025-05-02 15:07:52

发布于 2025-05-02 15:07:52

1460

举报

文章被收录于专栏：算法一只狗算法一只狗

Operator 背后的核心是 OpenAI 新研发的 Computer-Using Agent (CUA) 模型。CUA 结合了 GPT-4o 的视觉理解能力以及强化学习训练得到的高级推理能力，能够自主与图形用户界面（GUI）进行交互。

CUA 的工作流程可以概括为三大步骤：

1. 感知（Perception）

CUA 会实时截取当前屏幕快照，并将其作为上下文输入模型，从而理解当前任务所处的状态。

2. 推理（Reasoning）

CUA 通过链式思维（Chain-of-Thought, CoT）逐步规划操作步骤，并根据历史操作和视觉变化进行实时调整与自我修正。

3. 操作（Action）

CUA 控制鼠标和键盘，进行点击、滚动、输入等操作直至任务完成。如遇敏感操作（如登录、验证码处理等），它会主动寻求用户确认。

例如在一个演示中，用户命令 Operator：

“订一张今晚7点在 Beretta 的双人位。”

Operator 随即打开浏览器，搜索 Beretta 并识别出网页错误地点（默认显示弗吉尼亚州），随后自动修正为旧金山地址，并完成预订流程。这种灵活纠错能力，正是 CUA 的核心优势。

性能表现：大幅超越以往方法

CUA 在多个基准测试中的表现显著超越传统方法：

Computer Use 任务成功率：38.1%（领先于此前最佳 22.0%）
Browser Use 任务成功率：58.1%（显著高于之前的 36.2%）

值得注意的是，OpenAI 在测试中不仅仅评估了网页操作，也尝试了完整操作系统环境下的模拟任务。尽管目前操作系统上的成功率只有 38.1%，还未达到可用阶段，但这表明未来 CUA 有望成为全能型智能体。

同时，任务执行步数对成功率也有明显影响。从下图可以看出，当执行步骤控制在 10~100 步时，成功率从 10% 提升至 38%。但与人类 72.4% 的成功率相比，CUA 仍有很大的进步空间。

为了进一步优化体验，未来可能会对常见任务进行 RL 微调，从而在减少执行步数的同时提升成功率。

Agent 时代真的来了？

OpenAI 早在内部将人工智能的发展划分为五个等级：

聊天机器人（Chatbots）：当前主流大模型所处阶段。
推理者（Reasoners）：具备较强逻辑与推理能力。
智能体（Agents）：具备感知-推理-行动闭环，能自主执行任务。
创新者（Innovators）：能够独立产生新知识和想法。
组织者（Organizations）：具备协同能力，提升复杂系统效率。

Operator 的发布，意味着 OpenAI 已正式跨入第三级——Agent 智能体阶段。

接下来几周/几个月，OpenAI 将逐步扩展智能体的操作空间，从网页浏览延伸到更多任务场景，真正开启“自主软件操作”的新时代。

写在最后：Agent 黄金十年

有不少人认为，2025 年将成为“智能体元年”。从 OpenAI 到 Google、Anthropic，再到国内各大厂商，都在押注 Agent 技术。

个人认为，未来十年将是智能体快速发展的黄金时代。但要真正让 Agent 成为工作、生活中的得力助手，仍需要大量工程实践与系统优化。

只有当智能体脱离“演示体验”，真正做到稳定、可靠、高效时，我们才能真正迎来一个由 AI 助手协同完成任务的世界。

也许那时，我们才真的“把事情变得有趣”——而不只是“让人类更省事”。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S13

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S13

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

AGI 进阶之路探索：我和头部大模型对话学习3w+轮次后发现…

大模型部署

2024年7月，OpenAI 公司提出了通用人工智能（AGI）的五层框架理论，将 AGI 的发展分为5个阶段：聊天机器人（Chatbots）、推理者（Reasoners）、智能体（Agents）、创新者（Innovators）、组织者（Organizations）。

AGI-Eval评测社区

2025/05/22

670

AGI 进阶之路探索：我和头部大模型对话学习3w+轮次后发现…

38%成功率就能掀起Agent时代？Operator到底行不行！

腾讯技术创作特训营S11#重启人生

OpenAI也正式发布了自己的第一个智能体，被称为Operator。这个智能体能够像人类一样操作电脑，完成一些最基本的任务。它能够在浏览器页面中，给定一些需求然后帮助你完成相应的操作。

算法一只狗

2025/01/25

1450

38%成功率就能掀起Agent时代？Operator到底行不行！

在AI 智能体Agent行业：什么是computer-use和 broswer-use ？

近年来，随着大语言模型（LLM）和自主代理（Agent）技术的迅速发展，越来越多的企业和研发团队开始探索如何利用 AI 自动化日常任务。其中，“computer-use”与“browser-use”作为两种不同的应用模式，正逐渐成为业界关注的焦点。本文将深入解析这两种模式的概念、实现原理、应用场景以及未来的发展趋势。

猫头虎

2025/03/07

1K0

在AI 智能体Agent行业：什么是computer-use和 broswer-use ？

OpenAI发布全新Agent工具，加速智能体开发

腾讯技术创作特训营S12#AI进化论

这次OpenAI发布的Agent工具，比之前的GPT-4.5有诚意许多。发布了共五个工具，太长不看版：

算法一只狗

2025/03/12

2060

“躺平神器”来啦~OpenAI即将发布人工代理工具Operator

工具模型 openai 测试代理

Tibor Blaho，一位以准确泄露即将发布的 AI 产品而闻名的软件工程师，声称已经发现了 OpenAI 长期传闻的 Operator 工具的证据。包括彭博社在内的多家媒体此前都报道过 Operator，据说这是一个“代理”系统，能够自主处理编写代码和预订旅行、注册云服务、启动虚拟机，甚至创建比特币钱包等任务。

用户11203141

2025/03/06

490

“躺平神器”来啦~OpenAI即将发布人工代理工具Operator

字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

openai ui 模型数据开源

1 月 24 日凌晨 2 点，OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体：Operator。

机器之心

2025/02/03

3450

字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

一文读懂 OpenAI 最新 Operator

人工智能 openai 代理工具模型

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景最新突破 - 构建高效、灵活的创新的 AI Agent。

Luga Lee

2025/02/05

1K1

一文读懂 OpenAI 最新 Operator

AI Agent：四大核心能力详解与技术演进

基础模型数据 agent 工具

在人工智能领域的宏大版图中，智能体（Agent）正以迅猛之势，逐渐攀升至舞台的聚光灯下。当前技术收敛趋势表明，2025年将成为智能体突破「环境感知-自主决策-价值对齐」能力三角的关键里程碑——这不仅是底层技术栈的颠覆性迭代（多模态感知网络、神经符号推理架构、具身智能系统的深度融合），更预示着人机协作范式将进入「认知共生」的新纪元。科技巨头、开源社区与产业资本的竞逐布局（据Gartner预测，2025年全球智能体开发框架投入将突破270亿美元），折射出这场技术变革对全球数字生态的重构势能。当下，2025年被广泛视作智能体发展进程中具有里程碑意义的关键一年，其发展态势备受各界瞩目。

腾讯云开发者

2025/05/09

2690

AI Agent：四大核心能力详解与技术演进

OpenAI深夜大招暴打Manus！智能体全家桶杀器一统API，4行代码轻松上手

模型搜索 api openai 工具

这个过程不仅耗时耗力，就像搭积木一样「摇摇欲坠」，如果一个环节出错，搭出的智能体系统随时可能崩盘。

新智元

2025/03/12

1050

OpenAI深夜大招暴打Manus！智能体全家桶杀器一统API，4行代码轻松上手

重磅！OpenAI正式推出智能体Operator：让AI帮你自动化浏览器任务

强化学习 openai 开发者浏览器自动化

今天OpenAI正式推出Operator，一款能够通过自身浏览器为你自动化执行任务的智能助手，让这一切成为可能。

AgenticAI

2025/03/18

810

重磅！OpenAI正式推出智能体Operator：让AI帮你自动化浏览器任务

未来AI助手来了！ChatGPT『Tasks』功能能做的比你想象的更多！

腾讯技术创作特训营S11#重启人生

OpenAI今天发布了一个名为Tasks的新功能。这个功能主要是用来帮助用户安排某些工作，同时也可以针对ChatGPT进行事项提醒等操作。

算法一只狗

2025/01/15

2950

未来AI助手来了！ChatGPT『Tasks』功能能做的比你想象的更多！

Deep Research：不只是一个工具，是新时代的开始（5+实践例子）

实践系统代理工具模型

它基于o3的代理系统不是在做简单的总结，而是在思考，在发现联系，在独立得出结论。它真的在工作，真的在创造价值。

AI进修生

2025/02/05

4590

Deep Research：不只是一个工具，是新时代的开始（5+实践例子）

OpenAI 用Agent SDK重新定义Agent工作流构建方式

工具工作流 sdk agent openai

就在刚刚，OpenAI正式推出了第一组基础构建模块，旨在助力开发者和企业打造实用且可靠的Agent系统。

AIGC新知

2025/03/12

3780

OpenAI 用Agent SDK重新定义Agent工作流构建方式

【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒，「Operator」之后还应该探索什么？

operators openai

OpenAI 放出大招！Maybe AI 真的要“替代”人工了，这或许也将成为未来迈出探寻 AGI 之路的新方向。OpenAl 推出的 Agent “ Operator（操作员）” 确实和名字很贴切，下面简单给大家聊聊这个智能体，再给大家说点新思考。

AGI-Eval评测社区

2025/03/18

470

【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒，「Operator」之后还应该探索什么？

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

scaling 工具模型搜索 agent

刚刚，智谱推出最新的 AutoGLM 沉思模型，不仅具备深度研究能力（Deep Research），还能实现实际操作（Operator）。并且，这个会“边想边干”的智能体还能自己接单赚到钱。

深度学习与Python

2025/04/05

1450

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

“AI玩手机”原理揭秘：大模型驱动的移动端GUI智能体

在后LLM时代，随着大语言模型和多模态大模型技术的日益成熟，AI技术的实际应用及其社会价值愈发受到重视。AI智能体（AI Agent）技术通过集成行为规划、记忆存储、工具调用等机制，为大模型装上“手脚”，使其能够利用强大的多模态感知交互与推理决策能力，与真实世界进行有效交互，成为连接人类与数字世界的桥梁，并迎来前所未有的发展机遇。（了解更多关于智能体的见解：《在后LLM时代，关于新一代智能体的思考》）。

澜舟科技

2024/11/22

4000

【愚公系列】《AI Agent技术、应用与商业》002-Al Agent的发展历程

腾讯技术创作特训营S12#AI进化论趋势探讨

在科技迅猛发展的今天，人工智能（AI）已成为推动各行各业变革的重要力量。其中，智能代理（AI Agent）作为AI技术的一个重要分支，正逐渐走入我们的生活并改变我们的工作方式。那么，智能代理的发展历程究竟是怎样的呢？

愚公搬代码

2025/03/11

2800

GLM-PC和Operator对比：哪个Agent效果更好？

腾讯技术创作特训营S11#重启人生

最近，智谱和OpenAI都发布了自己的第一个智能体，可以基于多模态自动化操作电脑。

算法一只狗

2025/02/05

3360

智能体GLM-PC已经干掉我一半工作量了！

腾讯技术创作特训营S13

智谱早前发布的GLM-PC在功能和用户体验上明显更胜一筹。GLM-PC由智谱AI推出，基于其多模态大模型CogAgent打造，是全球首款面向公众的即用型电脑智能体（Agent）。这一智能体具备类似人类的视觉感知与操作电脑的能力，能高效协助用户完成各种任务，带来前所未有的智能交互体验。

算法一只狗

2025/05/09

1040

Manus爆火的秘密武器Browser Use融资1700万美元！让AI「读懂」网页

开源 browser 工具模型网站

AI智能体可能还没有一个大家都认可的定义，但这并不妨碍一大堆创业公司争相打造智能体工具，来自动化处理各种任务。

新智元

2025/03/27

1410

Manus爆火的秘密武器Browser Use融资1700万美元！让AI「读懂」网页

相关推荐

AGI 进阶之路探索：我和头部大模型对话学习3w+轮次后发现…

更多 >

算法一只狗

LV.5

腾讯后台策略工程师

作者相关精选

换一批

目录

1. 感知（Perception）

2. 推理（Reasoning）

3. 操作（Action）

性能表现：大幅超越以往方法

Agent 时代真的来了？

写在最后：Agent 黄金十年

加入讨论

的问答专区 >

1程序员擅长1个领域

相关课程

一站式学习中心 >

数字化IT从业者知识体系

微信小程序应用实践_《锋运票务系统》

云托管 CloudBase Run

Serverless 容器服务

云数据库 MySQL