首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >“从科幻到现实:GPT Agent已经能像人类一样操作电脑了

“从科幻到现实:GPT Agent已经能像人类一样操作电脑了

原创
作者头像
算法一只狗
发布2025-07-18 15:00:18
发布2025-07-18 15:00:18
1980
举报
文章被收录于专栏:算法一只狗算法一只狗

初步一看,这个新的GPT Agent产品应该是之前好几个功能的合体。它把OpenAI之前就发布的Operator和Deep Research功能合并到一起,然后让这个智能体能够一边操作你的电脑,一边把所有信息进行有效整合。

它的目的就是在虚拟环境中模拟人类操作,执行复杂、多步骤的任务。它区别于传统聊天机器人,不仅能生成对话,还能主动调用各种工具完成实际操作,例如管理日程、在线订餐、生成研究报告等

核心组件之一:Operator

Operator其实之前已经发布过了。它能够在浏览器页面中,给定一些需求然后帮助你完成相应的操作。在官方演示的案例中,它能够自动填写表格内容、上网购物、创建相应的表情包、在浏览器中处理大部分重复性任务。

其使用了一个新模型叫computer-using agent(CUA)。CUA结合了GPT-4o的视觉能力和通过强化学习的高级推理,经过训练,可以与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。

Operator可以通过调用屏幕截图,看到当前的浏览器的信息,然后通过控制鼠标和键盘操作浏览器,使得能够在网络上进行查询和点击,从而有效完成任务。

它还有一个自我纠正的能力。比如在官方演示的过程当中,设定了一个任务:

让它订一张今晚7点在Beretta的两人位子。

接受到命令后,Operator会实例化指令,然后操作浏览器。

随后,Operator转到了搜索Beretta的URL。虽然OpenTable默认的地址是弗吉尼亚,但operator学会自动纠正为旧金山的地址。

CUA其背后的流程如下所示。本质上就是通过处理原始像素数据理解屏幕状态,同时利用鼠标和键盘执行相应的命令。能够执行多步骤任务,处理错误,并适应意外变化,使其能够在多种数字环境中运行,无需专门的 API 支持即可完成诸如填写表单、浏览网页等任务。

从图上看,它的输入包含了用户的命令输入和当前扫描到的屏幕状态信息。然后利用COT思维链的方式总结出需要执行的步骤,最后操作浏览器执行相应的步骤信息。

整体的工作流程像这样:

  • 感知(Perception):CUA 通过截取屏幕截图,将当前计算机状态的视觉快照纳入模型的上下文。这些截图为其提供环境信息,使其能够实时了解任务进展。
  • 推理(Reasoning):利用链式思维(chain-of-thought),结合当前与过往的截图和操作步骤进行推理。这种“内部独白”帮助模型评估观察结果、追踪中间步骤,并动态调整操作策略,提高任务完成的准确性和灵活性。
  • 操作(Action):行点击、滚动、输入等操作,直到判断任务完成或需要用户进一步指令。对于敏感操作(如输入登录信息或处理 CAPTCHA),CUA 会寻求用户确认,确保安全性和隐私保护。

ChatGPT Agent主要功能

这个Agent配备了一个通过图形用户界面与网络交互的可视化浏览器、用于简单推理型网络查询的文本浏览器,以及直接 API 访问权限。例如,它可以快速通过 API 获取财务数据或体育赛事比分,同时也能与主要面向人类设计的网页进行视觉交互。

它的一些功能也和正常的Agent一样,在不同场景上都可以应用:

  • 日程管理与规划:可操控 Google Calendar、Outlook 等服务,自动排期和提醒
  • 在线购物与预订:模拟用户浏览电商网站或订餐平台,完成商品搜索、加入购物车、下单支付等操作
  • 信息检索与报告生成:调用网络搜索、学术数据库等工具,汇总关键信息,撰写结构化研究报告
  • 脚本与代码执行:可运行 Python 脚本、Shell 命令等,实现自动化运维、数据分析等场景

比如让「ChatGPT 助手帮忙查一下旧金山2020年到2024年的年度财务报告」,可以看到Agent立刻就开始干活,通过调用网页搜索等形式去找到对应的信息。

最后整理完之后,变成一个报告的形式,报告输出的样式应该就是Deep Research的功能整合

再举个例子哈,你跟ChatGPT说:"我是个超级网球迷,特别想去棕榈泉看网球比赛,最好能赶上半决赛和决赛。我在旧金山住,你帮我整个三天详细行程呗。要包括机票、酒店、活动安排(看比赛、徒步、吃好吃的、做水疗这些)。我超爱徒步、吃纯素餐厅和水疗的。总共预算3000美元。

从生成的行程里得写清楚每个时间段干啥,每项活动具体内容、多少钱、还有其他注意事项。需要订票或者订酒店的话,直接把链接发我。" 然后让ChatGPT给你整一个详细的行程出来就行啦。

其实从上面就可以看出,OpenAI的这个Agent确实把目前所有的能力整合到了一块。包括调用工具、信息总结、大模型推理等等。

它能够完全按你的要求从头到尾搞定复杂任务。最爽的是全程你说了算——它干啥大事前肯定先问你同不同意,你随时能喊停、自己接手浏览器或者直接关掉它。

OpenAI 说:"虽然现在这智能助手已经能处理复杂活儿了,但这次发布只是刚开头。我们会不断升级、定期放大招,让它越来越牛、越来越好用,帮到更多人。"

基础功能全面提升

该模型的先进功能在其在学术评估中的表现中得到体现,这些评估衡量了其在网页浏览和现实世界任务完成能力方面的表现,达到了行业领先水平 (SOTA)。

在《人类的最后考试》评估中,该评估通过专家级问题衡量 AI 在广泛学科领域的表现,ChatGPT 智能体所采用的模型取得了 43.1 分的新高。

对该模型在多种与分析师实际工作相似的真实世界任务上进行了评估。在 DSBench 测试中该测试旨在评估智能体在涵盖数据分析和建模等现实数据科学任务中的表现,ChatGPT 智能体显著超越了之前的最先进模型——尤其在数据分析任务中,其表现明显优于人类水平。

SpreadsheetBench 平台上,该平台通过评估模型在处理基于真实世界场景的电子表格编辑任务时的表现来进行评分,ChatGPT 智能体创下了新的行业领先水平 (SOTA),其性能较当前行业领先的 GPT‑4o 提升了超过一倍。当具备直接编辑电子表格的能力时,ChatGPT 智能体的得分进一步提升至 45.5%,与 Excel 中 Copilot 的 20.0% 相当。

在内部基准测试中,该模型展现了其处理投资银行分析师(1 至 3 年经验)任务的能力,例如为《财富》500 强企业构建符合规范的财务报表模型(包括格式和引用),或为私有化交易构建杠杆收购模型。ChatGPT 智能体所采用的模型在该测试中显著优于深入研究和 o3 模型。每个任务均根据数百项与正确性和公式使用相关的标准进行评分。

WebArena⁠基准测试中(该测试旨在评估网络浏览智能体在完成真实世界网络任务时的性能),该模型相较于由 o3 驱动的 CUA(即驱动 Operator 的模型)表现更佳。

网友体验

目前我收集了一下网友的一些实际测试,看看这个新的Agent效果到底怎么样。

任务1:提前退休计划场景

X 平台网友 @rowancheung,让ChatGPT Agent在 20 分钟内为他设计一份针对 30 岁退休的财务独立提前退休(FIRE)方案

Agent执行了下面的工作:查询温哥华当地税法、收集并分析平均月度支出数据、计算退休所需总储蓄、研究并推荐最佳投资组合、挖掘税务优化策略、生成可下载的演示文稿(PPT)和电子表格

从成本对比来看,它等同工作由专业财务顾问完成预计需数周且费用超 5000 美元。PPT 与表格质量不错,与市面上如 Manus、Genspark 等工具产出的结果大致相当

任务2:Tesco 在线购物场景

向Agent提出:帮我这个周末给两个人做一顿烤肉晚餐,包括一份甜点。

prompt: “Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert.”

Agent 会先打开 Tesco 网站并自动登录用户账号,然后依据“roast dinner”相关关键词并结合库存、品牌和性价比筛选出主菜、配菜、酱料和甜点等商品加入购物车,接着在购物车页面核对商品明细并根据实时可用时段选择最早配送时间,自动应用会员积分或优惠券后,使用已绑定的支付方式完成支付,最后记录订单号和配送确认信息,全程无需用户手动点击。

从用户反馈来看,全程看着 Agent 自动化购物很“不可思议”,但相比手动操作整体耗时更长、效率略低

写在最后

尽管 GPT Agent 已展现出强大的自动化操作和多场景适用能力,但要真正成为“万金油”智能助手,它仍需在隐私安全保护、面对界面变化时的错误恢复、跨系统插件生态建设、可溯源的决策与审计机制,以及从被动执行向预见式协助的人机协同模式上持续打磨,才能在日常办公、在线购物、科研分析等各类场景中更加可靠、高效地服务用户。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心组件之一:Operator
  • ChatGPT Agent主要功能
  • 基础功能全面提升
    • 网友体验
    • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档