OpenAI 又放大招，这次是对浏览器下手

云水木石

发布于 2025-02-05 03:27:26

820

自 ChatGPT 等语言大模型问世以来，人们的态度呈现出两极分化：有人热衷于调侃 GPT，试图证明 AI 只是“人工智障”；而另一些人则敏锐地察觉到 AI 潜藏的巨大生产力，积极拥抱这一技术。

目前，许多人对大模型的认知还停留在对话、生成 PPT 或撰写论文等基础功能上，却未能意识到 AI 在主动执行任务方面的巨大潜力。

事实上，AI 的能力远不止于理解人类语言。以我去年 11 月参与的一个项目为例，我们通过简单的语言指令，让 AI 帮助完成填写请假单、出差单以及预定会议室等任务。这种应用场景在企业中其实非常普遍——公司通常配备有办公自动化（OA）系统，员工每次请假或出差都需要手动填写繁琐的申请流程。而有了 AI 的协助，这一过程变得异常便捷：只需像吩咐秘书一样告知 AI 相关日期等关键信息，它就能迅速完成申请单的填写，极大地提高了工作效率。

当时，由于技术条件的限制，该项目依赖于浏览器插件来实现功能。AI 负责理解自然语言指令，随后将任务请求转交给浏览器插件来执行，因此并非完全自主的智能操作。此外，由于使用了浏览器插件，系统需要针对不同的业务平台进行定制化开发，缺乏通用性。

彼时，国内的智谱针对手机发布了能自主操作手机界面的大模型AutoGLM。AutoGLM 是一款面向图形用户界面（GUI）的自主基础代理模型，能够通过模拟人类操作，自主完成手机和网页上的各种任务。做项目的时候就在想，应该使用这种更加通用的智能，不过想归想，要集成起来还是有很大的困难。

然而，这个需求被 OpenAI 做到了。OpenAI 近日发布了一款名为 Operator 的 AI 代理，能够自主操作浏览器，为用户执行各种在线任务。这项创新使得 AI 从被动回答问题，迈向主动在网络上为用户完成复杂的多步骤工作流程。

Operator 基于 OpenAI 的 GPT-4o 模型，结合了视觉能力和通过强化学习获得的高级推理能力。它可以通过截图“看到”网页，并使用键盘和鼠标进行交互，如输入、点击和滚动。这使得 Operator 无需定制 API 集成即可在网络上采取行动。

目前， Operator 在美国率先向每月订阅费用为 200 美元的 ChatGPT Pro 用户提供“研究预览”版本。

看到这里，有人可能会担心，AI 如此智能，会不会把我们账户的钱转走之类的。对此，OpenAI 也有了充分的预案。比如，Operator 被限制不能处理银行交易、发送电子邮件、删除日历事项等高风险任务。在执行涉及敏感信息或关键操作时，Operator会请求用户干预，以确保安全性。除了用户控制机制，Operator 还配备了滥用防范系统。它能够识别并拒绝有害请求，并在检测到可疑活动时立即暂停执行。它还配有黑名单机制，许多赌博网站、成人娱乐网站以及毒品或枪支零售网站都无法访问。

未来，OpenAI计划将Operator引入更多用户层级，并将其功能整合到ChatGPT中。

写到最后，也不要过于乐观。每个新技术出现时，都不会那么完美，需要一代一代产品打磨，Operator 也是如此。例如，它还无法可靠地处理许多复杂或专业的任务，例如创建详细的幻灯片、管理复杂的日历系统，或与高度定制或非标准的 Web 界面进行交互。

与此同时，许多网站（如 Reddit）已经阻止 AI 智能体浏览，因此 Operator 无法访问它们。

Operator的推出标志着AI技术的重大进步，使其从被动的工具转变为能够主动在网络上为用户执行任务的智能代理。这不仅提高了用户的生产力，也提升了工作质量。因此，我们要心怀希望，期待美好的事情发生。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-01-24，如有侵权请联系 cloudcommunity@tencent.com 删除

网站