OpenAI 可能即将发布一款 AI 工具,能够接管你的电脑并替你执行任务。
Tibor Blaho,一位以准确泄露即将发布的 AI 产品而闻名的软件工程师,声称已经发现了 OpenAI 长期传闻的 Operator 工具的证据。包括彭博社在内的多家媒体此前都报道过 Operator,据说这是一个“代理”系统,能够自主处理编写代码和预订旅行、注册云服务、启动虚拟机,甚至创建比特币钱包等任务。
据 The Information 报道,OpenAI 的目标是在 1 月份发布 Operator。Blaho 上周末发现的代码进一步证实了这一报道。
根据 Blaho 的说法,OpenAI 的 macOS 版 ChatGPT 客户端已经增加了“切换 Operator”和“强制退出 Operator”的快捷方式选项,尽管这些选项目前是隐藏的。Blaho 还表示,OpenAI 在其网站上添加了对 Operator 的引用,但这些引用尚未公开可见。
Blaho 称,OpenAI 的网站上还包含尚未公开的表格,比较了 Operator 与其他使用电脑的 AI 系统的性能。这些表格可能是占位符,但如果数字准确,它们表明 Operator 并非 100% 可靠,具体取决于任务。
在 OSWorld 基准测试中(该测试试图模拟真实的计算机环境),“OpenAI 计算机使用代理(CUA)”——可能是 Operator 背后的 AI 模型——得分为 38.1%,领先于 Anthropic 的计算机控制模型,但远低于人类 72.4% 的得分。
在 WebVoyager 测试中,OpenAI CUA 超越了人类表现,该测试评估 AI 在网站导航和交互方面的能力。但根据泄露的基准测试,该模型在另一个基于网络的基准测试 WebArena 上未能达到人类水平。
如果泄露的信息可信,Operator 在处理人类可以轻松完成的任务时也遇到了困难。在一项测试中,Operator 被要求注册云提供商并启动虚拟机,其成功率仅为 60%。在创建比特币钱包的任务中,Operator 的成功率仅为 10%。
OpenAI 即将进入 AI 代理领域,而包括 Anthropic、谷歌等在内的竞争对手也在争夺这一新兴市场。AI 代理可能具有风险且具有投机性,但科技巨头们已经将其吹捧为 AI 的下一个大事件。根据分析公司 Markets and Markets 的数据,到 2030 年,AI 代理市场的价值可能达到 471 亿美元。
目前的 AI 代理还相当原始。但一些专家对其安全性表示担忧,尤其是在技术迅速改进的情况下。
泄露的一张图表显示,Operator 在选定的安全评估中表现良好,包括试图让系统执行“非法活动”和搜索“敏感个人数据”的测试。据报道,安全测试是 Operator 开发周期长的原因之一。在最近的一篇 X 帖子中,OpenAI 联合创始人 Wojciech Zaremba 批评 Anthropic 发布了一款他认为缺乏安全措施的代理。
“我只能想象如果 OpenAI 做出类似的发布,会引发怎样的负面反应,”Zaremba 写道。