Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI 又放大招,这次是对浏览器下手

OpenAI 又放大招,这次是对浏览器下手

作者头像
云水木石
发布于 2025-02-05 03:27:26
发布于 2025-02-05 03:27:26
820
举报
文章被收录于专栏:信创系统开发信创系统开发

ChatGPT 等语言大模型问世以来,人们的态度呈现出两极分化:有人热衷于调侃 GPT,试图证明 AI 只是“人工智障”;而另一些人则敏锐地察觉到 AI 潜藏的巨大生产力,积极拥抱这一技术。

目前,许多人对大模型的认知还停留在对话、生成 PPT 或撰写论文等基础功能上,却未能意识到 AI 在主动执行任务方面的巨大潜力。

事实上,AI 的能力远不止于理解人类语言。以我去年 11 月参与的一个项目为例,我们通过简单的语言指令,让 AI 帮助完成填写请假单、出差单以及预定会议室等任务。这种应用场景在企业中其实非常普遍——公司通常配备有办公自动化(OA)系统,员工每次请假或出差都需要手动填写繁琐的申请流程。而有了 AI 的协助,这一过程变得异常便捷:只需像吩咐秘书一样告知 AI 相关日期等关键信息,它就能迅速完成申请单的填写,极大地提高了工作效率。

当时,由于技术条件的限制,该项目依赖于浏览器插件来实现功能。AI 负责理解自然语言指令,随后将任务请求转交给浏览器插件来执行,因此并非完全自主的智能操作。此外,由于使用了浏览器插件,系统需要针对不同的业务平台进行定制化开发,缺乏通用性。

彼时,国内的智谱针对手机发布了能自主操作手机界面的大模型AutoGLM。AutoGLM 是一款面向图形用户界面(GUI)的自主基础代理模型,能够通过模拟人类操作,自主完成手机和网页上的各种任务。做项目的时候就在想,应该使用这种更加通用的智能,不过想归想,要集成起来还是有很大的困难。

然而,这个需求被 OpenAI 做到了。OpenAI 近日发布了一款名为 Operator 的 AI 代理,能够自主操作浏览器,为用户执行各种在线任务。这项创新使得 AI 从被动回答问题,迈向主动在网络上为用户完成复杂的多步骤工作流程。

Operator 基于 OpenAI 的 GPT-4o 模型,结合了视觉能力和通过强化学习获得的高级推理能力。它可以通过截图“看到”网页,并使用键盘和鼠标进行交互,如输入、点击和滚动。这使得 Operator 无需定制 API 集成即可在网络上采取行动。

目前, Operator 在美国率先向每月订阅费用为 200 美元的 ChatGPT Pro 用户提供“研究预览”版本。

看到这里,有人可能会担心,AI 如此智能,会不会把我们账户的钱转走之类的。对此,OpenAI 也有了充分的预案。比如,Operator 被限制不能处理银行交易、发送电子邮件、删除日历事项等高风险任务。在执行涉及敏感信息或关键操作时,Operator会请求用户干预,以确保安全性。除了用户控制机制,Operator 还配备了滥用防范系统。它能够识别并拒绝有害请求,并在检测到可疑活动时立即暂停执行。它还配有黑名单机制,许多赌博网站、成人娱乐网站以及毒品或枪支零售网站都无法访问。

未来,OpenAI计划将Operator引入更多用户层级,并将其功能整合到ChatGPT中。

写到最后,也不要过于乐观。每个新技术出现时,都不会那么完美,需要一代一代产品打磨,Operator 也是如此。例如,它还无法可靠地处理许多复杂或专业的任务,例如创建详细的幻灯片、管理复杂的日历系统,或与高度定制或非标准的 Web 界面进行交互。

与此同时,许多网站(如 Reddit)已经阻止 AI 智能体浏览,因此 Operator 无法访问它们。

Operator的推出标志着AI技术的重大进步,使其从被动的工具转变为能够主动在网络上为用户执行任务的智能代理。这不仅提高了用户的生产力,也提升了工作质量。因此,我们要心怀希望,期待美好的事情发生。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云水木石 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AutoGLM的一小步,人机交互进化的一大步
55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句简单的话:“这是个人的一小步,却是人类的一大步。”
Alter聊科技
2024/11/29
1740
AutoGLM的一小步,人机交互进化的一大步
95后打造世界首个行动型浏览器——Fellou,从「浏览」到「行动」一键直达!
得益于自由开放的Web,浏览器成为我们探索数字世界的核心入口,社交、娱乐、信息获取、生产力,它几乎可以承载我们全部的数字生活。
新智元
2025/04/22
3180
95后打造世界首个行动型浏览器——Fellou,从「浏览」到「行动」一键直达!
一文读懂 OpenAI 最新 Operator
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景最新突破 - 构建高效、灵活的创新的 AI Agent。
Luga Lee
2025/02/05
9851
一文读懂 OpenAI 最新 Operator
中国95后团队推出全球首个“行动浏览器”Fellou,以AI技术重塑生产力工具
在浏览器诞生三十余年之际,中国95后创业者谢扬及其团队正式发布全球首个“行动浏览器”Fellou,将人工智能代理(Agent)技术与浏览器深度融合,推动这一数字世界核心入口从“被动展示信息”向“主动执行任务”跨越。
前沿君
2025/04/25
3180
中国95后团队推出全球首个“行动浏览器”Fellou,以AI技术重塑生产力工具
AutoGLM 能操控手机,AI 未来已经来了?
最近,AutoGLM 刷屏了各大社交平台,我随即去看了一下它的介绍视频。这不正是我一直梦寐以求的 AI 智能助手吗?
算法一只狗
2025/03/31
4160
从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
自manus之后,浏览器(browser-use)重新进入人们的视野,这种新产品的交互模式打开了一种新的思路。
AIGC新知
2025/04/24
4540
从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
刚刚,智谱推出最新的 AutoGLM 沉思模型,不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator)。并且,这个会“边想边干”的智能体还能自己接单赚到钱。
深度学习与Python
2025/04/05
1410
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
OpenAI Agent来了!让 ChatGPT 自动执行你的想法,向代理时代迈出的小小一步。
今天,OpenAI 在 ChatGPT 中推出了名为“Tasks”(任务安排)的新功能。简单理解,就是允许模型在指定时间或周期,主动给我们推送消息或执行预先设定的对话逻辑。
AI进修生
2025/01/16
2190
OpenAI Agent来了!让 ChatGPT 自动执行你的想法,向代理时代迈出的小小一步。
Fellou:重新定义浏览体验的 AI 代理浏览器
在信息爆炸的时代,搜索引擎仍然是我们获取知识的主要工具,但它们的局限性也越来越明显——重复搜索、筛选无关信息、繁琐的点击操作,甚至在不同平台之间来回切换,影响了用户的工作效率和体验。Fellou,作为世界上首个 Agentic 浏览器,正以 AI 的方式重新定义我们的搜索体验,让信息获取更智能、更高效。
程序那些事儿
2025/05/05
2110
Fellou:重新定义浏览体验的 AI 代理浏览器
我破除了 ChatGPT 无法联网的魔咒!
前阵子我写过一篇文章,介绍了几种无需安装 ChatGPT Plugin,即可让其轻松破除无法联网的魔咒。
GitHubDaily
2023/04/27
2.7K0
我破除了 ChatGPT 无法联网的魔咒!
中国智造“Manus”横空出世:邀请码炒到10W?半天就翻车了?
今日科技圈上演 "抢码大战",Manus 内测邀请函引发全民抢购热潮。据不完全统计,二手交易平台已有超 200 个卖家挂售邀请码,报价从 5.8 万元至 10 万元不等,部分稀缺时段码源溢价率高达 300%。有科技博主戏称:"现在邀请码的含金量,堪比当年比特币矿机预售资格。"
@派大星
2025/03/10
900
中国智造“Manus”横空出世:邀请码炒到10W?半天就翻车了?
重磅!OpenAI正式推出智能体Operator:让AI帮你自动化浏览器任务
今天OpenAI正式推出Operator,一款能够通过自身浏览器为你自动化执行任务的智能助手,让这一切成为可能。
AgenticAI
2025/03/18
780
重磅!OpenAI正式推出智能体Operator:让AI帮你自动化浏览器任务
增强你的浏览器体验:免费启用 ChatGPT 功能
今天我要推荐的是一款非常不错的AI扩展程序,它同时支持 Microsoft Edge 和 Google Chrome 浏览器。
幻影龙王
2023/07/03
7680
增强你的浏览器体验:免费启用 ChatGPT 功能
看过智谱现场演示,我觉得AI要开始卷“动手能力”了
仅仅是几个KOL的评测文章,Manus就被捧上了神坛,邀请码被炒到上万元,淋漓尽致的诠释了用户对AI Agent的热忱。
Alter聊科技
2025/03/31
1070
开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!
大家好,我是星哥,之前介绍了几款开源的AI Agent的项目,比如 OpenManus、autoMate 今天继续给大家带来一个开源AI Agent的项目。
星哥玩云
2025/03/27
7830
开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!
盘点 | OpenAI已经发布的,预测接下来12天即将发布的大货
openai官方在X上发布帖子,即将在接下来的12天里接连发布全新的产品&模型能力。
AIGC新知
2024/12/05
4530
盘点 | OpenAI已经发布的,预测接下来12天即将发布的大货
免费ChatGPT4o灵办AI浏览器插件便捷
灵办AI就是您所需的最佳助手!我们为您带来了一款多功能AI工具,不仅能为您提供精准翻译,还能满足您的对话需求、智能续写、AI搜索、文档阅读、代码生成与修正等多种需求。灵办 AI,真正让工作和学习变得轻松高效!
神秘泣男子
2024/08/19
2120
免费ChatGPT4o灵办AI浏览器插件便捷
OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!
演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。
新智元
2025/02/15
1170
OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!
Coze:开启AI聊天机器人的全新篇章
在上篇文章第一个 AI 应用中写到我通过 Coze 平台开发了第一个 AI 应用,其实也没什么特别的,就一聊天机器人。我选择发布在 Discord,所以平常是这样使用的:
云水木石
2024/01/23
1.5K0
Coze:开启AI聊天机器人的全新篇章
o3 deep research: LLM 驱动的 Agent 综述
大型语言模型(LLM)的崛起在过去几年引发了人工智能领域的飞跃式发展。尤其是 2022 年底 OpenAI 推出的 ChatGPT,短短两个月内月活用户就突破一亿,成为史上用户增长最快的消费者应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。ChatGPT 所展现的强大自然语言对话和内容生成能力,如一场“核爆”引发全球对于通用人工智能的极大关注,各行各业开始思考如何将这类大模型应用到实际业务中。紧随其后,OpenAI 发布了更先进的 GPT-4 模型,能够理解更复杂的指令,并支持图像等多模态输入。这场由 ChatGPT 引领的LLM浪潮,不仅催生了大量类似产品和开源模型,也让“ AI 更自主地完成复杂任务”成为下一个技术探索热点。在这种背景下,由 LLM 驱动的 Agent(智能代理)概念逐渐兴起,成为 AI 技术爱好者和产业从业者共同关注的前沿方向。
立委
2025/03/08
2550
推荐阅读
相关推荐
AutoGLM的一小步,人机交互进化的一大步
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档