Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI Agent如何开始自动化企业

AI Agent如何开始自动化企业

作者头像
云云众生s
发布于 2025-03-18 04:01:03
发布于 2025-03-18 04:01:03
990
举报
文章被收录于专栏:云云众生s云云众生s

Orby推出企业级AI模型LAM,用ActIO收集百万级“痕迹”数据,探索Salesforce、SAP等软件的自动化任务。对比OpenAI Operator,Orby强调“grounding”和AI Agent软件栈。建议CIO关注用户痛点,利用AI Agent简化耗时但易于自动化的流程,如费用报告审计,无需API集成,但需重视安全和人工参与。

译自:How AI Agents Are Starting To Automate the Enterprise 作者:Richard MacManus

到目前为止,2025 年是 AI agent 的一年——生成式 AI 技术被用于自动化操作。我们已经看到了 OpenAI 的 Operator 的首次亮相,展示了一个可以浏览网页并为你完成任务的原型 agent。现在,一家名为 Orby 的新公司正在将同样的方法引入企业,它称之为大型行动模型 (LAM) 的一种 AI 模型。

我与 Orby 的联合创始人兼首席技术官 Will Lu 谈论了企业中的 agent。在加入 Orby 之前,Lu 曾是 Google Cloud AI 的工程负责人。

那么什么是 LAM?它与 LLM 究竟有何不同?Lu 解释说,与 LLM 将文本或图像作为输入并生成文本或图像作为输出不同,LAM 专门为企业环境中的自动化任务而设计。他提到 Salesforce 和 SAP 作为其 LAM 探索过的 IT 软件产品的示例,目的是识别可以自动化的任务。

他继续说,LAM 将行动作为输入——例如应用程序屏幕截图、网页 HTML 内容、用户交互(例如鼠标点击和键盘输入)。他说,Orby 的 LAM 可以使用这些上下文来自动化复杂的工作流程。

Orby ActIO 图;通过 Orby

企业软件的痕迹

Lu 用“痕迹”一词来描述其基础 LAM(名为 ActIO)一直在收集的工作流程数据。他说,它已经收集了“超过一百万条痕迹,通常一条痕迹可能有 10 到 50 步长”。

在之后的澄清邮件中,Lu 扩展了“痕迹”的定义:

“…痕迹是完成特定任务的一系列操作。一个操作被捕获为上下文、网页应用程序的屏幕截图和 html 以及桌面应用程序的可访问性树的组合,以及诸如鼠标点击、按键类型等事件。”

他接着解释说,他们的软件会主动探索企业软件环境(例如,Salesforce、ERP 系统),以识别可以自动化的任务。该 agent 自主尝试这些任务,并且性能最佳的尝试(成功的痕迹)用于微调模型。

像大多数其他大型语言模型一样,Orby 已经在开放的 Web 数据上训练了 ActIO。但是,Lu 补充说,他们还可以使用客户的专有数据进行微调。

与 OpenAI 的 Operator 的比较

Orby 的解决方案与 OpenAI 的 Operator 有相似之处,后者于 1 月底 推出。Operator 目前仅适用于 Pro 用户(每月 200 美元),OpenAI 将其描述为“一个可以使用自己的浏览器为你执行任务的 agent 的研究预览”。在评论中,《纽约时报》的 Kevin Roose 称其为“与其说是一个我建议使用的产品,不如说是一个有趣的演示——而且绝对不是大多数人需要每月花费 200 美元的东西。”

我问 Lu,Orby 与 OpenAI Operator 相比如何?

他说,其中一个区别是 Orby 有一个它称之为“grounding”的概念。

“基本上,grounding 是 [对于] 你想要做的特定操作——例如,提交报告。所以这就是操作,然后你想找到可以完成该操作的元素,然后触发它。这称为 grounding 步骤。”

这个概念来自 Orby 与俄亥俄州立大学合作的一个项目,名为 UGround——被描述为“一种通用的视觉 grounding 模型,用于通过 GUI 上的像素坐标定位操作的元素”。UGround 在来自 130 万张屏幕截图的 1000 万个元素上进行了训练。

“当涉及到真正复杂的、真实的企业用例时,我们期望技术人员确保它能够大规模运行。” – Will Lu, Orby CTO

Lu 还指出,Orby 拥有一个 AI agent 软件堆栈,可提供给企业。

“所以基本上 […] 我们将其设计为用户可以演示如何完成任务。基于该演示,我们生成描述和描述下的代码以供运行。然后 […] 开发人员可以进入,查看描述和生成的代码,并根据他们的需求进行修改——然后根据应用程序定义的代码运行 agent。”

Lu 补充说,对于简单的任务,非技术员工可以运行这些任务。但是对于更复杂的“操作”,通常会涉及开发人员。

“当涉及到真正复杂的、真正的企业用例时,我们期望技术人员确保它能够大规模运行。例如,当一项任务目前由 100 个人完成时,您需要确保虚拟机设置正确,代理在相同的环境中运行,并且他们可以访问所有系统和所有凭据。”

给 CIO 的建议

AI 代理,或者用时髦的术语来说,智能代理 AI,已经迅速成为企业 IT 部门需要考虑的优先事项。所以我问 Lu,当考虑是否以及何时使用 AI 代理时,他会给 CIO 和其他企业 IT 领导者什么建议。

“我认为最关键的是找到用户正在寻找的真正的业务痛点,”他回答说。“然后,当涉及到业务痛点时,我们希望确定对用户来说非常耗时的步骤。”

他补充说,这些步骤对于人类员工来说可能很耗时,但“对于计算机来说真的非常容易”。

Orby 客户的一个用例是费用报告审计。

“几乎每个企业都有这个流程,而且这个流程有点乏味,”Lu 说。“你必须打开一份报告,查看所有的收据,查看所有填写的信息,然后检查信息是否匹配 [...]。还要根据公司定义的政策检查这些报告——例如,不允许饮酒。”

“……只要我们的代理能够访问系统 [...],我们就可以登录系统,然后开展工作。” – Lu

作为一名科技记者,我的本能后续问题是询问 Orby 的软件连接到哪些 API——例如,SAP。但 Lu 证实,这一切都是通过 AI 代理完成的;不需要 API。

“这就是我们解决方案的优势。我们 [Orby 的软件] 主要像人类操作这些系统一样操作这些应用程序。因此,不需要实际的集成。因此,只要我们的代理能够访问系统,只要我们有凭据,我们就可以登录系统,然后开展工作。”

那么,安全问题呢?Lu 证实,安全“始终是几乎所有企业的首要要求”,并且他们与每位客户合作解决这个问题。

最后,值得注意的是,即使 Orby 的目标是帮助企业自动化工作流程,但目前始终有人工参与。

“整个智能代理工作流程设计是我们整个产品的核心,因为今天的模型仍然不能 100% 工作,而且这种情况还会持续很长时间,”Lu 说。“因此,我们通过设计内置了人工参与流程。”

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-03-172,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
MaxKB = Max Knowledge Base,是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等
汀丶人工智能
2024/08/05
12.1K0
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
Agentic AI及其设计模式简介
微软推出 AI 代理,加深与 Salesforce 的竞争;这家总部位于华盛顿州雷德蒙德的软件制造商,周一表示,将推出 10 个自治agent,代表销售、客户支持和会计等领域的人员完成任务。
AIGC新知
2024/12/25
4140
Agentic AI及其设计模式简介
啥是AI Agent!2025年值得推荐入坑AI Agent的五大工具框架!(新手科普篇)
它是一种能够感知环境、自主决策并执行任务以实现特定目标的智能系统。它以大型语言模型(LLM)为核心,赋予机器自主性、适应性和交互性,使其能在复杂多变的环境中独立运作。简单来说,AI Agent 就像是一个拥有独立思考和行动能力的智能助手,能够理解你的需求,并通过调用各种工具和资源,为你完成一系列复杂的任务。
测试开发技术
2025/01/17
12.6K0
啥是AI Agent!2025年值得推荐入坑AI Agent的五大工具框架!(新手科普篇)
Agent-OS:用AI掌控你的电脑!!这个 AI 代理可以控制你的电脑并做任何事情!(生成应用程序、代码、RAG 等)
介绍Open interpreter最佳功能之一:OS 模式,如果不太了解这个开源项目,让我给你一个快速概述:
AI进修生
2024/12/02
6560
Agent-OS:用AI掌控你的电脑!!这个 AI 代理可以控制你的电脑并做任何事情!(生成应用程序、代码、RAG 等)
AI Agent,为什么是AIGC最后的杀手锏?
AI Agent无疑是当下大模型最激动人心的发展主线,被称为“大模型下一场战事”“最后的杀手产品”“开启新工业革命时代的Agent-centric”。11月7日,OpenAI首届开发者大会(OpenAI DevDay)引爆了AI Agent。OpenAI发布了AI Agent初期形态产品GPTs,并推出了相应的制作工具GPT Builder。用户仅仅通过跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成专属GPT。专属GPT可以在日常生活、特定任务、工作或家庭中更为适用。为此,OpenAI还开放了大量的新API(包括视觉、图像DALL·E3、语音),以及新推出的Assistants API,让开发者可以更便捷地开发自己专属的GPT。比尔·盖茨最新发表一篇文章明确提出,5年内AI Agent将大行其道,每个用户都将拥有一个专属AI Agent。用户不需要再因为不同的功能需求而使用不同的APP,他只需用日常语言告诉他的Agent想做什么就可以。[1]
小腾资讯君
2023/11/29
2.4K0
AI Agent,为什么是AIGC最后的杀手锏?
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
汀丶人工智能
2024/07/05
3K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
MCP:AI Agent和API之间缺失的环节
重磅!Anthropic推出开源标准MCP,标准化AI Agent的API访问!Speakeasy力推MCP Server Generation,连接LLM与API生态。对比OpenAPI,MCP是动态的Server-Client交互。Vercel、Dub已用上!未来或有更多AI巨头入局,LangChain、AutoGen等Agent框架迎来新机遇!
云云众生s
2025/03/15
3150
MCP:AI Agent和API之间缺失的环节
未来每个打工人都会有一个AI Copilot,然后是AI Agent
每个白领角色未来都会有一个AI副驾驶(AI Copilot)。其中一些角色将通过AI代理(AI Agent)完全自动化。
AIGC新知
2025/01/02
890
未来每个打工人都会有一个AI Copilot,然后是AI Agent
大模型应用:大模型AI Agent在企业应用中的6种基础类型,企业智慧升级必备
AI Agent 智能体在企业应用中落地的价值、场景、成熟度做了分析,并且探讨了未来企业 IT 基础设施与架构如何为未来 Gen AI(生成式 AI)做好准备。在这样的架构中,把最终体现上层应用能力的 AI Agent 从不同的技术要求与原理上分成了几类:
汀丶人工智能
2024/05/07
2.3K0
大模型应用:大模型AI Agent在企业应用中的6种基础类型,企业智慧升级必备
一文读懂 OpenAI 最新 Operator
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景最新突破 - 构建高效、灵活的创新的 AI Agent。
Luga Lee
2025/02/05
1.1K1
一文读懂 OpenAI 最新 Operator
98%财务顾问依赖AI,揭秘7家先锋企业如何解锁商业新格局
报告链接:https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf
新智元
2025/05/08
1240
98%财务顾问依赖AI,揭秘7家先锋企业如何解锁商业新格局
BioMaster:基于多智能体的生信自动分析系统
在生物信息学领域,随着生物数据的爆炸性增长,分析流程的复杂性也在不断增加。传统的生物信息学工具和流程往往依赖于大量的手动操作,这不仅效率低下,而且难以扩展。近年来,基于大型语言模型(LLM)的智能代理技术为自动化生物信息学分析带来了新的希望。然而,现有的自动化系统在处理复杂、多步骤的工作流程时仍面临诸多挑战,例如错误传播、对新工具的适应性有限以及在特定生物信息学任务中的泛化能力不足等问题。
实验盒
2025/02/05
2780
BioMaster:基于多智能体的生信自动分析系统
AI Agent,为什么是AIGC最后的杀手锏?
AI Agent无疑是当下大模型最激动人心的发展主线,被称为“大模型下一场战事”“最后的杀手产品”“开启新工业革命时代的Agent-centric”。11月7日,OpenAI首届开发者大会(OpenAI DevDay)引爆了AI Agent。OpenAI发布了AI Agent初期形态产品GPTs,并推出了相应的制作工具GPT Builder。用户仅仅通过跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成专属GPT。专属GPT可以在日常生活、特定任务、工作或家庭中更为适用。为此,OpenAI还开放了大量的新API(包括视觉、图像DALL·E3、语音),以及新推出的Assistants API,让开发者可以更便捷地开发自己专属的GPT。比尔·盖茨最新发表一篇文章明确提出,5年内AI Agent将大行其道,每个用户都将拥有一个专属AI Agent。用户不需要再因为不同的功能需求而使用不同的APP,他只需用日常语言告诉他的Agent想做什么就可以。[1]
腾讯研究院
2023/12/07
1.8K0
AI Agent,为什么是AIGC最后的杀手锏?
Agent系列教程01-什么是Agent?当今为什么这么重要?
Agent(智能体)是一个能够基于数据自主完成任务或做出决策的程序。它与 AI模型对话,以使用工具和资源执行基于目标的操作。
致Great
2025/04/12
6160
Agent系列教程01-什么是Agent?当今为什么这么重要?
企业现在可以实施的五个生成式 AI 用例
围绕生成式AI 的炒作是真实存在的,数据和机器学习团队也感受到了热度。各个行业的高管都在推动他们的数据领导者构建AI驱动的产品,以节省时间、增加收入或者获得竞争优势。
大数据杂货铺
2023/11/13
4700
企业现在可以实施的五个生成式 AI 用例
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
在人工智能技术迅猛发展的当下,字节跳动推出了一款名为Agent TARS的开源多模态AI智能体,迅速引起了业界和学术界的广泛关注。作为一款基于UI-TARS模型的创新工具,Agent TARS旨在通过自然语言指令实现对计算机的自动化控制,尤其是在图形用户界面(GUI)交互中表现出色。它的开源性质不仅降低了技术应用的门槛,还为开发者提供了广阔的定制空间,推动了AI技术在自动化、用户体验提升以及多领域融合中的发展。
AI.NET 极客圈
2025/04/11
1.1K0
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
随着人工智能技术的快速发展,AI 正在从单纯的文本生成和图像识别迈向更复杂的交互场景。ByteDance 近期推出的 UI-TARS Desktop(基于其强大的 UI-TARS 视觉-语言模型)为我们展示了一种全新的可能性:通过自然语言控制计算机,实现图形用户界面(GUI)的智能化自动化。本文将围绕 GitHub 上开源的 UI-TARS Desktop 项目,探讨其技术亮点、应用场景以及如何快速上手体验这一前沿工具。
码事漫谈
2025/03/24
1.2K0
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
AI Agent的类型、优势及应用
AI 代理是重塑商业动态的关键技术进步。了解这些代理的运作方式,发现它们的关键优势包括效率、可扩展性和成本效益。我们将探索代理的实例及它们在各领域的应用,为未来的人工智能趋势和对客户体验的影响铺平道路。
大数据杂货铺
2024/05/27
4740
AI Agent的类型、优势及应用
Agent:数字代理的崛起与未来
在ChatGPT引发的人工智能热潮中,我们亲眼见证了AI应用形态的戏剧性演变。回想2022年底,当人们首次体验ChatGPT时,那种震撼感仍历历在目——一个能够理解复杂问题并提供流畅回答的聊天机器人(chatbot),彻底改变了我们对机器智能的期望。这种应用形态——我们姑且称之为"对话式AI"——本质上是大语言模型(LLM)应用的初级表现形式,一种简单的信息交换机制。
立委
2025/03/08
2090
鏖战企业级市场,AI Agent如何重塑智能商业未来?
暂且不论Manus自身性能究竟达到何种高度,其引发的从“被动应答”到“主动执行”的颠覆性范式跃迁,正以前所未有的态势,不断突破繁杂业务流程场景下智能化的边界,为企业级市场带来无限可能。
科技云报道
2025/04/10
1540
鏖战企业级市场,AI Agent如何重塑智能商业未来?
推荐阅读
相关推荐
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档