前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >为什么 AI 能一句话操作手机和电脑?(GUI Agent 最新综述)

为什么 AI 能一句话操作手机和电脑?(GUI Agent 最新综述)

作者头像
陈宇明
发布于 2025-02-26 07:13:21
发布于 2025-02-26 07:13:21
1200
举报
文章被收录于专栏:设计模式设计模式

来自《Large Language Model-Brained GUI Agents: A Survey》综述总结

这篇文章要解决的问题是如何利用大型语言模型(LLMs)来增强图形用户界面(GUI)自动化代理的能力。具体来说,研究如何通过LLMs的解释复杂GUI元素和基于自然语言指令自主执行动作来实现更智能、更灵活的自动化。

该问题的研究相关工作包括早期的基于脚本或规则的方法、近年来引入的机器学习计算机视觉技术、以及最近的大型语言模型在GUI自动化中的应用。

利用大型语言模型(LLMs)来增强GUI自动化代理的方法:

  1. 架构和流程:一个基本的LLM驱动GUI代理的架构,包括操作环境、提示工程、模型推理、动作执行和内存管理五个主要组件。操作环境负责感知当前环境状态,提示工程构建输入提示以指导LLM进行推理,模型推理生成计划和动作,动作执行模拟用户操作,内存管理用于跟踪多步骤任务的状态。
  2. 平台特定感知:针对不同平台(移动设备、Web、桌面操作系统),代理使用不同的工具和技术来感知环境状态。例如,移动设备使用Accessibility API,Web使用Selenium,桌面操作系统使用Windows UI Automation。
  3. 提示工程:提示工程是关键步骤,涉及将用户请求、环境状态、可用动作等信息整合成一个结构化的输入提示。公式:Prompt=User Request+Agent Instruction+Environment States+Action Documents+Demonstrated Examples+Complementary Information
  4. 模型推理:模型推理部分将结构化提示输入到LLM中,生成计划和动作。LLM可以生成多种类型的输出,包括规划、动作和补充信息。
  5. 动作执行:动作执行部分将推理结果转化为具体的用户界面操作,如点击、输入文本、滚动等。代理还使用各种工具和技术来增强其操作能力,如API调用和AI工具。

关键问题及回答

问题1:LLM-brained GUI代理在架构和流程上有哪些关键组件?它们各自的作用是什么?

LLM-brained GUI代理的架构包括五个主要组件:操作环境、提示工程、模型推理、动作执行和内存管理。

  1. 操作环境:负责感知当前环境状态,包括通过截图、控件属性和UI元素树等方式获取GUI的视觉和结构信息。
  2. 提示工程:将用户指令和环境数据整合成结构化输入,确保LLMs能够理解任务需求并生成合适的动作。提示包括用户指令、环境状态、动作文档、示范示例和补充信息等。
  3. 模型推理:通过LLMs生成计划和动作。推理过程包括规划和动作推断两个主要步骤。规划部分将长期任务分解为可管理的子任务,并使用链式思维(CoT)等方法进行规划;动作推断部分则将规划结果转化为具体的动作序列。
  4. 动作执行:将推理结果转化为实际的动作,这些动作可以是标准的UI操作、原生API调用或AI工具的使用。通过这些动作,代理能够在GUI环境中执行复杂的任务。
  5. 内存管理:对于多步任务的执行至关重要。短期记忆(STM)用于存储当前任务的相关信息,而长期记忆(LTM)则用于存储历史任务数据和策略。通过内存管理,代理能够在多步任务中保持连续性和一致性。

这些组件共同确保LLM-brained GUI代理能够高效、准确地执行复杂的GUI自动化任务。

问题2:LLM-brained GUI代理在数据收集和预处理方面有哪些具体的方法和步骤?

  1. 数据收集:
  • 用户指令:可以通过人工设计、现有数据集或LLM生成。人工设计的指令需要确保覆盖各种实际应用场景,现有数据集可以提供初始的指令样本,而LLM生成则可以扩展指令的多样性和复杂性。
  • 环境感知:包括GUI截图、控件属性和UI元素树等。截图可以通过屏幕捕捉工具获取,控件属性和UI元素树则可以通过专门的工具和库提取。
  • 任务轨迹:需要记录代理执行任务过程中的每一步操作,包括点击、输入、滚动等,以生成完整的任务轨迹。
  1. 数据预处理
  • 数据清洗:去除重复、无效或错误的数据,确保数据的准确性和一致性。
  • 去重:识别并消除数据集中的重复项,避免对模型训练造成干扰。
  • 格式化:将数据转换为适合模型训练的格式,如统一的数据结构和编码方式。
  • 数据增强:通过变换、扩充和裁剪等手段增加数据集的多样性和复杂性,提高模型的泛化能力。

通过这些数据收集和预处理步骤,LLM-brained GUI代理能够获得高质量、多样化的训练数据,从而提升其在复杂GUI环境中的表现。

问题3:LLM-brained GUI代理在模型推理和动作执行方面有哪些创新的技术和方法?

  1. 模型推理:
  • 规划和动作推断:将长期任务分解为可管理的子任务,并使用链式思维(CoT)等方法进行规划。动作推断部分则将规划结果转化为具体的动作序列。
  • 多模态处理:结合文本和图像信息,提升模型对复杂GUI环境的理解能力。例如,使用视觉语言模型(VLM)和视觉变换器(ViT)结合文本和图像数据进行推理。
  • 强化学习:通过强化学习优化代理的动作选择和执行策略,特别是在需要多步操作和长期规划的任务中表现优异。
  1. 动作执行:
  • 标准UI操作:包括点击、输入、滚动等基本的用户界面操作。
  • 原生API调用:利用特定应用的API进行更复杂的任务操作,如文件操作、网络请求等。
  • AI工具的使用:集成OCR、图像生成、数据分析等AI工具,提升代理在复杂任务中的表现。例如,使用DALL·E生成图像,使用ChatGPT进行文本生成和问答。

这些创新的技术和方法使得LLM-brained GUI代理能够在复杂多变的GUI环境中实现高效的自动化任务,提升了代理的适应性和智能化水平。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 码个蛋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI论文速读 | [综述]大语言模型时代的城市计算
论文标题:Urban Computing in the Era of Large Language Models
时空探索之旅
2025/04/14
900
AI论文速读 | [综述]大语言模型时代的城市计算
基于LLM的异构多机器人操作系统EMOS的深度解析
论文提出了一种名为EMOS(Embodiment-aware Heterogeneous Multi-robot Operating System)的新型多智能体框架,旨在解决异构多机器人系统(HMRS)中物理形态感知缺失的核心问题。传统LLM-based多智能体系统依赖人工角色分配,而EMOS通过自动生成"机器人简历"(Robot Resume)动态描述机器人硬件能力,并结合分层任务规划机制实现协作。
一点人工一点智能
2025/04/10
970
基于LLM的异构多机器人操作系统EMOS的深度解析
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录
随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能现实世界中可实际部署的高效工具,成为了业界关注的焦点。
新智元
2025/04/13
1220
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录
2024 Agent AI综述,14位顶尖学者(来自微软、斯坦福等)联合撰写!
《Agent AI: Surveying the Horizons of Multimodal Interaction》一个能够感知和在不同领域和应用中行动的Agent AI系统的概述。Agent AI正作为一个有前景的途径走向人工智能(AGI)。
陈宇明
2025/02/26
860
2024 Agent AI综述,14位顶尖学者(来自微软、斯坦福等)联合撰写!
理解什么是AI Agent,看懂这篇就够了
AI Agent越来越为人们熟知,我们熟悉的那种对话式大模型,正在慢慢淡出视野。但这些Agent所包含的复杂功能,往往需要许多组件模块协同工作。
AIGC新知
2025/03/21
4430
理解什么是AI Agent,看懂这篇就够了
深入浅出 AI 智能体(AI Agent)|技术干货
随着人工智能技术的飞速发展,智能体(AI Agents)正逐渐成为人与大模型(如大语言模型)交互的主要方式。智能体是能够执行任务、解决问题并提供服务的 AI 系统,它们通过模拟人类的行为和决策过程,使得与大模型的交互更加自然、高效和个性化。
Botnow
2024/09/10
4.4K0
深入浅出 AI 智能体(AI Agent)|技术干货
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
斯坦福大学李飞飞、微软研究院首席研究员等联合撰写的论文,这篇 Agent AI 综述一共80页。
AIGC新知
2025/02/07
4740
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
3250
【愚公系列】《AI Agent技术、应用与商业》006-Al Agent的架构和组成
在人工智能的快速发展中,智能代理(AI Agent)成为了推动各行各业智能化转型的重要力量。无论是在智能客服、智能推荐,还是在自动化决策系统中,智能代理都扮演着至关重要的角色。然而,很多人对智能代理的内部架构和组成部分仍然感到陌生。它们是如何工作的?又由哪些关键组件构成?
愚公搬代码
2025/03/15
1950
【综述专栏】AI智能体面临的威胁:关键安全挑战与未来路径
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2024/06/18
1K0
【综述专栏】AI智能体面临的威胁:关键安全挑战与未来路径
【论文解读】针对机器人技术的大模型
大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本LLM经常面临挑战。本研究提供了一个新兴的LLM和多模态LLM集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。基于不同数据集的结果表明,GPT-4V有效地提高了机器人在具体化任务中的性能。对各种机器人任务中的LLM和多模态LLM的广泛调查和评估丰富了对以LLM为中心的具身智能的理解,并为弥合人类-机器人-环境交互中的差距提供了前瞻性的见解。
合合技术团队
2024/06/06
2740
【论文解读】针对机器人技术的大模型
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
想象这样一个场景:微信上给xxx发送祝福语,再给他发送一个新春图片和一个新春祝贺视频。
新智元
2025/02/15
720
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
在当今科技迅猛发展的时代,人工智能(AI)已经渗透到我们日常生活的方方面面。从智能家居到自动驾驶汽车,AI技术的应用无处不在。而在这一广泛的应用背后,有一个关键的概念——AI Agent,它为这些智能系统的高效运作提供了基础支持。那么,究竟什么是AI Agent?它具备哪些独特的特征?又该如何准确定义这一概念呢?在本文中,我们将深入探讨AI Agent的基本概念、核心特征以及其在实际应用中的重要性。希望通过这篇文章,能够帮助您更好地理解和把握这一前沿科技领域的关键要素。
愚公搬代码
2025/03/10
1760
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了 Agent 相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。
机器之心
2023/09/19
11.9K0
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。
机器之心
2025/02/03
850
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
一文详尽之LLM-Based Agent
知乎链接:https://zhuanlan.zhihu.com/p/13905150871
Datawhale
2025/02/05
5920
一文详尽之LLM-Based Agent
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。」
新智元
2023/10/26
2680
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
每日论文速递 | Agent控制电脑!用多模态Agent玩荒野大镖客!
摘要:最近的研究已经证明了基础代理在特定任务或场景中的成功。然而,现有的代理无法在不同的场景中进行泛化,主要是由于它们的观察和行动空间的多样性以及语义差距,或者依赖于特定任务的资源。在这项工作中,我们提出了通用计算机控制(GCC)设置:构建基础代理,它们可以通过仅以计算机的屏幕图像(可能还包括音频)作为输入,并产生键盘和鼠标操作作为输出,类似于人机交互,从而掌握任何计算机任务。为了针对GCC,我们提出了Cradle,一个具有强大推理能力的代理框架,包括自我反思、任务推理和技能培养,以确保在各种任务中具有泛化能力和自我提升能力。为了展示Cradle的能力,我们将其部署在复杂的AAA游戏《荒野大镖客II》,作为朝着GCC迈出的一次初步尝试,这是一个具有挑战性的目标。我们的代理可以在这款复杂的AAA游戏中按照主线剧情进行,并完成真实任务,几乎不依赖于先前的知识和应用特定资源。
zenRRan
2024/03/14
4520
每日论文速递 | Agent控制电脑!用多模态Agent玩荒野大镖客!
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
随着人工智能技术的快速发展,AI 正在从单纯的文本生成和图像识别迈向更复杂的交互场景。ByteDance 近期推出的 UI-TARS Desktop(基于其强大的 UI-TARS 视觉-语言模型)为我们展示了一种全新的可能性:通过自然语言控制计算机,实现图形用户界面(GUI)的智能化自动化。本文将围绕 GitHub 上开源的 UI-TARS Desktop 项目,探讨其技术亮点、应用场景以及如何快速上手体验这一前沿工具。
码事漫谈
2025/03/24
8760
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
o3 deep research: LLM 驱动的 Agent 综述
大型语言模型(LLM)的崛起在过去几年引发了人工智能领域的飞跃式发展。尤其是 2022 年底 OpenAI 推出的 ChatGPT,短短两个月内月活用户就突破一亿,成为史上用户增长最快的消费者应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。ChatGPT 所展现的强大自然语言对话和内容生成能力,如一场“核爆”引发全球对于通用人工智能的极大关注,各行各业开始思考如何将这类大模型应用到实际业务中。紧随其后,OpenAI 发布了更先进的 GPT-4 模型,能够理解更复杂的指令,并支持图像等多模态输入。这场由 ChatGPT 引领的LLM浪潮,不仅催生了大量类似产品和开源模型,也让“ AI 更自主地完成复杂任务”成为下一个技术探索热点。在这种背景下,由 LLM 驱动的 Agent(智能代理)概念逐渐兴起,成为 AI 技术爱好者和产业从业者共同关注的前沿方向。
立委
2025/03/08
2050
推荐阅读
AI论文速读 | [综述]大语言模型时代的城市计算
900
基于LLM的异构多机器人操作系统EMOS的深度解析
970
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录
1220
2024 Agent AI综述,14位顶尖学者(来自微软、斯坦福等)联合撰写!
860
理解什么是AI Agent,看懂这篇就够了
4430
深入浅出 AI 智能体(AI Agent)|技术干货
4.4K0
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
4740
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
3250
【愚公系列】《AI Agent技术、应用与商业》006-Al Agent的架构和组成
1950
【综述专栏】AI智能体面临的威胁:关键安全挑战与未来路径
1K0
【论文解读】针对机器人技术的大模型
2740
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
720
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
1760
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
11.9K0
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
850
一文详尽之LLM-Based Agent
5920
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
2680
每日论文速递 | Agent控制电脑!用多模态Agent玩荒野大镖客!
4520
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
8760
o3 deep research: LLM 驱动的 Agent 综述
2050
相关推荐
AI论文速读 | [综述]大语言模型时代的城市计算
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档