首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

作者头像
机器之心
发布于 2025-05-04 02:52:43
发布于 2025-05-04 02:52:43
1730
举报
文章被收录于专栏:机器之心机器之心
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理工大学等机构的研究者们提出了 InfiGUI-R1,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后反思。

  • 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
  • 论文链接:https://arxiv.org/abs/2504.14239
  • 项目仓库:https://github.com/Reallm-Labs/InfiGUI-R1
  • 模型地址:https://huggingface.co/Reallm-Labs/InfiGUI-R1-3B

从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战

想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点击它认为相关的按钮,但一旦遇到预期外的界面(如弹窗广告、加载失败),就容易卡壳或出错,因为它缺乏「规划」和「反思」的能力。

为了让 GUI 智能体更可靠、更智能地完成复杂任务,它们需要具备深思熟虑的推理能力。这意味着智能体的行为模式需要从简单的「感知 → 行动」转变为更高级的「感知 → 推理 → 行动」模式。这种模式要求智能体不仅能看懂界面,还要能:

  • 理解任务意图:将高层指令分解为具体的执行步骤
  • 进行空间推理:准确理解界面元素的布局和关系,定位目标
  • 反思与纠错:识别并从错误中恢复,调整策略

Actor2Reasoner 框架:两步走,打造深思熟虑的推理者

为了实现这一目标,研究团队提出了 Actor2Reasoner 框架,一个以推理为核心的两阶段训练方法,旨在逐步将 GUI 智能体从「反应式行动者」培养成「深思熟虑的推理者」。

图:Actor2Reasoner 框架概览

第一阶段:推理注入(Reasoning Injection)—— 打下推理基础

此阶段的核心目标是完成从「行动者」到「基础推理者」的关键转变。研究者们采用了空间推理蒸馏(Spatial Reasoning Distillation)技术。他们首先识别出模型在哪些交互步骤中容易因缺乏推理而出错(称之为「推理瓶颈样本」),然后利用能力更强的「教师模型」生成带有明确空间推理步骤的高质量执行轨迹。

通过在这些包含显式推理过程的数据上进行监督微调(SFT),引导基础模型学习在生成动作前,先进行必要的逻辑思考,特别是整合 GUI 视觉空间信息的思考。这一步打破了「感知 → 行动」的直接链路,建立了「感知 → 推理 → 行动」的基础模式。

第二阶段:深思熟虑增强(Deliberation Enhancement)—— 迈向高级推理

在第一阶段的基础上,此阶段利用强化学习(RL)进一步提升模型的「深思熟虑」能力,重点打磨规划和反思两大核心能力。研究者们创新性地引入了两种方法:

  • 目标引导:为了增强智能体「向前看」的规划和任务分解能力,研究者们设计了奖励机制,鼓励模型在其推理过程中生成明确且准确的中间子目标。通过评估生成的子目标与真实子目标的对齐程度,为模型的规划能力提供有效的学习信号。
  • 错误回溯:为了培养智能体「向后看」的反思和自我纠错能力,研究者们在 RL 训练中有针对性地构建了模拟错误状态或需要从错误中恢复的场景。例如,让模型学习在执行了错误动作后如何使用「返回」等操作进行「逃逸」,以及如何在「回到正轨」后重新评估并执行正确的动作。这种针对性的训练显著增强了模型的鲁棒性和适应性。

为了有效引导强化学习过程,研究者们还采用了一套专门适用于 GUI 多种任务场景的奖励函数,为智能体提供更佳的反馈。

InfiGUI-R1-3B:小参数,大能量

基于 Actor2Reasoner 框架,研究团队训练出了 InfiGUI-R1-3B 模型(基于 Qwen2.5-VL-3B-Instruct)。尽管只有 30 亿参数,InfiGUI-R1-3B 在多个关键基准测试中展现出了卓越的性能:

GUI 元素定位(Grounding)能力突出:

  • 在跨平台(移动、桌面、网页)的 ScreenSpot 基准上,平均准确率达到 87.5%,在移动、桌面、Web 平台的文本和图标定位任务上全面领先,达到同等参数量模型中 SOTA 水平。
  • 在更具挑战性、面向复杂高分屏桌面应用的 ScreenSpot-Pro 基准上,平均准确率达到 35.7%,性能比肩参数量更大且表现优异的 7B 模型(如 UI-TARS-7B),证明了其在复杂专业软件(例如 CAD、Office)界面上的指令定位准确性。

表:ScreenSpot 性能对比

图:ScreenSpot-Pro 性能对比

复杂任务执行(Trajectory)能力优异

在模拟真实安卓环境复杂任务的 AndroidControl 基准上(包含 Low 和 High 两个难度级别),成功率分别达到 92.1% 71.1%。这一成绩不仅超越了参数量相近的 SOTA 模型(如 UI-TARS-2B),甚至优于一些参数量远超自身的 7B 乃至 72B 模型(如 Aguvis-72B)。

表:AndroidControl 性能对比

这些结果充分证明了 Actor2Reasoner 框架的有效性。通过系统性地注入和增强推理能力,特别是规划和反思能力,InfiGUI-R1-3B 以相对较小的模型规模,在 GUI 理解和复杂任务执行方面取得了领先或极具竞争力的表现。

结语

InfiGUI-R1 和 Actor2Reasoner 框架的提出,为开发更智能、更可靠的 GUI 自动化工具开辟了新的道路。它证明了通过精心设计的训练方法,即使是小规模的多模态模型,也能被赋予强大的规划、推理和反思能力,从而更好地理解和操作我们日常使用的图形界面,向着真正「能思考、会纠错」的 AI 助手迈出了坚实的一步。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GUI定位还在玩「非黑即白」?浙大&蚂蚁提出GUI-G²,显著提升GUI智能体定位性能
本文第一作者唐飞,浙江大学硕士生,研究方向是 GUI Agent、多模态推理等。该工作为唐飞在蚂蚁大安全实习期间完成,蚂蚁大安全致力于打造通用GUI操作智能体,本文为蚂蚁UI-Agent(后续发布)的部分内容。本文通讯作者沈永亮,浙江大学百人计划研究员,博士生导师,研究方向包括大模型推理、多模态大模型、智能体等。
机器之心
2025/08/06
1010
GUI定位还在玩「非黑即白」?浙大&蚂蚁提出GUI-G²,显著提升GUI智能体定位性能
强化学习赋能视觉-语言-动作模型:进展、机制与前景综述
视觉-语言-动作(Vision-Language-Action, VLA)模型作为具身智能的核心范式,正推动机器人及自动驾驶向通用决策系统演进。然而,传统监督微调(SFT)依赖高质量演示数据、泛化能力有限、难以适应动态环境等瓶颈日益凸显。强化学习(RL)技术通过引入目标驱动、环境交互与奖励信号,为突破VLA模型的上限提供了关键路径。
点云PCL博主
2025/08/08
1790
强化学习赋能视觉-语言-动作模型:进展、机制与前景综述
多智能体强化学习算法【一】【MAPPO、MADDPG、QMIX】
     近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统;以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法(例如 IMPALA[8])训练得到的,这就意味着需要很高的并行度和庞大的算力支持,例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来收集数据样本和训练网络
汀丶人工智能
2022/12/21
6.5K0
多智能体强化学习算法【一】【MAPPO、MADDPG、QMIX】
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。
机器之心
2025/02/03
4420
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战,我们提出了一个新颖的框架:从反思反馈中强化学习Reinforcement Learning from Reflective Feedback (RLRF),它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应,然后通过 RL 算法对模型进行微调,同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明,RLRF 的功效和变革潜力超出了表面的调整。
zenRRan
2024/04/11
5950
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
5690
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
在人工智能技术迅猛发展的当下,字节跳动推出了一款名为Agent TARS的开源多模态AI智能体,迅速引起了业界和学术界的广泛关注。作为一款基于UI-TARS模型的创新工具,Agent TARS旨在通过自然语言指令实现对计算机的自动化控制,尤其是在图形用户界面(GUI)交互中表现出色。它的开源性质不仅降低了技术应用的门槛,还为开发者提供了广阔的定制空间,推动了AI技术在自动化、用户体验提升以及多领域融合中的发展。
AI.NET 极客圈
2025/04/11
1.7K0
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
顶着明星归光环的 Operator,也有国内平替
在《OpenAI 又放大招,这次是对浏览器下手》这篇文章中,我给大家介绍了 OpenAI 最新推出的智能体。虽然这两年智能体的概念不鲜见,但 OpenAI 公司并不认为这是一个普普通通都智能体产品, 给 Operator 开设了单独的产品界面,将它视为与 ChatGPT、Sora 并列的关系,可见 OpenAI 对其的重视。
云水木石
2025/02/05
3080
顶着明星归光环的 Operator,也有国内平替
听说你的多智能体强化学习算法不work?那你用对MAPPO了吗?
近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统;以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法(例如 IMPALA[8])训练得到的,这就意味着需要很高的并行度和庞大的算力支持,例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来收集数据样本和训练网络。
机器之心
2021/03/15
1.6K0
听说你的多智能体强化学习算法不work?那你用对MAPPO了吗?
NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务
本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 会议接收。本文主要作者来自哈尔滨工业大学 (深圳) 邵睿团队,合作单位为鹏城实验室。其中,第一作者李在京就读于哈尔滨工业大学 (深圳) 计算机学院,研究方向为开放世界智能体和多模态学习。
机器之心
2025/02/14
1830
NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
然而,使用通用大型语言模型(LLM)作为GUI智能体仍然存在难点:1)如何可靠地识别用户界面中的可交互图标,以及 2)理解截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。
新智元
2025/03/07
3190
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
一直以来,DeepMind 引领了强化学习(RL)智能体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。
机器之心
2023/08/08
3490
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
汀丶人工智能
2024/07/05
3.7K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
「Next-Token」范式改变!刚刚,强化学习预训练来了
在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」
机器之心
2025/06/12
1230
「Next-Token」范式改变!刚刚,强化学习预训练来了
LLM+模仿学习,解决真实世界中的复杂任务:AI2提出SwiftSage
GPT-4 等大型语言模型(LLM)在许多推理任务上表现出色,然而,大部分现有研究仅关注静态环境下的任务,如回答问题或解数学题。那么,LLM 能否在真实世界中完成复杂的交互式任务呢?例如,如果我们想制作一个智能体(agent),让它在物理世界里完成一些实验,比如测试一个物体是否导电,我们可以使用 LLM 吗?这类复杂交互式任务(complex interactive tasks)具有很大的挑战性,因为它要求 LLM 不仅能理解动态变化的真实场景,还需要具备诸如长期规划(long-horion planning)、任务分解(task 的 composition)、记忆储存(memorization)、常识推理(commonsense reasoning)、异常处理(exception handling)等高阶认知和推理能力。
机器之心
2023/08/07
4670
LLM+模仿学习,解决真实世界中的复杂任务:AI2提出SwiftSage
谷歌推出全新强化学习智能体,1秒处理240万帧大幅超越IMPALA
DeepMind的强化学习研究小组领导人,AlphaGo、AlphaZero的首席研究员及AlphaStar的联合负责人David Silver教授曾经介绍过强化学习的是原则,其中No. 2就是可伸缩性,并认为“算法的可扩展性最终决定了它的成功与否”。从这个角度上看,SEED作为一个在真正大规模架构上的可扩展Deep-RL框架,无疑是RL领域的重要贡献。
新智元
2020/04/01
5030
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
想象这样一个场景:微信上给xxx发送祝福语,再给他发送一个新春图片和一个新春祝贺视频。
新智元
2025/02/15
1340
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统
本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。
机器之心
2025/07/03
1760
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统
GUI Agent 借鉴R1-Zero范式:结合在线RL与思维链推理,三策略突破GUIAgent定位性能瓶颈 !
致力于分享前沿科技,为你带来最新的 AI 人工趋势、深度解读和实用应用,助你更好地了解和应用人工智能,与智能时代同步前行。
AIGC 先锋科技
2025/06/11
2470
GUI Agent 借鉴R1-Zero范式:结合在线RL与思维链推理,三策略突破GUIAgent定位性能瓶颈 !
YOLO-MARL:大语言模型驱动的多智能体强化学习一体化框架
本文从摘要介绍到实验验证,系统剖析这一结合大语言模型(LLM)与多智能体强化学习(MARL)的创新框架。论文提出了一种名为YOLO-MARL的新方法,通过单次LLM交互生成高级规划函数,显著降低了传统方法中频繁调用LLM带来的计算开销,同时在多个测试环境中展现出优越性能。
一点人工一点智能
2025/07/31
1560
YOLO-MARL:大语言模型驱动的多智能体强化学习一体化框架
推荐阅读
GUI定位还在玩「非黑即白」?浙大&蚂蚁提出GUI-G²,显著提升GUI智能体定位性能
1010
强化学习赋能视觉-语言-动作模型:进展、机制与前景综述
1790
多智能体强化学习算法【一】【MAPPO、MADDPG、QMIX】
6.5K0
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
4420
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
5950
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
5690
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
1.7K0
顶着明星归光环的 Operator,也有国内平替
3080
听说你的多智能体强化学习算法不work?那你用对MAPPO了吗?
1.6K0
NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务
1830
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
3190
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
3490
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
3.7K0
「Next-Token」范式改变!刚刚,强化学习预训练来了
1230
LLM+模仿学习,解决真实世界中的复杂任务:AI2提出SwiftSage
4670
谷歌推出全新强化学习智能体,1秒处理240万帧大幅超越IMPALA
5030
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
1340
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统
1760
GUI Agent 借鉴R1-Zero范式:结合在线RL与思维链推理,三策略突破GUIAgent定位性能瓶颈 !
2470
YOLO-MARL:大语言模型驱动的多智能体强化学习一体化框架
1560
相关推荐
GUI定位还在玩「非黑即白」?浙大&蚂蚁提出GUI-G²,显著提升GUI智能体定位性能
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档