首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

作者头像
机器之心
发布于 2025-05-04 02:52:43
发布于 2025-05-04 02:52:43
1510
举报
文章被收录于专栏:机器之心机器之心
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理工大学等机构的研究者们提出了 InfiGUI-R1,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后反思。

  • 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
  • 论文链接:https://arxiv.org/abs/2504.14239
  • 项目仓库:https://github.com/Reallm-Labs/InfiGUI-R1
  • 模型地址:https://huggingface.co/Reallm-Labs/InfiGUI-R1-3B

从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战

想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点击它认为相关的按钮,但一旦遇到预期外的界面(如弹窗广告、加载失败),就容易卡壳或出错,因为它缺乏「规划」和「反思」的能力。

为了让 GUI 智能体更可靠、更智能地完成复杂任务,它们需要具备深思熟虑的推理能力。这意味着智能体的行为模式需要从简单的「感知 → 行动」转变为更高级的「感知 → 推理 → 行动」模式。这种模式要求智能体不仅能看懂界面,还要能:

  • 理解任务意图:将高层指令分解为具体的执行步骤
  • 进行空间推理:准确理解界面元素的布局和关系,定位目标
  • 反思与纠错:识别并从错误中恢复,调整策略

Actor2Reasoner 框架:两步走,打造深思熟虑的推理者

为了实现这一目标,研究团队提出了 Actor2Reasoner 框架,一个以推理为核心的两阶段训练方法,旨在逐步将 GUI 智能体从「反应式行动者」培养成「深思熟虑的推理者」。

图:Actor2Reasoner 框架概览

第一阶段:推理注入(Reasoning Injection)—— 打下推理基础

此阶段的核心目标是完成从「行动者」到「基础推理者」的关键转变。研究者们采用了空间推理蒸馏(Spatial Reasoning Distillation)技术。他们首先识别出模型在哪些交互步骤中容易因缺乏推理而出错(称之为「推理瓶颈样本」),然后利用能力更强的「教师模型」生成带有明确空间推理步骤的高质量执行轨迹。

通过在这些包含显式推理过程的数据上进行监督微调(SFT),引导基础模型学习在生成动作前,先进行必要的逻辑思考,特别是整合 GUI 视觉空间信息的思考。这一步打破了「感知 → 行动」的直接链路,建立了「感知 → 推理 → 行动」的基础模式。

第二阶段:深思熟虑增强(Deliberation Enhancement)—— 迈向高级推理

在第一阶段的基础上,此阶段利用强化学习(RL)进一步提升模型的「深思熟虑」能力,重点打磨规划和反思两大核心能力。研究者们创新性地引入了两种方法:

  • 目标引导:为了增强智能体「向前看」的规划和任务分解能力,研究者们设计了奖励机制,鼓励模型在其推理过程中生成明确且准确的中间子目标。通过评估生成的子目标与真实子目标的对齐程度,为模型的规划能力提供有效的学习信号。
  • 错误回溯:为了培养智能体「向后看」的反思和自我纠错能力,研究者们在 RL 训练中有针对性地构建了模拟错误状态或需要从错误中恢复的场景。例如,让模型学习在执行了错误动作后如何使用「返回」等操作进行「逃逸」,以及如何在「回到正轨」后重新评估并执行正确的动作。这种针对性的训练显著增强了模型的鲁棒性和适应性。

为了有效引导强化学习过程,研究者们还采用了一套专门适用于 GUI 多种任务场景的奖励函数,为智能体提供更佳的反馈。

InfiGUI-R1-3B:小参数,大能量

基于 Actor2Reasoner 框架,研究团队训练出了 InfiGUI-R1-3B 模型(基于 Qwen2.5-VL-3B-Instruct)。尽管只有 30 亿参数,InfiGUI-R1-3B 在多个关键基准测试中展现出了卓越的性能:

GUI 元素定位(Grounding)能力突出:

  • 在跨平台(移动、桌面、网页)的 ScreenSpot 基准上,平均准确率达到 87.5%,在移动、桌面、Web 平台的文本和图标定位任务上全面领先,达到同等参数量模型中 SOTA 水平。
  • 在更具挑战性、面向复杂高分屏桌面应用的 ScreenSpot-Pro 基准上,平均准确率达到 35.7%,性能比肩参数量更大且表现优异的 7B 模型(如 UI-TARS-7B),证明了其在复杂专业软件(例如 CAD、Office)界面上的指令定位准确性。

表:ScreenSpot 性能对比

图:ScreenSpot-Pro 性能对比

复杂任务执行(Trajectory)能力优异

在模拟真实安卓环境复杂任务的 AndroidControl 基准上(包含 Low 和 High 两个难度级别),成功率分别达到 92.1% 71.1%。这一成绩不仅超越了参数量相近的 SOTA 模型(如 UI-TARS-2B),甚至优于一些参数量远超自身的 7B 乃至 72B 模型(如 Aguvis-72B)。

表:AndroidControl 性能对比

这些结果充分证明了 Actor2Reasoner 框架的有效性。通过系统性地注入和增强推理能力,特别是规划和反思能力,InfiGUI-R1-3B 以相对较小的模型规模,在 GUI 理解和复杂任务执行方面取得了领先或极具竞争力的表现。

结语

InfiGUI-R1 和 Actor2Reasoner 框架的提出,为开发更智能、更可靠的 GUI 自动化工具开辟了新的道路。它证明了通过精心设计的训练方法,即使是小规模的多模态模型,也能被赋予强大的规划、推理和反思能力,从而更好地理解和操作我们日常使用的图形界面,向着真正「能思考、会纠错」的 AI 助手迈出了坚实的一步。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
经验之谈:内存问题造成数据库性能异常怎么破?
导读:在使用数据库的过程中,内存不足常常会引起数据库异常。但是内存不足,又会为数据库带来哪些具体的影响呢?本次,我们将通过某客户现场数据库在某个时段内性能严重下降的案例来展示由于主机内存不足而造成数据库日志写入卡顿的问题分析过程。通过本案例,我们也可以对相关问题的分析方法及解决建议有一些深入的了解。
数据和云
2020/03/11
1.2K0
经验之谈:内存问题造成数据库性能异常怎么破?
####### Scripts Summary #######
Scripts Summary Version: 1.0.1 issueDate: 2017-11-11 modifiedDate: 2017-11-28
Alfred Zhao
2019/05/24
5880
探索ASH 第一篇
老是在用ASH,对它的依赖感觉已经大于AWR,昨天心血来潮,想看看ash视图里面是怎么样的,过程也算曲折,不过也算抛砖引玉。 先看看v$active_session_history的情况。 -->是个同义词 SQL> select owner,object_name,object_type from dba_objects where object_name='V$ACTIVE_SESSION_HISTORY'; OWNER OBJECT_NAME
jeanron100
2018/03/13
1.1K0
如何通过 dba_hist_active_sess_history 分析数据库历史性能问题
如何通过 dba_hist_active_sess_history 分析数据库历史性能问题背景在很多情况下,当数据库发生性能问题的时候,我们并没有机会来收集足够的诊断信息,比如system state dump或者hang analyze,甚至问题发生的时候DBA根本不在场。这给我们诊断问题带来很大的困难。那么在这种情况下,我们是否能在事后收集一些信息来分析问题的原因呢?在Oracle 10G或者更高版本上,答案是肯定的。本文我们将介绍一种通过dba_hist_active_sess_history的数据来
lemotree
2022/06/21
2.6K1
Oracle案例:一次gc buffer busy acquire诊断
本案例来自某客户两节点rac的一次生产故障,现象是大面积的gc buffer busy acquire导致业务瘫痪。 首先查看1节点AWR头部信息和load profile: 1节点AWR 得到的关键信息点: 对于LCPU 256的系统,AAS=13379.42/59.91=223,说明系统非常繁忙或者遇到了异常等待。 sessions异常增长好几倍,DB CPU/DB Time占比非常低,说明是遇到了异常等待。 其余指标都还算正常。 既然是遇到异常等待,那么就看看top event部分: 1节点AWR
数据和云
2022/03/04
1.6K0
DBA命令速查6: 临时表空间( Temporary Tablespace)的相关确认SQL
编者按:留存一下供自己需要时查找。 【免责声明】本号文章仅代表个人观点,与任何公司无关,仅供参考。 编辑|SQL和数据库技术(ID:SQLplusDB) 临时表空间表空间信息 select * from dba_temp_free_space; 临时表空间的使用量 SELECT d.tablespace_name "Name" , NVL(a.bytes / 1024 / 1024, 0) "Size(MB)", NVL(t.bytes, 0) / 1024 / 1024 "U
SQLplusDB
2022/08/22
7790
资源下载丨Oracle优化工程师常用的34个脚本
墨墨导读:本文分享Oracle驻场工程师常用的脚本,基本上包含了日常监控、维护、故障定位及处理、SQL性能优化大部分场景,有了这些脚本会让你的工作变得更轻松,文末附下载链接。
数据和云
2021/03/09
7410
DBA常用SQL语句(6)- ​日常管理
由于 v$active_session_history 和 dba_hist_active_sess_history 的数据来源于 awr 和 ash 采样,记录并不完全,故查询结果并不准确。
Yunjie Ge
2022/04/23
5680
实战演练:洞若观火--治堵之道在清源
堵塞往往是一件可怕的事情,交通堵塞让人心烦意乱,水道堵塞城市就会臭气冲天,言路堵塞则是非难辨。数据库出现会话堵塞,则很可能造成系统业务中断,这对于 DBA 来说,是一个非常大的考验。
数据和云
2018/07/27
3880
实战演练:洞若观火--治堵之道在清源
记录一则enq: TX - row lock contention的分析过程
故障描述:与客户沟通,初步确认故障范围大概是在上午的8:30-10:30之间,反应故障现象是Tomcat的连接数满导致应用无法连接,数据库alert中无明显报错,需要协助排查原因。 1.导入包含故障时刻的数据 2.创建m_ash表,明确故障时刻 3.确定异常时刻的top n event 4.确定最终的top holder 5.总结 6.reference 1.导入包含故障时刻的数据 为了便于后续分析,我向客户索要了从昨天下午13:00到今天18:00的awrdump,导入到自己的实验环境进行分析。 生产环境
Alfred Zhao
2018/05/11
1.6K0
Oracle DBA的SQL编写技能提升宝典(含SQL资源)
背景:要迁移数据库,需要创建与源库相同的表空间,大小与源库相同。由于个别表空间较大,手工添加可能需要写很多的脚本,于是同事通过PL/SQL解决了问题。
数据和云
2021/10/13
1.2K0
Oracle DBA的SQL编写技能提升宝典(含SQL资源)
3个最常见案例详解DBA日常维护
导读:DBA的大部分工作都是围绕着对数据库的维护而展开的,常规的日常维护更是占了绝大多数。本节将围绕日常维护中最常见的三个案例展开讲解,与大家分享排查此类问题的思路。
IT阅读排行榜
2021/08/05
9790
3个最常见案例详解DBA日常维护
浏览器搞定一切的云时代:在线Oracle数据库运行环境+可访问Linux主机环境
现在有很多的各种数据库SQL在线运行网站,但是提供一个包含安装了数据库的在线的Linux环境的好像并不多。
SQLplusDB
2022/08/22
1.4K0
浏览器搞定一切的云时代:在线Oracle数据库运行环境+可访问Linux主机环境
【DB笔试面试823】在Oracle中,如何查看过去某一段时间数据库系统的会话是否有问题?
【DB笔试面试823】在Oracle中,如何查看过去某一段时间数据库系统的会话是否有问题?
AiDBA宝典
2020/06/17
2.2K0
另辟蹊径第二弹,时间规律里的秘密
墨墨导读:在上个月的数据技术嘉年华里,我做了名为《另辟蹊径:从其他角度去解决数据库问题》的案例分享,讲述了通过时间规律来解决系统故障的思路。结果,这两天又出了类似的案例。和大家分享一下解决这个新问题的过程。
数据和云
2021/02/08
4660
运维,诊断,健康检查,优化定制工具ora使用说明
使用工具的目的是为了提高工作效率, 先有思路和方法,然后再借助工具,方能达到事半功倍的效果.
老虎刘
2022/06/27
1.5K0
SQL工具集-查询会话等待
OLTP系统中,经常碰到的一种场景,就是某个操作卡住了,再从日志定位,很可能就看到是在执行某个增删改的数据库操作的时候出现hang的问题。
bisal
2020/08/25
8220
SQL工具集-查询会话等待
【DB笔试面试653】在Oracle中,请列举一次等待事件的处理案例。
对于这道面试题而言,每个人遇到的情况不一样,答案也就不一样。只需要列举自己曾经碰到的情况,然后讲述明白即可,下面作者给出自己曾经碰到的一个案例及其处理过程。
AiDBA宝典
2019/09/29
9700
【DB笔试面试653】在Oracle中,请列举一次等待事件的处理案例。
快速找到OEACLE的性能问题
对于传统应用系统,一旦系统性能测试达标上线后,后续出现性能恶化除了业务徒增之外,十有八九都是数据库惹的祸。通过快速的业务量比对排除异常后,重点的问题排查就要放到数据库性能上。今天我们就ORACLE数据库性能恶化的定位处理方法进行总结,用此方法可快速的找到故障原因。 数据库之所以出现性能恶化,其实就是在数据库所需要的CPU、内存、IO、网络等方面的现有的资源,无法满足当前系统所要消耗的资源。既然已经排除了业务量的徒增,也就间接说明这种消耗是非正常的消耗,我们把非正常消耗资源的业务逻辑找出来,也就间接的找到了性
企鹅号小编
2018/01/11
8340
快速找到OEACLE的性能问题
一线运维 DBA 五年经验常用 SQL 大全(三)
本文作为常用 SQL 系列的第三篇,本文涉及到的 SQL 及相关命令均是在运维工作中总结整理而成的,对于运维 DBA 来说可提高很大的工作效率,值得收藏下来慢慢看。
JiekeXu之路
2023/02/24
1.4K0
一线运维 DBA 五年经验常用 SQL 大全(三)
推荐阅读
相关推荐
经验之谈:内存问题造成数据库性能异常怎么破?
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档