前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

作者头像
新智元
发布于 2025-04-13 07:37:23
发布于 2025-04-13 07:37:23
1220
举报
文章被收录于专栏:新智元新智元
新智元报道

编辑:LRST

【新智元导读】移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能现实世界中可实际部署的高效工具,成为了业界关注的焦点。

近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(GUI)任务自动化智能体——V-Droid,凭借其全新「验证器驱动」架构,V-Droid不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。

链接:https://arxiv.org/abs/2503.15937

图1:V-Droid与其他移动GUI智能体在AndroidWorld上的任务成功率与决策响应时间。对于V-Droid以及其他7B,8B基准模型,决策时间在双卡4090上测试得出;对于72B基准模型,决策时间在四卡A100上测试得出

长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的GUI环境中准确识别和操作界面元素, 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠LLM直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。

图2:在决策过程中,将 LLM 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选都动作进行评估

V-Droid创新性地提出「验证器驱动」的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对UI界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;

同时,由于每次验证仅输出极简的信息(仅一个Token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。

V-Droid在多个公共移动任务自动化基准上均取得了显著提升,例如在AndroidWorld基准上任务成功率达59.5%,比现有智能体提高了近10个百分点,而决策延迟在消费级硬件上(如4090)则降至仅0.7秒左右。

图3:V-Droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆

V-Droid的核心突破主要体现在以下几个方面:

  1. 动作空间离散化与构建由于移动设备屏幕尺寸有限,每个界面上可交互的元素数量本就较少,V-Droid充分利用这一特性,从当前界面的XML描述中提取所有可点击、长按、滚动、文本输入等基本操作,将它们映射到一个有限的动作空间中。同时,为了应对界面上未直接呈现的操作(例如返回首页或模拟系统操作),系统还预置了一系列默认动作。通过这种方式,原本无限的操作可能性被精细划分为一个可枚举的集合,在这个集合上进行验证,大大降低了决策难度。
  2. 验证器驱动的决策机制与流程不同于传统依赖生成式模型直接输出操作指令的方案,V-Droid将LLM的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表,并为每个候选动作生成一个预定义格式的验证提示(Prompt),其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。经过预先微调的验证器(基于Llama-3.1-8B等小语言模型)会对每个候选动作进行评分,最终系统选择评分最高的动作执行。由于验证过程只需要生成「Yes」或「No」这类简短回复。更重要是的,多组候选验证可被高效并行,且此过程中只涉及Prefilling阶段,从而极大地减少了计算时间,实现了近实时的决策响应。
  3. 对比式过程偏好(P^3)训练为了提升LLM作为验证器的决策能力,V-Droid提出P(3 )训练策略:对比式过程偏好训练策略(Pairwise Process Preference)。在每个任务步骤中,通过构建正负操作对(即标记正确操作为正样本,其他操作为负样本),系统能够利用大量细粒度的训练数据对验证器进行优化,使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力,也在一定程度上增强了系统的容错与自我修正能力。
  4. 人机联合标注的数据采集策略由于针对移动GUI任务的细粒度标注数据极为稀缺,V-Droid设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注,随后利用经过初步训练的验证器自动生成操作标注,再由人工审核与修正。随着迭代训练的进行,验证器的准确性不断提升,人工介入比例逐渐下降,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大规模训练提供了坚实基础。

图4:V-Droid的任务成功率与单步决策响应时间

V-Droid在多个移动任务自动化基准测试中均表现出色。例如,在AndroidWorld基准上,V-Droid的任务成功率达到59.5%,相比传统代理有明显优势;在AndroidLab和MobileAgentBench上,其任务成功率分别为38.3%和49%,均超过先前系统约2%至9%的绝对提升。

此外,决策响应时间仅为0.7秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

V-Droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。

未来,这一技术有望推广至更多实际应用中,如自动化测试等领域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动GUI智能体或将成为智能交互领域的突破口。

演示视频1:「请从 Broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治」,V-Droid约使用20步操作完成此任务。视频无加速处理。

演示视频2:「发送短信息」,V-Droid约使用8步操作完成此任务。视频无加速处理。

参考资料:

https://arxiv.org/abs/2503.15937

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
3260
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。
机器之心
2025/02/03
1110
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。
机器之心
2024/06/04
1410
AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。
机器之心
2025/02/03
850
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
从多模态大模型到通用具身智能体:方法与经验
文章:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
点云PCL博主
2025/02/07
2610
从多模态大模型到通用具身智能体:方法与经验
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得多。
机器之心
2025/03/24
1400
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
每周AI论文速递(241104-241108)
当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分布外 (OOD) 场景中与闭源 VLM 相比存在显著性能差距,实践者通常不愿使用开源 VLM。为推动该领域研究,我们开发了 OS-Atlas——一个在 GUI 接地和 OOD 智能体任务中表现卓越的基础 GUI 动作模型,这归功于数据和建模方面的创新。我们投入大量工程资源,开发了一个开源工具包,用于跨 Windows、Linux、MacOS、Android 和 Web 等多个平台合成 GUI 接地数据。利用此工具包,我们发布了迄今最大的开源跨平台 GUI 接地语料库,包含超过 1300 万个 GUI 元素。该数据集与模型训练创新相结合,为 OS-Atlas 理解 GUI 截图并泛化至未见界面提供了坚实基础。在涵盖移动设备、桌面设备和 Web 三个平台的六个基准上进行广泛评估后,OS-Atlas 显示出相较于之前最先进模型的显著性能提升。我们的评估还揭示了持续改进和扩展开源 VLM 智能体能力的宝贵见解。
叶子的技术碎碎念
2025/04/08
500
每周AI论文速递(241104-241108)
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5
然而,如何将用户的自然语言指令精准映射(grounding)到界面元素一直是该领域的核心挑战。
新智元
2025/02/15
550
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。
新智元
2024/02/06
2830
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
基于LLM的异构多机器人操作系统EMOS的深度解析
论文提出了一种名为EMOS(Embodiment-aware Heterogeneous Multi-robot Operating System)的新型多智能体框架,旨在解决异构多机器人系统(HMRS)中物理形态感知缺失的核心问题。传统LLM-based多智能体系统依赖人工角色分配,而EMOS通过自动生成"机器人简历"(Robot Resume)动态描述机器人硬件能力,并结合分层任务规划机制实现协作。
一点人工一点智能
2025/04/10
970
基于LLM的异构多机器人操作系统EMOS的深度解析
「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率
随着生成式 AI 的发展,利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」,「小镇居民」的行为比人类角色扮演的更加真实,甚至举办了一场情人节派对。
机器之心
2023/08/08
2400
「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。
新智元
2025/03/11
1390
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
900
每周AI论文速递(250120-250124)
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
然而,使用通用大型语言模型(LLM)作为GUI智能体仍然存在难点:1)如何可靠地识别用户界面中的可交互图标,以及 2)理解截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。
新智元
2025/03/07
1610
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
本文共同第一作者为上海交通大学 ACM 班的三年级本科生何彦衡,金嘉禾,两人均为 GAIR 实验室成员,指导老师为刘鹏飞副教授。上海交通大学生成式人工智能实验室 (GAIR Lab)的主要研究方向为:大模型的复杂推理,大模型预训练中的数据工程,多模态大模型,以及智能体。实验室主页:https://plms.ai/
计算机视觉研究院
2024/12/25
1080
突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
38%成功率就能掀起Agent时代?Operator到底行不行!
OpenAI也正式发布了自己的第一个智能体,被称为Operator。这个智能体能够像人类一样操作电脑,完成一些最基本的任务。它能够在浏览器页面中,给定一些需求然后帮助你完成相应的操作。
算法一只狗
2025/01/25
1280
38%成功率就能掀起Agent时代?Operator到底行不行!
华为诺亚 | 发布盘古智能体框架:Pangu-Agent,让Agent学会结构化推理
自 AI 诞生以来,开发能够解决和适应复杂工作的多任务智能体(Agent)一直是个重要的目标。
ShuYini
2023/12/28
1K0
华为诺亚 | 发布盘古智能体框架:Pangu-Agent,让Agent学会结构化推理
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
也就是说,使用GPT-4o来预测网站上操作的结果,可以提供强大的性能,同时还能提高安全性和效率。
新智元
2025/02/15
890
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
每周AI论文速递(240624-240628)
在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计使得检索器必须在庞大的语料库中找到“针”一样的小单元。相比之下,阅读器只需从这些短小的检索单元中提取答案。这种不平衡的“重”检索器和“轻”阅读器设计可能导致次优的性能。为了缓解这种不平衡,我们提出了一种新的框架 LongRAG,它包含一个“长检索器”和一个“长阅读器”。LongRAG 将整个 Wikipedia 处理成 4K-token 的单元,比之前增加了30倍。通过增加单元的大小,我们将总单元数从 2200 万显著减少到 70 万。这显著降低了检索器的负担,从而带来了显著的检索性能提升:在 NQ 数据集上,答案召回率@1达到了71%(之前为52%),在 HotpotQA(全维基)上,答案召回率@2达到了72%(之前为47%)。然后,我们将前k个检索到的单元(大约 30K tokens)输入到现有的长上下文大语言模型 (LLM) 中进行零样本回答抽取。在不需要任何训练的情况下,LongRAG 在 NQ 数据集上的 EM 达到了62.7%,这是已知的最佳结果。LongRAG 在 HotpotQA(全维基)上也达到了64.3%,与目前的最优模型相当。我们的研究为将 RAG 与长上下文大语言模型结合的未来发展方向提供了宝贵的见解。
叶子的技术碎碎念
2025/04/08
400
每周AI论文速递(240624-240628)
Nat. Commun. | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式
过去十年间,得益于癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)等计划的推动,癌症组学取得显著发展,特别是在肿瘤DNA和RNA层面,并生成了大量数据;但目前人们对肿瘤中蛋白质翻译及翻译后修饰(PTM)相关知识仍有待完善。反相蛋白质微阵列(RPPA)技术可对癌症样本进行大规模功能蛋白质组学数据分析,提供了对癌症机制的重要见解,有助于发现新型生物标志物和治疗靶点。
DrugAI
2025/03/13
1040
Nat. Commun. | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式
推荐阅读
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
3260
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
1110
AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
1410
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
850
从多模态大模型到通用具身智能体:方法与经验
2610
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
1400
每周AI论文速递(241104-241108)
500
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5
550
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
2830
基于LLM的异构多机器人操作系统EMOS的深度解析
970
「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率
2400
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
1390
每周AI论文速递(250120-250124)
900
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
1610
突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
1080
38%成功率就能掀起Agent时代?Operator到底行不行!
1280
华为诺亚 | 发布盘古智能体框架:Pangu-Agent,让Agent学会结构化推理
1K0
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
890
每周AI论文速递(240624-240628)
400
Nat. Commun. | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式
1040
相关推荐
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档