编辑:LRST
随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能现实世界中可实际部署的高效工具,成为了业界关注的焦点。
近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(GUI)任务自动化智能体——V-Droid,凭借其全新「验证器驱动」架构,V-Droid不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。
链接:https://arxiv.org/abs/2503.15937
图1:V-Droid与其他移动GUI智能体在AndroidWorld上的任务成功率与决策响应时间。对于V-Droid以及其他7B,8B基准模型,决策时间在双卡4090上测试得出;对于72B基准模型,决策时间在四卡A100上测试得出
长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的GUI环境中准确识别和操作界面元素, 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。
以往依靠LLM直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。
图2:在决策过程中,将 LLM 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选都动作进行评估
V-Droid创新性地提出「验证器驱动」的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对UI界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。
这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;
同时,由于每次验证仅输出极简的信息(仅一个Token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。
V-Droid在多个公共移动任务自动化基准上均取得了显著提升,例如在AndroidWorld基准上任务成功率达59.5%,比现有智能体提高了近10个百分点,而决策延迟在消费级硬件上(如4090)则降至仅0.7秒左右。
图3:V-Droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆
V-Droid的核心突破主要体现在以下几个方面:
图4:V-Droid的任务成功率与单步决策响应时间
V-Droid在多个移动任务自动化基准测试中均表现出色。例如,在AndroidWorld基准上,V-Droid的任务成功率达到59.5%,相比传统代理有明显优势;在AndroidLab和MobileAgentBench上,其任务成功率分别为38.3%和49%,均超过先前系统约2%至9%的绝对提升。
此外,决策响应时间仅为0.7秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。
V-Droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。
未来,这一技术有望推广至更多实际应用中,如自动化测试等领域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动GUI智能体或将成为智能交互领域的突破口。
演示视频1:「请从 Broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治」,V-Droid约使用20步操作完成此任务。视频无加速处理。
演示视频2:「发送短信息」,V-Droid约使用8步操作完成此任务。视频无加速处理。
参考资料:
https://arxiv.org/abs/2503.15937
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有