在《OpenAI 又放大招,这次是对浏览器下手》这篇文章中,我给大家介绍了 OpenAI 最新推出的智能体。虽然这两年智能体的概念不鲜见,但 OpenAI 公司并不认为这是一个普普通通都智能体产品, 给 Operator 开设了单独的产品界面,将它视为与 ChatGPT、Sora 并列的关系,可见 OpenAI 对其的重视。
Operator 一经推出,就获得了极高的曝光,许多媒体都进行了报道,大家对于 Opertor 也赞不绝口。以至于 Sam Altman、黄仁勋、扎克伯格等科技大佬宣称「2025 年将是 AI 智能体之年」。
实际上 Operator 发布前两天,字节跳动豆包大模型团队就已经公布了同类型智能体:UI-TARS。
UI-TARS 的名字来源于电影《星际穿越》的 TARS 机器人,预示着它具备高度的智能和自主思考能力。
说到这里,大家可能会认为 UI-TARS 是来蹭热度的。还真不是,首先,UI-TARS 早于 Operator 发布。其次,UI-TARS 是开源的!更为重要的是,UI-TARS 还有对应的详细技术报告可供学习。
目前,UI-TARS 的 GitHub star 量就突破了 1k,支持 Windows 和 Mac 系统的 UI-TARS-desktop 客户端达到了 1.6k stars,可能大家觉得这个成绩一般,考虑到项目发布没多久,后续关注度会有提升。
有兴趣的朋友可以访问:
UI-TARS PC 客户端:https://github.com/bytedance/UI-TARS-desktop
与 OpenAI 商业化优先相对的是,字节的 UI-TARS 优先公开且开源了技术文档。这种技术文档我也看不懂,这里就不评论了,有实力的朋友可以参看论文:
UI-TARS: Pioneering Automated GUI Interaction with Native Agents https://arxiv.org/pdf/2501.12326
以下是 deepseek 总结的 UI-TARS 的技术原理:
1. 增强感知能力:UI-TARS 使用大规模的 GUI 截图数据集进行训练,能对界面元素进行上下文感知和精准描述。通过视觉编码器实时抽取视觉特征,实现对界面的多模态理解。
2. 统一行动建模:UI-TARS 将跨平台操作标准化,定义了一个统一的行动空间,支持桌面、移动端和 Web 平台的交互。通过大规模行动轨迹数据训练,模型能够实现精准的界面元素定位和交互。
3. 系统化推理能力:UI-TARS 引入了系统化推理机制,支持多步任务分解、反思思维和里程碑识别等推理模式。能在复杂任务中进行高层次规划和决策。
4. 迭代训练与在线反思:解决数据瓶颈问题,UI-TARS 通过自动收集、筛选和反思新的交互轨迹进行迭代训练。在虚拟机上运行,能从错误中学习并适应未预见的情况,减少人工干预。
在技术报告中,UI-TARS 的定位是「一个原生 GUI 智能体模型,其设计目标是在不依赖繁琐的人工设计规则或级联模块的情况下进行运作。」
从功能上看,UI-TARS 可直接感知屏幕截图、应用推理过程并自主生成有效操作。此外,UI-TARS 还可以学习之前的经验,通过利用环境反馈来迭代改进其性能。
UI-TARS 具有如下优势:
1. 开源与免费:UI-TARS 是完全开源的,用户可以免费使用和修改,这吸引了大量开发者、研究者和预算有限的用户。
2. 跨平台支持:UI-TARS 不仅支持桌面和 Web 环境,还能操作移动设备(如 Android),覆盖了更广泛的应用场景。
3. 性能表现:在多个基准测试中,UI-TARS 的表现优于 GPT-4o 和 Claude 3.5,尤其是在短程推理和特定任务(如 GUI 操作)上。
4. 灵活性:UI-TARS 支持与 Midscene.js 等工具集成,开发者可以通过代码驱动任务编排,实现高度定制化的自动化流程。
作为一名专注于浏览器开发的工程师,看到这个开源项目后,我内心无比激动,已经开始思考如何将其深度集成到浏览器中,以打造更卓越的用户体验。请大家拭目以待,期待我们的创新成果!