基于CogAgent以及AutoGLM-Web架构,可让AI接受指令并自主操控手机的AI Agent,目标为实现模仿人类的Plan-Do-Check-Act循环,形成自我反馈和自我提升,为迈向AGI愿景夯实基础。
AI Agent底层原理:使用VLM与GUI交互,效果与效率双升
据《Lightweight Neural App Control》(Huawei Noah’s Ark Lab等,2024.10)及《CogAgent:A Visual Language Model for GUI Agents》(WenyiHong等,2023.12),当前来看,智谱,华为等行业领先厂商多应用VLM(视觉语言模型)执行人机交互程序。大语言模型虽擅长处理文字生成等任务,但在理解与交互GUIs(图形交互界面)方面存在短板,同时大语言模型运算时间及调用成本都相对较高,基于GPT-4o的AIAgent单任务运行时间需约1-2分钟,单任务平均运行成本高达1美元。相比之下,VLM模型直接感知视觉信号,阅读及编程能力得到显著强化。参数量方面,CogAgent的VLM为18B,而华为诺亚方舟研究院LiMAC模型所调用VLM仅约500M,小模型亦有效减少了算力需求,加快了运行效率,LiMAC模型将单任务执行速度提升至约3秒。
国内外AI Agent密集发布,端侧AI趋势明确
据澎湃新闻及IT之家,10月21日,微软公司宣布推出一系列人工智能自动代理(Autonomous Agents),旨在帮助企业员工在销售、客户支持、财务等领域更好完成任务;10月23日,Anthropic推出了升级版的Claude3.5Sonnet,其全新功能computer use,支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息;10月23日,荣耀MagicOS9.0升级“YOYO智能体”AI功能,可实现“一句话点外卖”等操作。
从发展阶段看,AI已经顺利完成赋能云厂商等科技平台公司的初级阶段,正逐步实现向终端用户渗透的关键跃迁。考虑到端侧AI相对更贴近场景需求,我们认为更多类似功能的智能体应用有望涌现,以打通客户指令与终端执行之间“最后一公里”,有望带动端侧AI渗透率提升。
AI Agent或将掌握移动互联新入口,流量分发格局有望重塑AI Agent智能体因具备较强交互性以及便利性,或可打通原先同个终端不同App之间的天然壁垒,我们认为智能体的默认调用顺序(类似于搜索引擎的竞价排名)或将具备较高商业化价值。
投资建议
AI Agent趋势明确,考虑到端侧模型趋于轻量化,AI云侧算力需求预计仍可观,建议关注AI算力相关公司,标的方面建议关注云赛智联、润泽科技等。
领取专属 10元无门槛券
私享最新 技术干货