前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI大模型的下半场:模仿人类操控设备

AI大模型的下半场:模仿人类操控设备

原创
作者头像
算法一只狗
修改2024-10-30 10:11:19
1061
修改2024-10-30 10:11:19
举报
文章被收录于专栏:算法一只狗

周末被AutoGLM刷屏了,看了一下它的介绍视频,这不就是我一直梦寐以求的AI智能吗!

只需要一句话,就可以帮助我控制手机或者电脑中的软件,执行我想做的操作。这不就是钢铁侠里妥妥的“贾维斯”,这一次难道真的能让我们体验到超越未来的AI人工智能了吗?

目前AutoGLM已经开启了内测,感兴趣的可以去它的官网申请一下:

https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

而且它也已经上线了网页端的插件,可以在谷歌浏览器上进行下载

从官网AutoGLM的介绍中可以看到,它可以帮我们完成淘宝下单。

比如,我想在双十一这个购物节买一部小米14手机,还能用AutoGLM智能助手在淘宝上查价格。只要对AutoGLM说句话,它就会自动打开淘宝,找到小米14手机的最新价格给我看。

视频内容

又或者可以用它来进行语音导航。比如下面视频中,利用AutoGLM导航到最近的一个咖啡店。

视频内容

相信大家肯定对于日常怎么写好评这件事情很苦恼。你只要一句话,AutoGLM可以帮助你写一段五星好评话,简直是懒惰人的福星。

在目前,智谱的Au­t­o­G­LM可适配微信、淘宝、美团、小红书、大众点评、12306、携程、高德地图共8款应用。已经能够覆盖我们日常常用的一些软件。

当然还可以进行各种脑洞,包括但不限于给朋友圈点赞,抢车票、门票等等。

写到这里,我突然想到在chatgpt刚出来之前,其实也已经有很多利用AI操控电脑或者手机的一些产品出现了。就像前段时间claude刚刚更新的一个新功能“computer use”的功能。区别之处可能就在于Claude的Computer Use更多的是应用在电脑端进行操作,而AutoGLM则侧重于在手机端进行交互。

Claude的Computer Use 对比 AutoGLM

从官方介绍来看,Claude的Computer Use可以使得claude能够像人类一样操作电脑,包括查看屏幕、移动光标、点击、通过虚拟键盘输入等。

Claude 能用 API 和设备互动,完成查看屏幕、点击、输入、填表、写代码和操作网页等操作,相当于复制了人类的操作,给它一个命令它就能够完成复杂的操作。

这使得claude的computer use功能有一个特点就是需要Claude通过截屏、分析用户指令、确定键鼠操作指令、执行鼠标和键盘的操作来完成这些任务。

Claude 专注于电脑端帮助人操作复杂的一些工作内容,而智谱清言的 AutoGLM 则专注于手机操作。利用AI 可以在不需要用户示范的情况下操作智能手机。用户只需用简单的语音指令,AutoGLM 就能完成点外卖、刷社交媒体、做笔记、订票等日常任务,让手机操作变得更简单。

同时AutoGLM的主战场在手机端,这就使得AI的应用更加贴近人们的日常生活。

智能设备中如何更加智能?

自从2022年以来,ChatGPT的横空出世,大模型给人们带来了太多的震撼和惊喜。但是从目前来看,大部分的大模型效果已经区分不开,实际使用体验来看也没有明显的差异性。

很明显,如果继续卷大模型参数和能力,是有很大的瓶颈的。那么大模型的AI Agent 能力可能是下一个必争之地。这是因为能够发挥大模型的地方,目前最好的平台就是手机,而手机则需要依赖于大模型的AI Agent能力,来帮助用户与环境交互。这种能力能够结合功能调用、工具使用和计划能力,能更精确地理解需求并解决复杂任务。

AI大模型需要重新定义“智能手机”,“智能”不仅是“我能用手机做什么”,还应该包括“手机能帮我做什么”。而目前,大模型的能力都在逐步完善AI Agent能力。

比如之前阿里发布的Qwen2-VL模型,使用了多模态的能力去理解用户输入的多维度信息。首先来看看简单的Demo,让Qwen2-VL模型根据输入的图像,调用插件回到对应的问题。

这个挑战主要是测试Qwen2-VL模型对图像中文字的理解能力,在理解之后根据指令查询信息。用户上传了一张航班信息图片,当用户询问到底时间和目的地天气时,就需要大模型去搜索天气信息。从视频上看,Qwen2-VL对于简单的调用工具还是做得不错。

接下来就是一个更加复杂的场景。左边是AI操作的界面,右边是AI的每个状态步骤。

这时候需要大模型去查询一个San Diego的餐厅。可以看到AI操作谷歌搜索,然后寻找当前用户附近的餐厅。这样就可以找到心仪的餐厅了。

像上面这些例子,都是大模型AI Agent能力的体现,那么可以想象,借助大模型,使用手机将不再是一个需要「学习」的过程,用户只需用自然语言表达自己的需求即可。此外,大模型AI Agent还能帮助我们管理日程、提醒重要事项,甚至在我们忙碌时处理一些简单任务,如购物、订餐等。

总之,借助大模型AI Agent,手机将变得更加人性化,成为我们生活中不可或缺的伙伴。我们可以通过简单的语言与手机互动,让它为我们提供全方位的服务,从而让我们的生活变得更加便捷和高效。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 周末被AutoGLM刷屏了,看了一下它的介绍视频,这不就是我一直梦寐以求的AI智能吗!
  • Claude的Computer Use 对比 AutoGLM
  • 智能设备中如何更加智能?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档