

作者:小傅哥 博客:https://bugstack.cn
❝沉淀、分享、成长,让自己和他人都能有所收获!😜 ❞
大家好,我是技术UP主小傅哥。
这 + agent,那 + agent,都是赋能,辅助提效。但手机 + agent,要掀桌子呀,这是要改变现有手机和APP厂商入口的格局。就像你开了个超市,别在你家开了个【超市入口】!
智能体时代,谁也阻挡不住!
先是有豆包手机,之后GLM推出 AutoGLM-Phone-9B 模型,可以通知命令、API、语音等方式,以多模态形式,帮助用户完成手机任务。如,打开xxxAPP,搜索xxx商品,完成下单,之后通知给xxx微信伙伴,在xxx时间,进行收货。也可以,告诉手机,定时定点完成xxxAPP的签到、领券,刷票抢票。还可以,为老年人对于手机的xxx业务复杂的操作,进行一些列的自动化完成处理。
这将是下一代手机的使用体验,也是各大厂即将争夺的智能入口。接下来,小傅哥带着大家部署下 AutoGLM 模型,以及讲解如何配置使用和最终的效果。
目前 AutoGLM 还是面向研发使用的阶段,不是直接可以调用的 API,所以要自己部署。不过以后肯定会更加方便,也会附带的提供对应的产品。也有可能出新安卓/IOS+agent的手机系统。路已经开了,看谁跑的快吧!
官网:https://github.com/zai-org/Open-AutoGLM

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
如果你是手动配置环境,可以参考https://bugstack.cn/md/algorithm/model/2023-05-21-chatglm-6b.html设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用。(如果手机不是这样的,可以百度搜下设置)下载后配置路径 export PATH=${PATH}:~/Downloads/platform-tools Windows 电脑参考第三方教程:https://blog.csdn.net/x2584179909/article/details/108319973设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效接下来介绍,各个环境配置以及验证使用。只想看效果的,可以翻看到最后(使用效果)。
目前具备 AI 算力的服务器(支持小时购买的,关机不收费);
推荐 vGPUT-48GB,推荐 717机、708机2*24GB
注意,选择2卡,单卡24G的,否则大概率会失败。
地址:https://www.autodl.com/create

地址:https://www.autodl.com/console/instance/list - 控制台

其他的 GPU 服务器也都类似,如果使用的纯白 GPU 服务器,需要自己安装各种环,可参考;境。https://bugstack.cn/md/algorithm/model/2023-05-21-chatglm-6b.html

/root/autodl-tmp 下,否则系统盘安装满了,就不能运行了。
/root/autodl-tmp 拉取项目工程代码 git clone https://github.com/zai-org/Open-AutoGLM.git
Pillow>=12.0.0
openai>=2.9.0
# For Model Deployment
# Linux 云服务器环境下可以正常安装这些包
transformers>=4.30.0
vllm>=0.12.0
# Optional: sglang (如果需要的话)
# sglang>=0.5.6.post1
# Optional: for development
pytest>=7.0.0
pre-commit>=4.5.0
black>=23.0.0
mypy>=1.0.0

pip install -r requirements.txt
pip install -e .
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplecd Open-AutoGLM 以此执行安装脚本。这个过程需要一段时间。如果有失败,可以重复执行脚本。下载模型是为了启动 Open-AutoGLM,如果不手动下载,默认执行脚本速度比较慢,同时可能把文件安装到系统盘中。

【下载模型】里面有对应的使用说明
使用说明:
pip install modelscopemodelscope download --model ZhipuAI/AutoGLM-Phone-9B --local_dir ./AutoGLM-Phone-9B脚本说明 - 固定大小的参数不能修改
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--allowed-local-media-path / \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--mm_processor_kwargs "{\"max_pixels\":5000000}" \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt "{\"image\":10}" \
--model /root/autodl-tmp/Open-AutoGLM/AutoGLM-Phone-9B \
--port 6008

zai-org/AutoGLM-Phone-9B 从 https://huggingface.co/zai-org/AutoGLM-Phone-9B/tree/main 下载,修改为已经下载好的本地的路径地址。autodl.com 算力指定的自定义服务,对外暴漏的端口有 6008、6006 部署后,用 https://uu835267-800d-24be97d2.westc.gpuhub.com:8443 访问服务。执行脚本


curl https://cb869967ef619cf1-8000.cn-south-1.gpu-instance.ppinfra.com/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "autoglm-phone-9b",
"messages": [
{
"role": "user",
"content": "打开抖音,连刷5个视频,给第4个视频点赞,第5个视频收藏"
}
]
}'
# 交互模式
python main.py --base-url https://cb869967ef619cf1-8000.cn-south-1.gpu-instance.ppinfra.com/v1 --model "autoglm-phone-9b"
# 指定模型端点
python main.py --base-url https://cb869967ef619cf1-8000.cn-south-1.gpu-instance.ppinfra.com/v1 "打开美团搜索附近的火锅店"
# 使用英文 system prompt
python main.py --lang en --base-url https://cb869967ef619cf1-8000.cn-south-1.gpu-instance.ppinfra.com/v1 "Open Chrome browser"
# 列出支持的应用
python main.py --list-apps
Terminal 或者任何命令行工具里# 假设解压后的目录为 ~/Downlaods/platform-tools。如果不是请自行调整命令。
export PATH=${PATH}:~/Downloads/platform-tools
(base) fuzhengwei@ZBMac-GV47H1GXD Open-AutoGLM % adb devices
List of devices attached
94343646 device
(base) fuzhengwei@ZBMac-GV47H1GXD Open-AutoGLM %
设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。设置-开发者选项-USB 调试,勾选启用adb devices 查看是否有设备信息, 如果没有说明连接失败.下载 安装包 并在对应的安卓设备中进行安装。 注意,安装完成后还需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效

安装包地址:https://github.com/senzhk/ADBKeyBoard/blob/master/ADBKeyboard.apk - 可以下载好传到手机也可以

调试模式的安卓机,完成各项 APP 应用的操作。

python main.py --device-id 94343646 --base-url https://uu835267-800d-0124cb32.westc.gpuhub.com:8443/v1 --model "autoglm-phone-9b" "打开抖音,刷视频"
device-id 94343646 就是 adb 列出来的设备ID,base-url 是你的服务地址,之后可以自行验证,测试各种 APP 的启动,使用等。📢 接下来,在phone + agent 这个方向,将有越来越多的模型和产品。检索:https://github.com/search?q=phone%20agent&type=repositories
