首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >本地分析视频有救了?我劝你先别太乐观

本地分析视频有救了?我劝你先别太乐观

作者头像
大风写全栈
发布2025-07-03 15:44:01
发布2025-07-03 15:44:01
890
举报
文章被收录于专栏:锤子代码锤子代码

最具性价比的视觉大模型

最近智谱发布了GLM-4.1V-9B这个大模型。

测试效果超过Qwen-2.5-VL-72B,在官方试了一下效果确实还不错。

除了分析图片,还可以对视频进行分析。

这个尺寸对应这个效果,属实是水牛坐导弹————牛上天了。

测试一波

多说无益,直接上一波测试。

先来一张检验报告单,让它分析。

看得出来,分析得很详细,还给出了各种建议。

第二波,上点难度,分析一下图片。

发了两张飞机上的图片,它没分析出来,可能确实是信息有限。

接下来我给了它一张车辆的图片,车牌号、车型都能准确识别。

拍摄地大概推断正确(确实是东南亚小镇)。

算及格(毕竟参数量在那杵着)。

下面来猜一下成语,它这一次真的是:‌外卖员敲门(菜到家了)。

像个小孩子,支支吾吾半天勉强说了个成语。

实际答案是:一叶障目。(我在推理里面搜了,完全没跟这个搭边)。

总结来说,在非实时、无需联网情境下,模型与参数量还是可以。

智谱官方的介绍

从榜单信息看得出,各项测试还是可以(毕竟参数量在那)。

本地推理

据官方介绍,本地至少需要22GB显存占用。

transformers推理速度为: 14-22 Tokens/s。

vLLM同等显存,推理速度为60-70 Tokens/s(不得不说,vLLM是真快)。

智谱官方仓库:

https://github.com/THUDM/GLM-4.1V-Thinking/

魔搭(ModelScope):

https://www.modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Thinking

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 锤子代码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档