本地分析视频有救了？我劝你先别太乐观

大风写全栈

发布于 2025-07-03 15:44:01

1240

文章被收录于专栏：锤子代码锤子代码

最具性价比的视觉大模型

最近智谱发布了GLM-4.1V-9B这个大模型。

测试效果超过Qwen-2.5-VL-72B，在官方试了一下效果确实还不错。

除了分析图片，还可以对视频进行分析。

这个尺寸对应这个效果，属实是水牛坐导弹————牛上天了。

测试一波

多说无益，直接上一波测试。

先来一张检验报告单，让它分析。

看得出来，分析得很详细，还给出了各种建议。

第二波，上点难度，分析一下图片。

发了两张飞机上的图片，它没分析出来，可能确实是信息有限。

接下来我给了它一张车辆的图片，车牌号、车型都能准确识别。

拍摄地大概推断正确（确实是东南亚小镇）。

算及格（毕竟参数量在那杵着）。

下面来猜一下成语，它这一次真的是：‌外卖员敲门（菜到家了）。

像个小孩子，支支吾吾半天勉强说了个成语。

实际答案是：一叶障目。（我在推理里面搜了，完全没跟这个搭边）。

总结来说，在非实时、无需联网情境下，模型与参数量还是可以。

智谱官方的介绍

从榜单信息看得出，各项测试还是可以（毕竟参数量在那）。

本地推理

据官方介绍，本地至少需要22GB显存占用。

transformers推理速度为: 14-22 Tokens/s。

vLLM同等显存，推理速度为60-70 Tokens/s（不得不说，vLLM是真快）。

智谱官方仓库：

https://github.com/THUDM/GLM-4.1V-Thinking/

魔搭（ModelScope）:

https://www.modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Thinking

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-03，如有侵权请联系 cloudcommunity@tencent.com 删除

glm

本文分享自锤子代码微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

本地分析视频有救了？我劝你先别太乐观

本地分析视频有救了？我劝你先别太乐观

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐