最具性价比的视觉大模型
最近智谱发布了GLM-4.1V-9B这个大模型。
测试效果超过Qwen-2.5-VL-72B,在官方试了一下效果确实还不错。
除了分析图片,还可以对视频进行分析。
这个尺寸对应这个效果,属实是水牛坐导弹————牛上天了。
测试一波
多说无益,直接上一波测试。
先来一张检验报告单,让它分析。
看得出来,分析得很详细,还给出了各种建议。
第二波,上点难度,分析一下图片。
发了两张飞机上的图片,它没分析出来,可能确实是信息有限。
接下来我给了它一张车辆的图片,车牌号、车型都能准确识别。
拍摄地大概推断正确(确实是东南亚小镇)。
算及格(毕竟参数量在那杵着)。
下面来猜一下成语,它这一次真的是:外卖员敲门(菜到家了)。
像个小孩子,支支吾吾半天勉强说了个成语。
实际答案是:一叶障目。(我在推理里面搜了,完全没跟这个搭边)。
总结来说,在非实时、无需联网情境下,模型与参数量还是可以。
智谱官方的介绍
从榜单信息看得出,各项测试还是可以(毕竟参数量在那)。
本地推理
据官方介绍,本地至少需要22GB显存占用。
transformers推理速度为: 14-22 Tokens/s。
vLLM同等显存,推理速度为60-70 Tokens/s(不得不说,vLLM是真快)。
智谱官方仓库:
https://github.com/THUDM/GLM-4.1V-Thinking/
魔搭(ModelScope):
https://www.modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Thinking