全栈工程师,关注一下。带你一起飞
开玩笑,不关注怎么带你飞
智谱GLM-4.5V,超越GLM-4.1V-Thinking
最近发布了很多大模型,智谱的GLM-4.5V,一个视觉大模型。
106B参数,延续了4.1V-Thinking的技术路线。
整体性能有了更大提升,比如看图猜地点、分析炸鸡的品牌、生成网页等等。
之前提到过,智谱有个鲜明的优点是文档巨细、巨清晰。
只是这个参数量,本地部署难度极大。
可以在他们官方API或者官网使用。
GLM-4.5V:
https://www.modelscope.cn/models/ZhipuAI/GLM-4.5V
GLM-4.1V-9B-Thinking:
https://www.modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Thinking
GLM-4.1V-9B-Thinking镜像:
https://www.codewithgpu.com/i/THUDM/GLM-4.1V-Thinking/GLM-4.1V-9B-Thinking-WEBCHAT
百川,All in Medical(医疗)
最开始做通用模型,后来百川改变策略,All in Medical(医疗)。
之前出过一个Baichuan-m1。最近他们推出了Baichuan-m2。
当时我对这个模型关注度有点高,只是模型许可协议不是特别友好(需要先登记才能使用)。
这次的Baichuan-M2,参数量来到了32B,参数量更大,性能更强大。
有一个有意思的点是,他们自研了一个患者模拟器,用于模拟生成患者相关的数据和验证模型能力。
Baichuan-M2的许可证是Apache 2.0,可以任意商用。
对于想商用医疗模型的开发者来说,又多了一个选择。
在医疗模型方面,通义实验室推出过一个灵枢大模型(lingshu),是一个视觉大模型(7B、32B两个尺寸)。
始终觉得,医疗模型最终会往多模态方向发展,毕竟医疗会涉及到影像报告、检验报告等等这些图片的分析解读。
Baichuan-M2-32B:
https://www.modelscope.cn/models/baichuan-inc/Baichuan-M2-32B
Baichuan-M2-32B-GPTQ-Int4:
https://www.modelscope.cn/models/baichuan-inc/Baichuan-M2-32B-GPTQ-Int4
Baichuan-M2镜像:
https://www.codewithgpu.com/i/baichuan-inc/Baichuan-M2-32B/Baichuan-M2-Medical-Web
lingshu-32B:
https://www.modelscope.cn/models/lingshu-medical-mllm/Lingshu-32B
lingshu-7B:
https://www.modelscope.cn/models/lingshu-medical-mllm/Lingshu-7B
OpenBMB,手机可用的多模态大模型
OpenBMB发布了MiniCPM-V-4,一个4.1B的大模型,端侧能力超强。
可在手机上运行(暂时只有IOS版),看了一下效果,确实不错。
支持单图、多图、视频处理。
评测成绩超过了GPT-4.1-mini-20250414。
MiniCPM-V-4:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4
MiniCPM-V-4镜像:
https://www.codewithgpu.com/i/OpenBMB/MiniCPM-o/MiniCPM-V-4-Quick-Start
UniPic2-Metaquery-9B,小尺寸的全能选手
昆仑万维最近发布了UniPic2-Metaquery-9B,如你所见,参数量只有9B。
但支持图片理解、文生图、图生图(图片编辑),功能超多。
算是个惊喜,之前较少关注昆仑万维。
本地部署最低需要40G显存,但他们有个低显存版本。
在官方介绍上,改图效果很惊艳(有的地方感觉和Qwem-Image有一拼)。
这个我想我会体验一下,看看效果到底如何。
UniPic2-Metaquery-9B:
https://www.modelscope.cn/models/Skywork/UniPic2-Metaquery-9B
总结
最近发布的模型,大多以多模态或者垂类模型为主。
在基础模型,能卷的地方不多了。
但多模态,特别是视频,还大有可为。
就看传言即将发布的DeepSeek-R2,能不能再惊艳我们一次?
镜像主页(快速推理各类大模型):
https://www.codewithgpu.com/u/aistudent