
最近 HuggingFace 上有个 DeepSeek V4 Flash 量化版 突然火了——更狠的是,作者是 antirez(Redis 作者 Salvatore Sanfilippo)
我查了一下 Hugging Face 模型仓库,下载量已经 26 万+

老 Redis 用户看到这名字应该会愣一下:他怎么跑去做大模型推理引擎了?
事情其实是这样的:antirez 同步开源了两件配套的事:
huggingface.co/antirez/deepseek-v4-ggufgithub.com/antirez/ds4注意定语:ds4 不是通用 GGUF runner,也不是某个 runtime 的 wrapper——它是为 DSv4 Flash 量身打造、完全自包含的引擎,这种"一个模型一个引擎"的做法在当前生态里挺反潮流的
antirez 在 README 里给了 8 条理由,我挑硬核的几条:
整篇 README 我读下来感觉是:antirez 真的喜欢这个模型,所以才愿意花精力做一个"专用引擎+专用量化"的组合
仓库里现在主要有几类文件:
文件 | 适合场景 | 量化重点 |
|---|---|---|
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-...-v2-imatrix.gguf | 96GB / 128GB RAM 机器优先试 | 路由 MoE 专家里 gate/up 用 IQ2_XXS,down 用 Q2_K |
DeepSeek-V4-Flash-Q4KExperts-...-v2-imatrix.gguf | 256GB+ RAM 机器 | 路由专家用 Q4_K,质量更稳,体积更大 |
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf | 可选 MTP 支持 | 不能单独跑,搭配主模型做投机解码实验 |
imatrix/DeepSeek-V4-Flash-chat-v2-routed-moe-ds4-1p5m.dat | 量化校准数据 | 给 imatrix 版本服务 |
怎么挑:
q2-imatrixq4-imatrixq2 / q4 还在,但现在脚本里更推荐 imatrix 版本
DeepSeek V4 Flash 和 ds4 部署栈
量化思路里有一段我特别认同:
❝路由专家占了模型参数的大头,但每个专家只处理一小部分 token,激进量化它们造成的平均质量损失,远小于对 router、投影矩阵、共享专家做同等量化,把"决策类组件"保留在 Q8_0,能完整保留模型行为;同时压扁专家来换体积
简单说:该压的地方狠压,不该压的地方一点不让——比一刀切的"统一 Q4"高级太多
git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2-imatrix # 96 / 128 GB RAM 机器
./download_model.sh q4-imatrix # >= 256 GB RAM 机器
./download_model.sh mtp # 可选:MTP 投机解码实验
make # macOS Metal
./ds4 -p "Explain Redis streams in one paragraph."
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
CUDA 机器走这两条:
make cuda-spark # DGX Spark / GB10
make cuda-generic # 普通 CUDA 机器
特性亮点:
rocm 分支,社区维护(antirez 没 ROCm 硬件)--kv-disk-dir + --kv-disk-space-mb 直接落盘1. "一个模型一个引擎"的窄路径
antirez 自己在 README 里说得很直白:本地推理领域项目很多,但新模型不停出,注意力立刻被新模型抢走,他选了相反的方向——只押一个模型,做到端到端打磨
2. KV cache 是磁盘公民,不是内存公民
这是一个反直觉但很务实的判断:DSv4 的 KV cache 极度压缩,结合现代 Mac 的高速 SSD,把 KV 当作 disk-first 资源处理,才有可能在消费级 Mac 上跑 100k+ context
3. GPT 5.5 + 人类作者共建
antirez 自己强调了一句:这个项目是在 GPT 5.5 强力辅助下、由人主导思路/测试/调试完成的,如果对 AI 写的代码有洁癖,这个项目可能不适合你——但 antirez 把这事儿亮在 README 第一段,这种坦诚就很 Redis 作者
4. 致敬 llama.cpp / GGML
README 里专门说"没有 llama.cpp 和 GGML 这个项目就不存在"——感谢 Georgi Gerganov 和所有贡献者,一个 OG 程序员对另一个 OG 程序员的真诚
1. 真大佬玩的就是手感
这事儿不像商业项目,更像 antirez "我就想让我那台 MacBook 跑得最爽"的私房作品,但因为他是 antirez,做出来的东西自带工程美学
2. 量化思路值得学习
不要"一刀 Q4 切下去",要按"参数贡献度 + 处理 token 量"分层处理,这套方法论以后会越来越主流
3. macOS / 高内存 Mac 用户:值得装
如果你恰好有一台 96GB / 128GB / 192GB 内存的 Mac,又喜欢 DeepSeek V4 Flash,这套组合是当前能找到的"最爽配置"之一
4. 通用性差是事实
不要指望它能跑 Qwen、Llama、其他 DeepSeek——它就只跑 V4 Flash,换模型就得换引擎
ds4 + DeepSeek V4 Flash GGUF 这套组合,是"专用化"思路的一次有趣实验:砍掉通用性,换来端到端的丝滑,再加上 antirez 这个名字加成,关注度自然就来了
如果你正好满足"高内存 Mac + 喜欢折腾本地大模型 + 对 DeepSeek 有偏爱"三个条件,强烈推荐试一下,装完跑出来 100k context、磁盘 KV、Metal 加速的那个瞬间,会觉得很有意思
#DeepSeekV4 #antirez #GGUF #量化 #本地部署
制作不易,如果这篇文章觉得对你有用,可否点个关注,给我个三连击:点赞、转发和在看,若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!