
大家好,我是 Ai 学习的老章
前几天介绍过 DiffusionGemma,当时 vLLM 在 H100 上跑出 1000+ tok/s 已经够炸裂了,结果不到三天,Unsloth 直接把它压成 GGUF,丢进 llama. cpp,单卡 2000+ tok/s 起飞——而且最低 18GB RAM 就能跑

简单说三句话:
llama-diffusion-cli 专用运行器也就是说,扩散式大模型从"云端 H100 专属"直接下沉到了"消费级 24GB 显卡",门槛低到离谱
用一张图直观感受一下这三天的变化:


Unsloth 这次给了 5 档量化,从 BF16 全精度到 Q4_K_M 都覆盖了:
量化 | 体积 | 备注 |
|---|---|---|
BF16 | 47 GB | 全精度参考版,不建议日常用 |
Q8_0 | 25 GB | 接近无损,推荐,单张 32GB+ 显卡(如 RTX 6000 Pro / V100 32G)够用 |
Q6_K | 21 GB | 折中选择 |
Q5_K_M | 18 GB | 内存敏感场景可选 |
Q4_K_M | 16 GB | 最小,单张 24GB 显卡(4090/3090/RTX 6000)即可塞下 |
❝注意是"塞下",不是"跑得动";Unsloth 官方推荐总内存(RAM + VRAM)≥ 18 GB,这是包含 KV Cache 和 canvas 状态缓冲区的最低要求
我个人的选择建议:
这条路线适合喜欢命令行、想看清楚每个参数的玩家;关键点:必须用 PR #24423 分支,不是 main——DiffusionGemma 是块扩散架构,标准的 llama-cli 和 llama-server 还跑不起来
git clone https://github. com/ggml-org/llama. cpp
cd llama. cpp
gh pr checkout 24423
# CUDA 编译(Apple Mac/Metal 改成 -DGGML_CUDA=OFF)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli
注意编译目标是 llama-diffusion-cli 这个新二进制,不是 llama-cli;这是 Daniel Han 在 PR 里专门加的,因为扩散模型生成路径完全不同
pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
--local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
--include "Q4_K_M" # 24GB 显卡用这个
如果想跑 Q8_0 把 *Q4_K_M* 改成 *Q8_0* 即可
./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048
参数解读:
-ngl 99:所有层卸到 GPU(纯 CPU 跑改 -ngl 0)-cnv:开启多轮对话模式-n 2048:目标 token 数;这个参数会自动推导 --diffusion-blocks 数量并扩展 batch / context 大小,所以你只需要管这一个长度参数熵边界采样器(Entropy-Bound)默认开启,这是 DiffusionGemma 推荐的标准配置——温度 0.8 → 0.4 线性衰减、熵上限 0.1、最大去噪步数 48;直接用就行,调反而会掉分
下面是 llama-diffusion-cli 启动后的样子:

llama-diffusion-cli 启动界面
如果你不想折腾 cmake 编译,Unsloth 6 月 12 号刚推了一个更新——Unsloth Studio 已经内置 DiffusionGemma 支持,不用自己编 llama. cpp
Unsloth Studio 是个开源的本地 AI Web UI,相当于 Ollama + Open WebUI 的合体,但是把推理和训练做到了一个面板里;MacOS / Windows / Linux 都支持

安装(任选一行):
# MacOS / Linux / WSL
curl -fsSL https://unsloth. ai/install .sh | sh
# Windows PowerShell
irm https://unsloth. ai/install .ps1 | iex
启动 Web UI:
unsloth studio -H 0.0.0.0 -p 8888
然后浏览器打开 http://127.0.0.1:8888,第一次会让你设个密码(保护本地账户),登进去之后到 Studio Chat 标签页搜 "DiffusionGemma",选量化版本下载,就能直接对话
最舒服的是:所有扩散采样参数自动配好,不用记那串 entropy bound、temperature schedule、canvas length;新手党直接起飞
下面是 Unsloth Studio 里跑 4-bit GGUF DiffusionGemma 并带可执行代码输出的实际效果:

DiffusionGemma 在 Unsloth Studio 里运行
这是我觉得 DiffusionGemma 这次最值得玩的东西——加一个 --diffusion-visual 参数,可以亲眼看到 256 个 token 怎么从噪声一点点收敛成答案:
./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048 --diffusion-visual
效果是这样的:

diffusion-visual 实时去噪
整个画布上的字符在屏幕上反复擦写、收敛、定型,最后一次性"啪"地全部清晰——这才是扩散语言模型的灵魂可视化;flicker-free 设计,不会糊屏,scrollback 也不会乱
我自己看了三分钟才反应过来:原来"扩散模型生成文本"不是一个比喻,它真的就在你眼前像图像扩散模型一样工作
更狠的是 Unsloth 把 DiffusionGemma 的微调链路也打通了;官方 demo 是用数独数据集 finetune,下面这张前后对比图很说明问题——基础模型解数独完全瞎填,微调之后能稳定解出每一道:

Sudoku 微调前后对比
官方提供了 Colab 笔记本(A100 即可),扩散采样器、温度调度、熵阈值这些扩散专属参数全部预置;如果你手头有领域数据(金融文档、医疗报告、代码库),完全可以拿这套直接 SFT,把 DiffusionGemma 微调成你领域的快速生成专家
老板要冷静,2000+ tok/s 听起来很爽,但有几个固有局限要提前知道:
首 Token 延迟(TTFT)依然偏高:扩散模型必须先把整个 256 token 的 canvas 去噪到位才会吐出第一个字;如果你做的是流式聊天 / 实时打字效果,TTFT 会让用户感觉"卡了一下"——这是架构层面没法绕开的代价
并发上不去:扩散模型每路对话都要维护一块 canvas × vocab_size 的状态缓冲区,显存占用是 AR 模型的好几倍;本地单用户场景没问题,多并发服务直接劝退
精度比 Gemma 4 略低:MMLU Pro 77.6% vs 82.6%、AIME 2026 69.1% vs 88.3%、Codeforces ELO 1429 vs 1718——拿速度换了大约 5-15% 的精度;如果你做的是奥数级推理或竞赛编程,老老实实跑 Gemma 4 自回归版
llama. cpp PR 还没合并主线:PR #24423 目前在 draft 状态,被 ggml-gh-bot 标记"过大",社区也对 per-model server 设计有讨论;短期内你只能在 Unsloth 的 PR 分支或 Unsloth Studio 里玩,原生 llama. cpp 还得等
场景 | 是否推荐 |
|---|---|
24GB 单卡本地推理(4090/3090) | ✅ 强烈推荐,Q4_K_M 起飞 |
Apple Silicon 大内存机器 | ✅ 推荐,Metal 默认支持 |
私有领域知识 SFT | ✅ 推荐,扩散微调链路已通 |
想体验扩散语言模型可视化 | ✅ 必玩 --diffusion-visual |
高并发 API 服务 | ❌ 别碰,AR 模型更合适 |
奥数 / 竞赛级推理任务 | ❌ 跑 Gemma 4 26B AR 版 |
流式聊天 / 实时打字效果 | ❌ TTFT 太慢 |