跑大模型,大家最头疼的永远是显存。
DeepSeek-R1 满血版 671B,光模型文件就几百 GB,普通人想都别想。就算用 Ollama 跑个量化版,4-bit 的 7B 模型也得 6-8 GB 显存起步。
那如果我就想在 MacBook、手机这种端侧设备上跑呢?
传统方案有两条路:
简单说就是:小模型不够聪明,大模型塞不进去。
腾讯的 AngelSlim 团队给出了第三条路:用 QAT(量化感知训练)让 1.8B 模型在 2-bit 下依然能打。
先说 AngelSlim 这个工具包。这不是一个只做量化的小工具,而是腾讯搞的一整套大模型压缩军火库。
GitHub:https://github.com/Tencent/AngelSlim
核心能力三板斧:
1. 量化(Quantization) —— 支持主流算法全家桶:
和 bitsandbytes 这种只能做推理时量化不同,AngelSlim 是从训练到部署全链路覆盖的。跟 GPTQ、AWQ 这些单点工具比,它把所有算法整合到了一个统一框架里,用起来确实省心不少。
2. 投机解码(Speculative Decoding) —— 集成 Eagle3 和 SpecExit:
这个和 vLLM 的原生投机解码能力是互补的。AngelSlim 做训练,vLLM/SGLang 做部署。
3. Diffusion 模型量化 —— 支持 FLUX、Hunyuan-Image/Video/3D 等生图模型的 FP8 量化和 Cache 加速
支持的模型阵容超豪华:
类型 | 支持模型 |
|---|---|
LLM | Hunyuan 全系列、Qwen3/2.5、DeepSeek V3/R1、GLM-4.6 |
VLM | Hunyuan-VL、HunyuanOCR、Qwen3-VL、Qwen2.5-VL |
Diffusion | Hunyuan-Image/Video/3D、FLUX、Wan、SDXL |
Audio | Qwen3-Omni、Qwen2-Audio、Fun-CosyVoice3 |
基本上你能想到的主流大模型,它都能压。
重头戏来了。AngelSlim 团队在 2026 年 2 月 9 日放出了 HY-1.8B-2Bit,这是目前业界最激进的端侧大模型之一。
核心数据:
你品品这个数据:2-bit 的 1.8B 模型,和 4-bit 的同模型打个平手,但体量小了接近一半。和同样大小的 0.5B 全精度模型比,各个维度吊打。
这就是 QAT 的威力。 PTQ 在 2-bit 基本烂掉,但 QAT 通过在训练阶段就感知量化误差,能把精度损失控制在极小范围内。
HY-1.8B-2Bit 完整继承了 Hunyuan-1.8B-Instruct 的 "满血思考"能力。这是目前业界最紧凑的支持完整推理链路的模型。
更妙的是,它支持 Dual-CoT(双链思考)策略:
在端侧场景下,这个设计太实用了。简单问题秒回,复杂问题慢想,用户体验和计算资源的平衡拿捏得刚刚好。
HY-1.8B-2Bit 提供了 GGUF 格式权重,可以通过 llama.cpp 在端侧跑。
⚠️ 重要提醒:目前只支持 SME2 指令集的设备,包括:
M1/M2/M3 用户暂时跑不了,Neon 内核还在开发中。
部署步骤(MacBook M4):
# 1. 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
# 2. 切换到 SME2 支持分支
git fetch origin pull/19357/head:pr-19357-sme2-int2
git checkout pr-19357-sme2-int2
# 3. 编译(启用 KleidiAI,关闭 Metal)
mkdir build && cd build
cmake -DGGML_CPU_KLEIDIAI=ON -DGGML_METAL=OFF -DGGML_BLAS=OFF ..
make -j8
# 4. 下载 GGUF 模型(从 HuggingFace)
# https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
# 5. 量化(如果下载的是 fp16 版本)
./bin/llama-quantize hunyuan-fp16-qdq.gguf hunyuan-q2_0.gguf q2_0c
运行推理:
export GGML_KLEIDIAI_SME=1
# 带思考模式
./bin/llama-cli -m hunyuan-q2_0.gguf -p "写一副春联" -t 1 --seed 4568 -n 32
# 不带思考(更快)
./bin/llama-cli -m hunyuan-q2_0.gguf -p "/no_think写一副春联" -t 1 --seed 4568 -n 32
关键参数说明:
-t 1:线程数,建议从 1 开始测试-n 32:生成 token 数量/no_think 前缀:跳过思考链,直接输出跑基准测试:
./bin/llama-bench -m hunyuan-q2_0.gguf -p 128 -t 1 -n 128
如果你有 GPU 服务器,AngelSlim 的量化模型可以直接上 vLLM 或 SGLang 部署:
# 安装 AngelSlim
pip install angelslim
# FP8 静态量化 Qwen3-1.7B(一行命令)
python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml
# 用 vLLM 部署(推荐 vllm>=0.8.5.post1)
bash scripts/deploy/run_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096
# 或者用 SGLang(推荐 sglang>=0.4.6.post1)
bash scripts/deploy/run_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8
量化后通过 OpenAI 兼容 API 调用:
bash scripts/deploy/openai.sh -m $MODEL_PATH -p "Hello, my name is" --port 8080 \
--max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 \
--repetition-penalty 1.05 --system-prompt "You are a helpful assistant."
和 vLLM 原生量化方案(如 --quantization fp8)相比,AngelSlim 的优势在于支持更多量化算法和更激进的压缩方案(2-bit、1.25-bit),同时自带校准数据集和一键量化流程。
除了整合主流量化算法,AngelSlim 还有两个自研的硬核算法值得关注:
1.25-bit 是什么概念?就是平均每个权重只用 1.25 个 bit 来表示。这基本是大模型量化的极限了。
优点:
缺点/局限:
适合人群:
AngelSlim 不只是一个工具,更代表了一个趋势:大模型的未来不只是更大,还要更小、更快、更省。
当 0.5B 参数的 Dense 模型和 2-bit 的 1.8B 模型摆在一起,同样的存储空间,后者在数学推理上强了 22%,在编程上强了 21%。这不是微调优化的量级,是降维打击。
技术报告:https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf
项目地址汇总:
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!