首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >一个全新的大模型压缩工具,极限量化

一个全新的大模型压缩工具,极限量化

作者头像
Ai学习的老章
发布2026-03-02 20:52:09
发布2026-03-02 20:52:09
250
举报

端侧大模型的死结:要么笨,要么大

跑大模型,大家最头疼的永远是显存。

DeepSeek-R1 满血版 671B,光模型文件就几百 GB,普通人想都别想。就算用 Ollama 跑个量化版,4-bit 的 7B 模型也得 6-8 GB 显存起步。

那如果我就想在 MacBook、手机这种端侧设备上跑呢?

传统方案有两条路:

  1. 用小模型 —— 比如 0.5B 的模型。但这种尺寸的模型,数学、编程、推理能力基本拉胯,聊胜于无
  2. 用激进量化 —— 把 7B 模型量化到 2-bit。但 PTQ(训后量化)到这么低的精度,精度损失巨大,基本不可用

简单说就是:小模型不够聪明,大模型塞不进去

腾讯的 AngelSlim 团队给出了第三条路:用 QAT(量化感知训练)让 1.8B 模型在 2-bit 下依然能打

AngelSlim:腾讯的大模型压缩全家桶

先说 AngelSlim 这个工具包。这不是一个只做量化的小工具,而是腾讯搞的一整套大模型压缩军火库。

GitHub:https://github.com/Tencent/AngelSlim

核心能力三板斧:

1. 量化(Quantization) —— 支持主流算法全家桶:

  • FP8(静态/动态)
  • INT8
  • INT4(GPTQ/AWQ/GPTAQ)
  • NVFP4
  • 还有自研的 Tequila(三值量化)和 Sherry(1.25-bit 量化)🔥

和 bitsandbytes 这种只能做推理时量化不同,AngelSlim 是从训练到部署全链路覆盖的。跟 GPTQ、AWQ 这些单点工具比,它把所有算法整合到了一个统一框架里,用起来确实省心不少。

2. 投机解码(Speculative Decoding) —— 集成 Eagle3 和 SpecExit:

  • Eagle3 训练+部署一条龙,覆盖 LLM/VLM/Audio 全模态
  • 实测加速 1.4-1.9 倍

这个和 vLLM 的原生投机解码能力是互补的。AngelSlim 做训练,vLLM/SGLang 做部署。

3. Diffusion 模型量化 —— 支持 FLUX、Hunyuan-Image/Video/3D 等生图模型的 FP8 量化和 Cache 加速

支持的模型阵容超豪华

类型

支持模型

LLM

Hunyuan 全系列、Qwen3/2.5、DeepSeek V3/R1、GLM-4.6

VLM

Hunyuan-VL、HunyuanOCR、Qwen3-VL、Qwen2.5-VL

Diffusion

Hunyuan-Image/Video/3D、FLUX、Wan、SDXL

Audio

Qwen3-Omni、Qwen2-Audio、Fun-CosyVoice3

基本上你能想到的主流大模型,它都能压。

HY-1.8B-2Bit:2-bit 的端侧王者

重头戏来了。AngelSlim 团队在 2026 年 2 月 9 日放出了 HY-1.8B-2Bit,这是目前业界最激进的端侧大模型之一。

核心数据

  • 基于 Hunyuan-1.8B-Instruct 做 QAT(量化感知训练)
  • 权重压缩到 2-bit
  • 比全精度版性能只掉 3.97%
  • 和 INT4 量化版精度差距仅 0.13% —— 但只用了一半的存储!
  • 比同体量的 0.5B 全精度模型强 16%

你品品这个数据:2-bit 的 1.8B 模型,和 4-bit 的同模型打个平手,但体量小了接近一半。和同样大小的 0.5B 全精度模型比,各个维度吊打。

这就是 QAT 的威力。 PTQ 在 2-bit 基本烂掉,但 QAT 通过在训练阶段就感知量化误差,能把精度损失控制在极小范围内。

更牛的是:它还会思考

HY-1.8B-2Bit 完整继承了 Hunyuan-1.8B-Instruct 的 "满血思考"能力。这是目前业界最紧凑的支持完整推理链路的模型。

更妙的是,它支持 Dual-CoT(双链思考)策略

  • 短 CoT:快速回答简单问题,低延迟
  • 长 CoT:深度推理复杂问题,高精度

在端侧场景下,这个设计太实用了。简单问题秒回,复杂问题慢想,用户体验和计算资源的平衡拿捏得刚刚好。

在 MacBook M4 上跑起来

HY-1.8B-2Bit 提供了 GGUF 格式权重,可以通过 llama.cpp 在端侧跑。

⚠️ 重要提醒:目前只支持 SME2 指令集的设备,包括:

  • Apple M4 芯片(MacBook Pro M4、iPad Pro M4 等)
  • vivo x300
  • 其他支持 Arm SME2 的 CPU

M1/M2/M3 用户暂时跑不了,Neon 内核还在开发中。

部署步骤(MacBook M4):

代码语言:javascript
复制
# 1. 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 2. 切换到 SME2 支持分支
git fetch origin pull/19357/head:pr-19357-sme2-int2
git checkout pr-19357-sme2-int2

# 3. 编译(启用 KleidiAI,关闭 Metal)
mkdir build && cd build
cmake -DGGML_CPU_KLEIDIAI=ON -DGGML_METAL=OFF -DGGML_BLAS=OFF ..
make -j8

# 4. 下载 GGUF 模型(从 HuggingFace)
# https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

# 5. 量化(如果下载的是 fp16 版本)
./bin/llama-quantize hunyuan-fp16-qdq.gguf hunyuan-q2_0.gguf q2_0c

运行推理

代码语言:javascript
复制
export GGML_KLEIDIAI_SME=1

# 带思考模式
./bin/llama-cli -m hunyuan-q2_0.gguf -p "写一副春联" -t 1 --seed 4568 -n 32

# 不带思考(更快)
./bin/llama-cli -m hunyuan-q2_0.gguf -p "/no_think写一副春联" -t 1 --seed 4568 -n 32

关键参数说明:

  • -t 1:线程数,建议从 1 开始测试
  • -n 32:生成 token 数量
  • /no_think 前缀:跳过思考链,直接输出

跑基准测试

代码语言:javascript
复制
./bin/llama-bench -m hunyuan-q2_0.gguf -p 128 -t 1 -n 128

服务端部署也不含糊

如果你有 GPU 服务器,AngelSlim 的量化模型可以直接上 vLLM 或 SGLang 部署:

代码语言:javascript
复制
# 安装 AngelSlim
pip install angelslim

# FP8 静态量化 Qwen3-1.7B(一行命令)
python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

# 用 vLLM 部署(推荐 vllm>=0.8.5.post1)
bash scripts/deploy/run_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096

# 或者用 SGLang(推荐 sglang>=0.4.6.post1)
bash scripts/deploy/run_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8

量化后通过 OpenAI 兼容 API 调用:

代码语言:javascript
复制
bash scripts/deploy/openai.sh -m $MODEL_PATH -p "Hello, my name is" --port 8080 \
  --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 \
  --repetition-penalty 1.05 --system-prompt "You are a helpful assistant."

和 vLLM 原生量化方案(如 --quantization fp8)相比,AngelSlim 的优势在于支持更多量化算法和更激进的压缩方案(2-bit、1.25-bit),同时自带校准数据集和一键量化流程。

自研量化算法:Tequila 和 Sherry

除了整合主流量化算法,AngelSlim 还有两个自研的硬核算法值得关注:

  • Tequila:三值量化(Ternary),权重只有 {-1, 0, +1} 三个值,极致压缩
  • Sherry:1.25-bit 量化 🔥 —— 比 2-bit 还激进,硬件友好型设计

1.25-bit 是什么概念?就是平均每个权重只用 1.25 个 bit 来表示。这基本是大模型量化的极限了。

优缺点总结

优点:

  • ✅ 量化算法全家桶,从 FP8 到 1.25-bit 全覆盖,和 GPTQ/AWQ/bitsandbytes 单点工具比,一站式体验省心太多
  • ✅ HY-1.8B-2Bit 的 QAT 质量很高,2-bit 下精度损失仅 4%,碾压同体量 0.5B Dense 模型
  • ✅ 支持 GGUF 导出 + llama.cpp 端侧推理,MacBook M4 可跑
  • ✅ 支持 vLLM/SGLang 服务端部署,生产可用
  • ✅ 模型支持阵容豪华,DeepSeek/Qwen/Hunyuan/FLUX 全覆盖
  • ✅ Dual-CoT 设计在端侧场景非常实用

缺点/局限:

  • ⚠️ 2-bit GGUF 目前只支持 SME2 设备(M4 芯片),M1/M2/M3 用户暂时用不了
  • ⚠️ 1.8B 模型本身的能力天花板有限,复杂任务还是得靠更大的模型
  • ⚠️ 文档目前以英文为主,中文文档还在完善中
  • ⚠️ 部分自研算法(Tequila、Sherry)还处于实验阶段

适合人群

  • 做端侧 AI 的开发者(M4 设备用户优先)
  • 需要大规模量化部署大模型的团队
  • 对量化技术感兴趣的研究者

One More Thing

AngelSlim 不只是一个工具,更代表了一个趋势:大模型的未来不只是更大,还要更小、更快、更省

当 0.5B 参数的 Dense 模型和 2-bit 的 1.8B 模型摆在一起,同样的存储空间,后者在数学推理上强了 22%,在编程上强了 21%。这不是微调优化的量级,是降维打击。

技术报告:https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

项目地址汇总

  • GitHub:https://github.com/Tencent/AngelSlim
  • HY-1.8B-2Bit 权重:https://huggingface.co/AngelSlim/HY-1.8B-2Bit
  • GGUF 版本:https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
  • 文档:https://angelslim.readthedocs.io/

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 端侧大模型的死结:要么笨,要么大
  • AngelSlim:腾讯的大模型压缩全家桶
  • HY-1.8B-2Bit:2-bit 的端侧王者
  • 更牛的是:它还会思考
  • 在 MacBook M4 上跑起来
  • 服务端部署也不含糊
  • 自研量化算法:Tequila 和 Sherry
  • 优缺点总结
  • One More Thing
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档