
Qwen3.5 轻量版来了,更智能,更小巧,量化版本地部署,消费级显卡轻松跑 一文中测试了,十分建议:首选 Qwen3.5-27B,无论是官方benchmark测评还是其他网友评价,都支持这一结论
阿里最新发布的 Qwen3.5,不再只是单个模型,而是一整个军团:
型号 | 类型 | 总参数 | 激活参数 | 定位 |
|---|---|---|---|---|
Qwen3.5-27B | Dense | 27B | 27B | 稳扎稳打型 |
Qwen3.5-35B-A3B | MoE | 35B | 3B | 极速小钢炮 |
Qwen3.5-122B-A10B | MoE | 122B | 10B | 中杯选手 |
Qwen3.5-397B-A17B | MoE | 397B | 17B | 旗舰巨兽 |
两个关键词:混合推理 + MoE 架构。
混合推理意味着支持 thinking 和 non-thinking 双模式,想深度思考就开 thinking,想快速对话就关掉,成年人全都要。
MoE 架构让 397B 参数的模型只激活 17B,推理速度飞快,显存占用远小于同等性能的 Dense 模型。和 DeepSeek R1 的 671B-A37B 相比,Qwen3.5-397B-A17B 参数更少、激活更少,但性能几乎平起平坐——还得是阿里。
其他核心指标:
直接看最硬核的 Benchmark 对比:
Benchmark | GPT-5.2 | Claude 4.5 Opus | Gemini-3 Pro | Qwen3.5-397B |
|---|---|---|---|---|
MMLU-Pro | 87.4 | 89.5 | 89.8 | 87.8 |
GPQA Diamond | 92.4 | 87.0 | 91.9 | 88.4 |
AIME26 | 96.7 | 93.3 | 90.6 | 91.3 |
SWE-bench Verified | 80.0 | 80.9 | 76.2 | 76.4 |
TAU2-Bench | 87.1 | 91.6 | 85.4 | 86.7 |
IFBench | 75.4 | 58.0 | 70.4 | 76.5 |
BrowseComp | 65.8 | 67.8 | 59.2 | 78.6 |
说实话,Qwen3.5-397B 在多项搜索 Agent、指令遵循、多语言任务上已经超过了 GPT-5.2 和 Claude Opus 4.5。特别是 BrowseComp 搜索评测拿到了 78.6 分,直接碾压 GPT-5.2 的 65.8 分和 Claude 的 67.8 分。MultiChallenge 指令遵循测试 67.6 分也是所有模型中最高的。
IFBench 指令遵循 76.5 分,反超 GPT-5.2 的 75.4 和 Claude 的 58.0——阿里在指令遵循这块确实下了狠功夫。
当然,在纯数学推理(AIME26、HMMT)和代码(SWE-bench、LiveCodeBench)上,和 GPT-5.2 还有差距。但考虑到这是一个开源模型,能跟闭源三巨头正面硬刚到这种程度,真香。
和 vLLM 或者 SGLang 部署的在线 API 不同,这里 Unsloth 提供的是量化后本地跑的方案,适合没有 H100 集群的普通玩家。
第三方评测人 Benjamin Marie 用 750 道混合题(LiveCodeBench v6、MMLU Pro、GPQA、Math500)测试了 Qwen3.5-397B 的量化版:
版本 | 准确率 | 精度损失 | 磁盘大小 |
|---|---|---|---|
原始 FP16 | 81.3% | — | ~807GB |
UD-Q4_K_XL (4-bit) | 80.5% | -0.8% | ~214GB |
UD-Q3_K_XL (3-bit) | 80.7% | -0.6% | ~160GB |
4-bit 量化只掉了 0.8 个百分点,3-bit 甚至只掉了 0.6 个百分点。也就是说,你用不到原来 1/4 的存储空间,就能获得 99% 的性能。这就是 Unsloth Dynamic 2.0 量化技术的杀疯了之处——重要的层会被自动提升到 8-bit 甚至 16-bit,而不是一刀切全部压缩。
这是最实际的部分,别收藏了不看:
型号 | 4-bit 量化 | 8-bit 量化 | 原始 FP16 |
|---|---|---|---|
Qwen3.5-27B | 17 GB | 30 GB | 54 GB |
Qwen3.5-35B-A3B | 22 GB | 38 GB | 70 GB |
Qwen3.5-122B-A10B | 70 GB | 132 GB | 245 GB |
Qwen3.5-397B-A17B | 214 GB | 512 GB | 810 GB |
翻译成人话:
27B 和 35B-A3B 怎么选?如果追求准确率,选 27B。如果追求推理速度,选 35B-A3B。后者因为 MoE 架构只激活 3B 参数,速度会快得多。
以 Qwen3.5-35B-A3B 为例,这是 24GB 显卡/内存用户的最佳选择:
# 安装依赖并编译(有 GPU 用 CUDA=ON,纯 CPU 改成 OFF)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
--clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
# 精确编码任务用这个(temperature=0.6,更稳定)
export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
-hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \
--ctx-size 16384 \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00
# 通用任务用这个(temperature=1.0,更有创意)
export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
-hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \
--ctx-size 16384 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00
# 不需要深度推理时,关掉 thinking 模式
export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
-hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \
--ctx-size 16384 \
--temp 0.7 \
--top-p 0.8 \
--top-k 20 \
--min-p 0.00 \
--chat-template-kwargs "{\"enable_thinking\": false}"
如果网络不稳定,可以先把模型文件下载到本地:
# 安装下载工具
pip install huggingface_hub hf_transfer
# 下载 4-bit 量化版(Dynamic MXFP4_MOE,约 22GB)
hf download unsloth/Qwen3.5-35B-A3B-GGUF \
--local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
--include "*MXFP4_MOE*"
# 如果想下 2-bit 超压缩版:
# --include "*UD-Q2_K_XL*"
# 运行模型
./llama.cpp/llama-cli \
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-MXFP4_MOE.gguf \
--seed 3407 \
--temp 1.0 \
--top-p 0.95 \
--min-p 0.01 \
--top-k 40
想搭建一个兼容 OpenAI 接口的本地服务?用 llama-server:
# 启动服务(以 397B 为例)
./llama.cpp/llama-server \
--model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \
--alias "unsloth/Qwen3.5-397B-A17B" \
--temp 0.6 \
--top-p 0.95 \
--ctx-size 16384 \
--top-k 20 \
--min-p 0.00 \
--port 8001
然后用 Python 调用:
from openai import OpenAI
openai_client = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)
completion = openai_client.chat.completions.create(
model="unsloth/Qwen3.5-397B-A17B",
messages=[{"role": "user", "content": "Create a Snake game."}],
)
print(completion.choices[0].message.content)
这样就完全兼容 OpenAI 的 API 格式了,之前用 OpenAI SDK 写的代码直接无缝切换。
Qwen3.5 支持混合推理,thinking 和 non-thinking 模式的参数不一样,别搞混了:
参数 | 精确编码 | 通用任务 |
|---|---|---|
temperature | 0.6 | 1.0 |
top_p | 0.95 | 0.95 |
top_k | 20 | 20 |
min_p | 0.0 | 0.0 |
presence_penalty | 0.0 | 1.5 |
参数 | 通用任务 | 推理任务 |
|---|---|---|
temperature | 0.7 | 1.0 |
top_p | 0.8 | 0.95 |
top_k | 20 | 20 |
min_p | 0.0 | 0.0 |
presence_penalty | 1.5 | 1.5 |
⚠️ 最大上下文 262,144 tokens,推荐输出长度 32,768 tokens。但注意,开大上下文很吃内存,24GB 显存建议
--ctx-size 16384。
Qwen3.5 原生支持 function calling,配合 llama-server 可以直接做本地 Agent。这意味着你可以让模型调用 Python 脚本、执行终端命令、查询数据库,而不只是对话。
和 Ollama 的工具调用相比,直接用 llama-server + OpenAI SDK 的方案更灵活,自定义能力更强。如果你只是想快速体验,Ollama 更省心;如果要做生产级的 Agent,还是走 llama-server 这条路。
你的场景 | 推荐型号 | 理由 |
|---|---|---|
日常对话、轻量代码 | 35B-A3B | MoE 架构,速度飞快,24GB 就能跑 |
追求准确性、做题答卷 | 27B | Dense 架构更稳定,17GB 起步 |
企业级多任务 | 122B-A10B | 甜点级的性价比,70GB 内存搞定 |
硬核玩家、对标闭源 | 397B-A17B | 旗舰性能,256GB Mac 直接上 |
优点:
缺点/局限:
适合人群:想在本地跑顶级大模型的 Mac 用户、有 24GB+ 显卡的 Linux 玩家、企业内网部署场景。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!