
Claude Opus 蒸馏Qwen3.6-35B-A3B,开源了,消费级显卡轻松跑
继续挖有意思的社区项目 —— Qwopus3.6-27B-v2
作者 Jackrong 上来就给出了一个很贼的思路:商用闭源模型(Claude、GPT)只会给你看高度压缩的"推理气泡",你想蒸馏?其实很难
那就自己造一个 Trace-Inverter,把那些跳步的结论反推回完整的逐步思考链,再喂给学生模型
❝⚠️ 先打预防针:这是一个实验性社区发布,没有做过完整的安全评估,也没跑过标准基准全集,作者明确说仅供研究和探索
Qwopus3.6-27B-v2 是一个基于阿里 Qwen3.6-27B Dense 模型做 SFT 微调的推理增强模型,整个项目的"灵魂"是两个东西:
1. Trace Inversion 数据
作者训了一个专门的反向解码器 Trace-Inverter-4B(底座是 Qwen3-4B-Instruct),干一件事:
压缩气泡(Claude 输出)
↓
Trace-Inverter-4B
↓
完整 step-by-step 的 Learnable CoT
然后把还原出来的 CoT 嵌进 <think> 标签,和原 prompt / response 重新拼成 SFT 样本,最终产出两个数据集:
2. 三阶段课程学习 SFT
Phase 1: Format Inception ( < 4096 tokens, 把格式打稳 )
Phase 2: Complexity Expansion ( 4096 - 8192, 上中等复杂度推理 )
Phase 3: Long-Context SFT ( 8192 - 32K, 长上下文 + 10% 回放 )
逐步把 context 拉长、把任务复杂度堆上去,避免长上下文翻车
模型核心特征:
mmproj.gguf)和 Tool-use / Function-calling<think> 标签格式严格收敛,方便接下游 RL训练框架用的是 Unsloth:普通开发者也能微调 Qwen3.5 9B:Kaggle + Unsloth + LoRA 全流程拆解

Trace Inversion · 推理气泡反向解码
这部分是整个项目最值得讲清楚的地方,搞蒸馏的同学一定要看
【传统蒸馏的坑】
GPT-4o / Claude 3.5 Sonnet
↓ (输出)
压缩过的"推理气泡"(跳步、省略中间过程)
↓ (学生硬学)
学到一堆"跳步结论",缺底层推导 → 逻辑断裂、泛化崩盘
【Trace Inversion 思路】
压缩气泡 + 答案
↓ Trace-Inverter-4B (逻辑重建器)
完整连续的 CoT 链
↓
嵌进 <think> 标签做 SFT
↓
学生学到的是"推导过程",不是"跳步答案"
作者管这个叫 "负熵重建"(Negentropy Reconstruction),把信息压缩里损失的中间步骤,靠一个专门训练的反演模型补回来
我个人觉得这个思路很有想象力,比直接拿商用模型的 raw output 当 ground truth 香多了,可惜的是 Trace-Inverter 本身的还原质量是整套方法的天花板,**如果反演不准,等于在教学生"假装推理"**,这点作者没有详细给出还原准确率,是个想深入研究的同学需要自己测的点

Qwopus 3.6 vs Qwen 3.6 · 数据说话
这是我最关心的部分,先看效率:
维度 | Qwen3.6-27B | Qwopus3.6-27B-v2 | 收益 |
|---|---|---|---|
答对题平均 token | 1,433.3 | 918.7 | 少 35.9% |
系统级 token 开销 | 2,511.0 | 2,155.8 | 少 14.2% |
每万 token 答对数 | 3.98 | 4.64 | +16.6% |
思考链长度(字符) | 5,169.4 | 2,370.0 | 短 54.1% |
答对同一道题,新模型平均少花 35.9% 的 token,思考链直接砍半,token 转化效率提升 16.6%
模型 | 正确数 | 准确率 |
|---|---|---|
Qwen3.6-27B | 297 / 350 | 84.86% |
Qwopus3.6-27B-v2 | 306 / 350 | 87.43%(+2.57pp) |
分项里 Business、Physics、Chemistry 都大幅领先,Math 和 Health 反而退步,说明 Trace Inversion 对偏推理的硬核学科收益更大
配置 | 解决数 | 解决率 |
|---|---|---|
Qwopus 3.6 27B v2(Dense, temp 1.0) | 152 / 202 | 75.25% |
单卡 RTX 5090 跑了 19h 29min,160K fp16 上下文窗口,全部样本 Submitted 退出,0 步数耗尽、0 上下文溢出
作者有个反直觉的发现:Agent 任务一定要"高温度"跑,temp=1.0 + thinking-on 反而能避免推理回路;greedy(temp=0.1)会让模型过度思考、在 <think> 块里无限循环
这条经验值钱,单独拎出来:
❝Agent 别迷信 temp 0,Qwopus 这种 SFT 出来的模型,需要 temperature 帮它"跳出"训练时的推理 attractor
5 道 Web 页面生成全部通过(SaaS Landing / 数据看板 / 设计师作品集 / Pricing / 移动 App 营销页),WebGL 创意编程也有 Particle Attractor、Generative Flowfield、Soft-Body Physics、Audio Visualizer 这些发布版本
5 个 Agent prompt 全过:多步部署规划、工具调用规划、4 个 bug 的代码调试、结构化抽取、自我批评循环都拿下来了

仓库已经提供了一整套 GGUF 量化版本,覆盖从 IQ4_XS 到 Q8_0:
Qwopus3.6-27B-v2-IQ4_XS.gguf
Qwopus3.6-27B-v2-Q2_K.gguf
Qwopus3.6-27B-v2-Q3_K_S/M/L.gguf
Qwopus3.6-27B-v2-Q4_K_S/M.gguf
Qwopus3.6-27B-v2-Q5_K_S/M.gguf
Qwopus3.6-27B-v2-Q6_K.gguf
Qwopus3.6-27B-v2-Q8_0.gguf
mmproj.gguf # 想用 Vision 功能必下
实测吞吐(RTX 5090, Q5_K_M):
配置 | 平均吞吐 | VRAM 占用 | 上下文 |
|---|---|---|---|
Dense 27B v2(Q5) | 43.9 tok/s | ~31 GB | 160K fp16 |
MoE 35B-A3B 兄弟版(Q5) | 161.9 tok/s | ~25 GB | 65K q8 |
注意这个对比有点反直觉:MoE 兄弟版吞吐高 3.7 倍(因为 A3B 路由只激活 3B),但作者明确推荐 Dense 27B 用来跑复杂 Agent / 长上下文 / 代码任务,单 token 推理深度更扎实
Dense 27B 的吞吐方差只有 ±0.75 tok/s,完全卡在显存带宽上,所以你换更高带宽的显存就能直接起飞
./llama-server \
-m Qwopus3.6-27B-v2-Q5_K_M.gguf \
--mmproj mmproj.gguf \
-c 32768 \
--jinja \
--temp 1.0
Agent 任务记得 temp 拉到 1.0,按作者的话讲:别 greedy,会陷入推理回路
作者还开源了一套针对 Qwen 系列 Multi-Token Prediction (MTP) heads 的拆分合并方法,带 MTP 头的 Qwopus3.6-27B-v2-MTP 版本,比官方 Qwen3.6 推理速度 快 1.66x,相当赞
Unsloth 给 Qwen3.6 上了MTP,本地推理速度起飞,消费级显卡轻松跑
公开的两个数据集都挂在作者 HF 主页:

合起来 14,000 条 Trace Inversion 样本,规模不算大,但质量优于数量这个策略目前看是 work 的
挑点真心话讲:
优点:
需要警惕的地方:
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个点赞、转发。谢谢你看我的文章,我们下篇再见!