首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Claude Opus 蒸馏 Qwen3.6-27B,v2 来了

Claude Opus 蒸馏 Qwen3.6-27B,v2 来了

作者头像
Ai学习的老章
发布2026-05-26 20:26:10
发布2026-05-26 20:26:10
40
举报

Claude Opus 蒸馏Qwen3.6-35B-A3B,开源了,消费级显卡轻松跑

继续挖有意思的社区项目 —— Qwopus3.6-27B-v2

作者 Jackrong 上来就给出了一个很贼的思路:商用闭源模型(Claude、GPT)只会给你看高度压缩的"推理气泡",你想蒸馏?其实很难

那就自己造一个 Trace-Inverter,把那些跳步的结论反推回完整的逐步思考链,再喂给学生模型

⚠️ 先打预防针:这是一个实验性社区发布,没有做过完整的安全评估,也没跑过标准基准全集,作者明确说仅供研究和探索

简介

Qwopus3.6-27B-v2 是一个基于阿里 Qwen3.6-27B Dense 模型做 SFT 微调的推理增强模型,整个项目的"灵魂"是两个东西:

1. Trace Inversion 数据

作者训了一个专门的反向解码器 Trace-Inverter-4B(底座是 Qwen3-4B-Instruct),干一件事:

代码语言:javascript
复制
压缩气泡(Claude 输出)
        ↓
   Trace-Inverter-4B
        ↓
完整 step-by-step 的 Learnable CoT

然后把还原出来的 CoT 嵌进 <think> 标签,和原 prompt / response 重新拼成 SFT 样本,最终产出两个数据集:

  • claude-opus-4.6-traceInversion-9000x:9,000 条高质量逐步推理轨迹
  • claude-opus-4.7-traceInversion-5000x:5,000 条复杂多轮逻辑和数学样本

2. 三阶段课程学习 SFT

代码语言:javascript
复制
Phase 1: Format Inception      ( < 4096 tokens, 把格式打稳 )
Phase 2: Complexity Expansion  ( 4096 - 8192, 上中等复杂度推理 )
Phase 3: Long-Context SFT      ( 8192 - 32K, 长上下文 + 10% 回放 )

逐步把 context 拉长、把任务复杂度堆上去,避免长上下文翻车

模型核心特征:

  • 🧠 27B Dense Transformer,原生支持 32K / 128K 长上下文
  • 🛠️ 原生支持 Vision(需要下 mmproj.gguf)和 Tool-use / Function-calling
  • 🪶 <think> 标签格式严格收敛,方便接下游 RL
  • 🔁 跨源 SFT 对齐 + 多教师蒸馏,专门补"能力鸿沟"

训练框架用的是 Unsloth普通开发者也能微调 Qwen3.5 9B:Kaggle + Unsloth + LoRA 全流程拆解

核心创新:什么是"推理气泡"反演?

Trace Inversion · 推理气泡反向解码
Trace Inversion · 推理气泡反向解码

Trace Inversion · 推理气泡反向解码

这部分是整个项目最值得讲清楚的地方,搞蒸馏的同学一定要看

代码语言:javascript
复制
【传统蒸馏的坑】
GPT-4o / Claude 3.5 Sonnet
   ↓ (输出)
压缩过的"推理气泡"(跳步、省略中间过程)
   ↓ (学生硬学)
学到一堆"跳步结论",缺底层推导 → 逻辑断裂、泛化崩盘

【Trace Inversion 思路】
压缩气泡 + 答案
   ↓ Trace-Inverter-4B (逻辑重建器)
完整连续的 CoT 链
   ↓
嵌进 <think> 标签做 SFT
   ↓
学生学到的是"推导过程",不是"跳步答案"

作者管这个叫 "负熵重建"(Negentropy Reconstruction),把信息压缩里损失的中间步骤,靠一个专门训练的反演模型补回来

我个人觉得这个思路很有想象力,比直接拿商用模型的 raw output 当 ground truth 香多了,可惜的是 Trace-Inverter 本身的还原质量是整套方法的天花板,**如果反演不准,等于在教学生"假装推理"**,这点作者没有详细给出还原准确率,是个想深入研究的同学需要自己测的点

性能数据:Token 省 35%,准确率涨 2.57pp

Qwopus 3.6 vs Qwen 3.6 · 数据说话
Qwopus 3.6 vs Qwen 3.6 · 数据说话

Qwopus 3.6 vs Qwen 3.6 · 数据说话

这是我最关心的部分,先看效率:

⚡ 推理效率(核心亮点)

维度

Qwen3.6-27B

Qwopus3.6-27B-v2

收益

答对题平均 token

1,433.3

918.7

少 35.9%

系统级 token 开销

2,511.0

2,155.8

少 14.2%

每万 token 答对数

3.98

4.64

+16.6%

思考链长度(字符)

5,169.4

2,370.0

短 54.1%

答对同一道题,新模型平均少花 35.9% 的 token,思考链直接砍半,token 转化效率提升 16.6%

🧠 MMLU-Pro 子集(350 题,7 个类别 × 50)

模型

正确数

准确率

Qwen3.6-27B

297 / 350

84.86%

Qwopus3.6-27B-v2

306 / 350

87.43%(+2.57pp)

分项里 Business、Physics、Chemistry 都大幅领先,Math 和 Health 反而退步,说明 Trace Inversion 对偏推理的硬核学科收益更大

💻 SWE-bench Verified

配置

解决数

解决率

Qwopus 3.6 27B v2(Dense, temp 1.0)

152 / 202

75.25%

单卡 RTX 5090 跑了 19h 29min,160K fp16 上下文窗口,全部样本 Submitted 退出,0 步数耗尽、0 上下文溢出

作者有个反直觉的发现:Agent 任务一定要"高温度"跑,temp=1.0 + thinking-on 反而能避免推理回路;greedy(temp=0.1)会让模型过度思考、在 <think> 块里无限循环

这条经验值钱,单独拎出来:

Agent 别迷信 temp 0,Qwopus 这种 SFT 出来的模型,需要 temperature 帮它"跳出"训练时的推理 attractor

🎨 Web Design / Canvas / Agent 任务

5 道 Web 页面生成全部通过(SaaS Landing / 数据看板 / 设计师作品集 / Pricing / 移动 App 营销页),WebGL 创意编程也有 Particle Attractor、Generative Flowfield、Soft-Body Physics、Audio Visualizer 这些发布版本

5 个 Agent prompt 全过:多步部署规划、工具调用规划、4 个 bug 的代码调试、结构化抽取、自我批评循环都拿下来了

部署:本地能跑吗?要多少显存?

仓库已经提供了一整套 GGUF 量化版本,覆盖从 IQ4_XS 到 Q8_0:

代码语言:javascript
复制
Qwopus3.6-27B-v2-IQ4_XS.gguf
Qwopus3.6-27B-v2-Q2_K.gguf
Qwopus3.6-27B-v2-Q3_K_S/M/L.gguf
Qwopus3.6-27B-v2-Q4_K_S/M.gguf
Qwopus3.6-27B-v2-Q5_K_S/M.gguf
Qwopus3.6-27B-v2-Q6_K.gguf
Qwopus3.6-27B-v2-Q8_0.gguf
mmproj.gguf   # 想用 Vision 功能必下

实测吞吐(RTX 5090, Q5_K_M):

配置

平均吞吐

VRAM 占用

上下文

Dense 27B v2(Q5)

43.9 tok/s

~31 GB

160K fp16

MoE 35B-A3B 兄弟版(Q5)

161.9 tok/s

~25 GB

65K q8

注意这个对比有点反直觉:MoE 兄弟版吞吐高 3.7 倍(因为 A3B 路由只激活 3B),但作者明确推荐 Dense 27B 用来跑复杂 Agent / 长上下文 / 代码任务,单 token 推理深度更扎实

Dense 27B 的吞吐方差只有 ±0.75 tok/s,完全卡在显存带宽上,所以你换更高带宽的显存就能直接起飞

llama.cpp 跑起来
代码语言:javascript
复制
./llama-server \
    -m Qwopus3.6-27B-v2-Q5_K_M.gguf \
    --mmproj mmproj.gguf \
    -c 32768 \
    --jinja \
    --temp 1.0

Agent 任务记得 temp 拉到 1.0,按作者的话讲:别 greedy,会陷入推理回路

MTP 加速:1.66x

作者还开源了一套针对 Qwen 系列 Multi-Token Prediction (MTP) heads 的拆分合并方法,带 MTP 头的 Qwopus3.6-27B-v2-MTP 版本,比官方 Qwen3.6 推理速度 快 1.66x,相当赞

Unsloth 给 Qwen3.6 上了MTP,本地推理速度起飞,消费级显卡轻松跑

训练数据来自哪里?

公开的两个数据集都挂在作者 HF 主页:

合起来 14,000 条 Trace Inversion 样本,规模不算大,但质量优于数量这个策略目前看是 work 的

我的一些想法

挑点真心话讲:

优点:

  • 思路新:Trace Inversion 是个非常聪明的方向,绕开了"压缩气泡"的信息熵陷阱
  • Token 效率真高:35.9% 的输出 token 减少是看得见的省钱,部署成本直接打折
  • SWE-bench 75.25% 不虚:单卡 5090 跑出来的 152/202 数据足够亮眼
  • 生态完整:GGUF 全档位、MTP 加速、mmproj 视觉支持、数据集开源,社区项目里少见的完整度

需要警惕的地方:

  • 基准是子集:MMLU-Pro 只测了 350 题,不是全集,作者也明说"due to limited resources"
  • 没第三方复现:所有数据都是作者自测,建议跑业务前自己再 benchmark 一下
  • 安全评估缺失:实验性发布,企业生产环境慎入
  • Trace-Inverter 的还原准确率没公开:整套方法的天花板取决于这个小模型靠不靠谱
  • Mathematics 和 Health 是退步的:说明 Trace Inversion 也不是万能药

适合谁?

  • 玩本地推理、想在 27B 这个甜点档位找个 Reasoning Model 的同学
  • 跑 Agent / 代码任务需要长上下文 + 工具调用的开发者
  • 对蒸馏方法本身感兴趣、想研究 Trace Inversion 的研究者
  • RTX 5090 / 4090 双卡 / Mac Studio 这类配置的本地玩家

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个点赞、转发。谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 核心创新:什么是"推理气泡"反演?
  • 性能数据:Token 省 35%,准确率涨 2.57pp
    • ⚡ 推理效率(核心亮点)
    • 🧠 MMLU-Pro 子集(350 题,7 个类别 × 50)
    • 💻 SWE-bench Verified
    • 🎨 Web Design / Canvas / Agent 任务
  • 部署:本地能跑吗?要多少显存?
    • llama.cpp 跑起来
  • MTP 加速:1.66x
  • 训练数据来自哪里?
  • 我的一些想法
  • 适合谁?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档