Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何微调推理大模型?以Qwen3/DeepSeek-R1为例

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

作者头像
致Great
发布于 2025-05-14 00:27:25
发布于 2025-05-14 00:27:25
17000
代码可运行
举报
文章被收录于专栏:自然语言处理自然语言处理
运行总次数:0
代码可运行

前言

首先先简单介绍下两个系列的模型:

DeepSeek-R1是由深度求索公司推出的首款推理模型,该模型在数学、代码和推理任务上的表现优异。深度求索不仅开源了DeepSeek-R1模型,还发布了从DeepSeek-R1基于Llama和Qwen蒸馏而来的六个密集模型,在各项基准测试中均表现出色。本文以蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,为您介绍如何微调该系列模型。

Qwen3是阿里云通义千问团队于2025年4月29日发布的最新大型语言模型系列,包含2个MoE模型和6个Dense模型。其基于广泛的训练,在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。PAI-Model Gallery已接入全部8个尺寸模型,以及其对应的Base模型、FP8模型,总计22个模型。本文为您介绍如何在Model Gallery部署评测该系列模型。

刚好最近在做一个推理训练任务,现在有现成的训练集,推理模型这么强的情况下,怎么把之前传统对话大模型+指令微调训练模式 转变成推理大模型+指令微调任务

后训练广义可能范围比较大,包括微调、强化学习等。 可能我们构造强化学习数据集或者思维链数据集的成本比较高的,所以今天咱们就聊一聊怎么偷懒地将把之前的指令数据集或者指令微调的工作推演到推理大模型训练上呢?有没有比较省事或者比较规范的做法呢?

方法1:通过推理大模型将指令数据集蒸馏为推理数据

通过能力比较强的推理大模型底座将之前指令数据集蒸馏为思维链数据集,然后进行筛选过滤。

具体做法我们可以参考刘聪大佬开源的Chinese-DeepSeek-R1-Distill-data-110k,大致流程是调用企业版满血R1 API,然后数据生成结果进行了二次校验,并保留了评价分数:

  • 针对Math和Exam数据,先利用Math-Verify进行校对,无法规则抽取结果的数据,再利用Qwen2.5-72B-Instruct模型进行打分,正确为10分,错误为0分。
  • 针对其他数据,直接利用Qwen2.5-72B-Instruct模型从无害性、有用性、正确性/完整性三个角度进行打分,分值范围为0-10分。

方法2:使用COT数据集构造推理大模型训练数据

下面以一个推理数据集为例,

medical-o1-reasoning-SFT医学推理数据集,该数据集基于医学可验证问题和 LLM 验证器构建,这个数据集构造过程和方法1提到的差不多。方法1强调如何通过推理大模型蒸馏指令数据集,方法2强调如何通过已有COT构造推理数据集

以下面模板为例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
train_prompt_style = """Below is an instruction that describes a task, paired with an input that provides further context. 
Write a response that appropriately completes the request. 
Before answering, think carefully about the question and create a step-by-step chain of thoughts to ensure a logical and accurate response.

### Instruction:
You are a medical expert with advanced knowledge in clinical reasoning, diagnostics, and treatment planning. 
Please answer the following medical question. 

### Question:
{}

### Response:
<think>
{}
</think>
{}"""

有了模板下面我们直接通过占位符填充COT字段即可

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EOS_TOKEN = tokenizer.eos_token# Must add EOS_TOKEN


def formatting_prompts_func(examples):
inputs = examples["Question"]
cots = examples["Complex_CoT"]
outputs = examples["Response"]
texts = []
for input, cot, output in zip(inputs, cots, outputs):
text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
texts.append(text)
return {
"text": texts,
}

方法3:直接使用指令数据集微调推理大模型

那么还有一种方式就是,我们是不是也可以直接通过比较"素"的指令数据集训练R1类似模型呢,答案是可以!

这里“素”指的是只有instruction/input/output,没有推理思维链类似字段

笔者实测过, 这样微调出来的效果是丢失了思考过程,但是效果发现是没问题,设置32B推理模型超过了72B对话模型。

关于DeepSeek-R1微调,LLaMA Factory有些讨论或者踩坑,我下面直接贴了链接,有兴趣大家可以看下:

  • LLaMA Factory:微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器

https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory_deepseek_r1_distill_7b

  • deepseek r1微调 #7027

https://github.com/hiyouga/LLaMA-Factory/issues/7027

实测

针对下游任务,如果我们不想要思考过程,可以直接采用第三种方法,这种微调简单粗暴,效果也比传统同参数对话模型好一些。如果想要思考过程,可以参考方法1和方法2来准备数据,然后采用微调的方式进行训练即可。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
什么是DeepSeek-R1蒸馏模型?
DeepSeek在DeepSeek-V3之后发布了另一个革命性的模型,即DeepSeek-R1,这看起来是一个重大的发布,因为这个模型在几个基准测试中已经超越了OpenAI-o1,即SOTA推理模型。
码农编程进阶笔记
2025/04/26
1540
什么是DeepSeek-R1蒸馏模型?
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
2900
DeepSeek-R1:强化学习驱动的LLM推理能力提升
DeepSeek-R1复现方案梳理
由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
致Great
2025/02/13
4100
DeepSeek-R1复现方案梳理
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能
近日,上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型:Fin-R1,以仅 7B 的轻量化参数规模展现出卓越性能,全面超越参评的同规模模型并以 75 的平均得分位居第二,与参数量为 671B 的行业标杆 DeepSeek-R1 平均分差距仅为 3.0%。
机器之心
2025/03/27
1340
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」
机器之心
2025/02/10
1610
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
Open-R1 是由 HuggingFace 发布的一个完全开放的项目,旨在通过三个主要步骤复现 DeepSeek-R1 的完整训练流程。这个项目的目标是让更多人能够理解和使用 DeepSeek-R1 的技术方案,从而推动大模型技术的发展和应用。
致Great
2025/01/27
4780
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
DeepSeek 弯道超车的秘诀!!!
整个假期不管是视频还是公众号,都被Deepseek R1刷屏了,作为国人看到自己国家的大模型如此披荆斩棘,所向披靡,实在令人扬眉吐气,中国的国运到了啊!
萌萌哒草头将军
2025/02/19
970
DeepSeek 弯道超车的秘诀!!!
DeepSeek 模型:究竟该如何抉择?
以上方式在云端产品上实现 DeepSeek 的私有化部署,除此之外,也可以部署安装在本地机器上,如个人PC电脑、内网电脑等环境。
参谋带个长
2025/02/21
6220
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
最近,以推理能力为核心的大语言模型已然成为了主流,比如OpenAI o系列模型、DeepSeek-R1等等。
新智元
2025/04/27
1420
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
当中国大模型撕开硅谷的防线之后,在预设中总是落后半拍的中国 AI 军团,这次竟完成了一次反向技术输出,引发了全球范围内复现 DeepSeek 的热潮。
机器之心
2025/02/15
2630
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B,并同时开源了高达114k的训练数据。
新智元
2025/02/15
1310
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。
新智元
2025/02/15
1130
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
你好,我是喵喵侠。众所周知,在AI人工智能领域,大模型推理能力的突破,一直是技术革新的核心挑战,而DeepSeek-R1 的横空出世,凭借其基于纯强化学习的多阶段训练框架,获得了与OpenAI o1系列模型的性能比肩的能力。自此以后,各大AI厂商都推出了自家的推理模型,这场由算法架构创新引发的推理革命,或将重新定义人类与智能体协同进化的未来图景。
喵喵侠
2025/03/12
2150
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
DeepSeek-R1深度思考
与通义千问、文心一言等大模型的网页版相比,DeepSeek的页面更简洁,除了简单的介绍+对话框,深度思考和联网搜索两个选项,以及文档上传。不过DeepSeek的文档上传只有取消联网搜索的情况下才可操作,并且仅识别文字。
程序员架构进阶
2025/03/03
1820
DeepSeek-R1深度思考
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。
机器之心
2025/03/13
1560
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
【Deepseek】DeepSeek-R1训练方式分析
本博客参考Deepseek开源论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
云帆沧海
2025/02/12
3470
【Deepseek】DeepSeek-R1训练方式分析
DeepSeek-R1的创新与局限
在《DeepSeek火爆出圈:使用方法及接入API全解析》中有用户说感觉自己刚学习的提示词技巧都没用,在我看来不是的DeepSeek-R1并不是适用于所有场景,最佳的使用方式应该是在合适的场景使用合适的模型,推理模型和通用模型都有自己的优缺点。
陈宇明
2025/02/26
1610
DeepSeek-R1的创新与局限
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
1970
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
DeepSeek-R1 高性能应用服务 HAI 开箱即用
一、环境说明 HAI已提供DeepSeek-R1 1.5B及7B模型预装环境(DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R
geru
2025/01/31
12.5K5
遇见DeepSeek之(1):初识
作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一
TVP官方团队
2025/02/05
1.9K0
遇见DeepSeek之(1):初识
推荐阅读
相关推荐
什么是DeepSeek-R1蒸馏模型?
更多 >
加入讨论
的问答专区 >
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档