Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何微调推理大模型?以Qwen3/DeepSeek-R1为例

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

作者头像
致Great
发布于 2025-05-14 00:27:25
发布于 2025-05-14 00:27:25
1.1K01
代码可运行
举报
文章被收录于专栏:自然语言处理自然语言处理
运行总次数:1
代码可运行

前言

首先先简单介绍下两个系列的模型:

DeepSeek-R1是由深度求索公司推出的首款推理模型,该模型在数学、代码和推理任务上的表现优异。深度求索不仅开源了DeepSeek-R1模型,还发布了从DeepSeek-R1基于Llama和Qwen蒸馏而来的六个密集模型,在各项基准测试中均表现出色。本文以蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,为您介绍如何微调该系列模型。

Qwen3是阿里云通义千问团队于2025年4月29日发布的最新大型语言模型系列,包含2个MoE模型和6个Dense模型。其基于广泛的训练,在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。PAI-Model Gallery已接入全部8个尺寸模型,以及其对应的Base模型、FP8模型,总计22个模型。本文为您介绍如何在Model Gallery部署评测该系列模型。

刚好最近在做一个推理训练任务,现在有现成的训练集,推理模型这么强的情况下,怎么把之前传统对话大模型+指令微调训练模式 转变成推理大模型+指令微调任务

后训练广义可能范围比较大,包括微调、强化学习等。 可能我们构造强化学习数据集或者思维链数据集的成本比较高的,所以今天咱们就聊一聊怎么偷懒地将把之前的指令数据集或者指令微调的工作推演到推理大模型训练上呢?有没有比较省事或者比较规范的做法呢?

方法1:通过推理大模型将指令数据集蒸馏为推理数据

通过能力比较强的推理大模型底座将之前指令数据集蒸馏为思维链数据集,然后进行筛选过滤。

具体做法我们可以参考刘聪大佬开源的Chinese-DeepSeek-R1-Distill-data-110k,大致流程是调用企业版满血R1 API,然后数据生成结果进行了二次校验,并保留了评价分数:

  • 针对Math和Exam数据,先利用Math-Verify进行校对,无法规则抽取结果的数据,再利用Qwen2.5-72B-Instruct模型进行打分,正确为10分,错误为0分。
  • 针对其他数据,直接利用Qwen2.5-72B-Instruct模型从无害性、有用性、正确性/完整性三个角度进行打分,分值范围为0-10分。

方法2:使用COT数据集构造推理大模型训练数据

下面以一个推理数据集为例,

medical-o1-reasoning-SFT医学推理数据集,该数据集基于医学可验证问题和 LLM 验证器构建,这个数据集构造过程和方法1提到的差不多。方法1强调如何通过推理大模型蒸馏指令数据集,方法2强调如何通过已有COT构造推理数据集

以下面模板为例:

代码语言:javascript
代码运行次数:1
运行
AI代码解释
复制
train_prompt_style = """Below is an instruction that describes a task, paired with an input that provides further context. 
Write a response that appropriately completes the request. 
Before answering, think carefully about the question and create a step-by-step chain of thoughts to ensure a logical and accurate response.

### Instruction:
You are a medical expert with advanced knowledge in clinical reasoning, diagnostics, and treatment planning. 
Please answer the following medical question. 

### Question:
{}

### Response:
<think>
{}
</think>
{}"""

有了模板下面我们直接通过占位符填充COT字段即可

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EOS_TOKEN = tokenizer.eos_token# Must add EOS_TOKEN


def formatting_prompts_func(examples):
inputs = examples["Question"]
cots = examples["Complex_CoT"]
outputs = examples["Response"]
texts = []
for input, cot, output in zip(inputs, cots, outputs):
text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
texts.append(text)
return {
"text": texts,
}

方法3:直接使用指令数据集微调推理大模型

那么还有一种方式就是,我们是不是也可以直接通过比较"素"的指令数据集训练R1类似模型呢,答案是可以!

这里“素”指的是只有instruction/input/output,没有推理思维链类似字段

笔者实测过, 这样微调出来的效果是丢失了思考过程,但是效果发现是没问题,设置32B推理模型超过了72B对话模型。

关于DeepSeek-R1微调,LLaMA Factory有些讨论或者踩坑,我下面直接贴了链接,有兴趣大家可以看下:

  • LLaMA Factory:微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器

https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory_deepseek_r1_distill_7b

  • deepseek r1微调 #7027

https://github.com/hiyouga/LLaMA-Factory/issues/7027

实测

针对下游任务,如果我们不想要思考过程,可以直接采用第三种方法,这种微调简单粗暴,效果也比传统同参数对话模型好一些。如果想要思考过程,可以参考方法1和方法2来准备数据,然后采用微调的方式进行训练即可。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型
这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点,通过实验证明长期强化学习训练(ProRL)能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。
deephub
2025/08/20
1190
ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型
图解DeepSeek R1训练流程
这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
致Great
2025/02/08
4300
图解DeepSeek R1训练流程
【Deepseek】DeepSeek-R1训练方式分析
本博客参考Deepseek开源论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
云帆沧海
2025/02/12
5610
【Deepseek】DeepSeek-R1训练方式分析
DeepSeek-R1 高性能应用服务 HAI 开箱即用
一、环境说明 HAI已提供DeepSeek-R1 1.5B及7B模型预装环境(DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R
geru
2025/01/31
12.6K5
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.8K0
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1复现方案梳理
由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
致Great
2025/02/13
5260
DeepSeek-R1复现方案梳理
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。
新智元
2025/02/15
1830
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
4430
DeepSeek-R1:强化学习驱动的LLM推理能力提升
图解 DeepSeek-R1
DeepSeek-R1 是人工智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说,这是一个颇为重要的版本,原因包括:
深度学习与Python
2025/02/18
3020
图解 DeepSeek-R1
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能
近日,上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型:Fin-R1,以仅 7B 的轻量化参数规模展现出卓越性能,全面超越参评的同规模模型并以 75 的平均得分位居第二,与参数量为 671B 的行业标杆 DeepSeek-R1 平均分差距仅为 3.0%。
机器之心
2025/03/27
2240
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
Open-R1 是由 HuggingFace 发布的一个完全开放的项目,旨在通过三个主要步骤复现 DeepSeek-R1 的完整训练流程。这个项目的目标是让更多人能够理解和使用 DeepSeek-R1 的技术方案,从而推动大模型技术的发展和应用。
致Great
2025/01/27
6660
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
图解DeepSeek-R1大模型—推理型大语言模型(LLM)的训练秘密
DeepSeek-R1 是人工智能(AI)进步历程中最新的一次令人瞩目的重大进展。对于机器学习(ML)研发社区来说,它是一个重要的发布版本,原因包括:
AIGC部落
2025/02/07
1.1K0
图解DeepSeek-R1大模型—推理型大语言模型(LLM)的训练秘密
什么是DeepSeek-R1蒸馏模型?
DeepSeek在DeepSeek-V3之后发布了另一个革命性的模型,即DeepSeek-R1,这看起来是一个重大的发布,因为这个模型在几个基准测试中已经超越了OpenAI-o1,即SOTA推理模型。
码农编程进阶笔记
2025/04/26
4350
什么是DeepSeek-R1蒸馏模型?
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
你好,我是喵喵侠。众所周知,在AI人工智能领域,大模型推理能力的突破,一直是技术革新的核心挑战,而DeepSeek-R1 的横空出世,凭借其基于纯强化学习的多阶段训练框架,获得了与OpenAI o1系列模型的性能比肩的能力。自此以后,各大AI厂商都推出了自家的推理模型,这场由算法架构创新引发的推理革命,或将重新定义人类与智能体协同进化的未来图景。
喵喵侠
2025/03/12
4200
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
DeepSeek-R1真算得上开源吗?
如果你曾经为一道棘手的数学题绞尽脑汁,就会明白多花时间仔细思考是多么重要。OpenAI 的 o1 模型证明,当 LLM 在推理时通过增加计算量进行类似训练后,它们在数学、编程和逻辑等推理任务上的表现会显著提升。
JavaEdge
2025/06/01
1830
DeepSeek-R1真算得上开源吗?
零基础入门:DeepSeek微调的评测教程来了!
三天前,看到了我们 Datawhale 公众号上发了文章《零基础入门:DeepSeek 微调教程来了!》反响很好,其中的内容写的非常接地气,适合学习者进行学习体验。
Datawhale
2025/02/28
5280
零基础入门:DeepSeek微调的评测教程来了!
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念
山河已无恙
2025/02/25
1.6K0
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
最近,以推理能力为核心的大语言模型已然成为了主流,比如OpenAI o系列模型、DeepSeek-R1等等。
新智元
2025/04/27
2960
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
DeepSeek 模型:究竟该如何抉择?
以上方式在云端产品上实现 DeepSeek 的私有化部署,除此之外,也可以部署安装在本地机器上,如个人PC电脑、内网电脑等环境。
参谋带个长
2025/02/21
9090
深度解析:推理大模型如何改变AI格局?四种构建方法与低成本实践指南
导语:当ChatGPT回答"火车以每小时60英里的速度行驶3小时,走了多远"时,它会直接告诉你"180英里",而推理模型会先解释"距离=速度×时间"的公式,再一步步计算。这种"思考过程"正是推理大模型的核心价值。2024年,AI领域正经历从"通用大模型"向"专业化推理模型"的关键转变,今天我们就来深度解析这一趋势背后的秘密。
AI浩
2025/08/12
1480
深度解析:推理大模型如何改变AI格局?四种构建方法与低成本实践指南
推荐阅读
相关推荐
ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验