部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >​解密prompt系列49. 回顾R1之前的思维链发展

​解密prompt系列49. 回顾R1之前的思维链发展

原创
作者头像
风雨中的小七
发布于 2025-02-18 23:33:49
发布于 2025-02-18 23:33:49
4762
举报

在所有人都在谈论R1的今天,作为算法也是有些千头万绪无从抓起。所以这一章先复盘,我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程。下一章再展望主要去看RL在Agent上的一些尝试,毕竟Agent规划和长思考的本质是非常像的,在优化中面临的问题也是类似的。

梳理大模型出来后的这两年时间,个人认为思维链的技术在R1出现之前,可以分成大致3个阶段(哈哈可能每个人都有自己的分类标准吧):

  • 大模型能思考,各式各样的思维链能不同程度提升模型在不同领域的效果
  • 外生慢思考:Inference Scaling正式提出,推理侧的范式逐渐收敛到MCTS
  • 内生慢思考:探索把推理侧的模型思考能力内化到模型内,包含以RFT为代表的各类训练方案,PRM为代表的打分方案,STaR为代表的各类样本优化方案

下面我们细说下每个阶段的一些代表方案

阶段1-模型能思考:思维链能提升任务效果

COT相关的各类论文可以直接看Github

开始讨论如何使用思维链来提升大模型效果的起点就是Let's think step by step的论文,它首次提出了Chain of Thought概念,也就是让模型先思考再回答可以有效提升任务完成效果。

之后差不多1年的时间里出现了很多探索如何优化COT方案的论文,主要集中在以下几个方向

  • 是否使用few-shot:zero-shot,few-shot
  • 自动选择few-shot样例:AutoCOT, Active Prompting等动态few-shot构建和选择方案,提升few-shot难度和多样性可以进一步提升思维链效果
  • 重点在思考形态调整:Tree of Thought,Graph of Thought,Tree-of-Mixed-Thought,Algorithm of Thought,
  • 重点在思考逻辑调整:Least-to-Most(分而治之),CogTree(假设检验),Step-Back(后退思考),HtT(演绎推理+归纳推理),Abstraction of Thought(抽象思维),Plan-and-Slove(系统思维)
  • 重点在思考角度的调整:DIVISE(多样性),Self-Consistency(一致性)

不难发现以上的论文还基本停留在,通过指令告诉模型你应该如何思考,或者通过few-shot像模型示范正确的思考方式,以及探索使用不同的逻辑思维方式来提升模型在各个领域的思考效果上。

同期结合Agent的概念,也出现了不少的论文是探索如何把COT和Action,工具调用进行融合,包括

  • 基础编排方式:ReACT,Self-Ask
  • 进阶编排方式:ART(多步调用),ReWOO(并发执行)
  • 领域COT领域:ToRA(数学推理),PAL(代码),好像还是啥化学生物领域整分子,化学结构啥的忘记叫什么了

第一阶段的大模型思维链还相对基础,主要停留在面向不同领域任务的Prompt设计,面向结果居多,并未深入探讨思维链的过程,什么时候使用思维链更好,以及为何思维链能提升推理的效果。

阶段2-外生慢思考: Inference Scaling理论提出

DeepMind: Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

SELF-REFINE: Iterative Refinement with Self-Feedback

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

PRM: Let's verify step by step

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

第二个阶段的代表论文是DeepMind提出的Inference Scaling概念,论文首次抽象并量化了思考的过程,以及可以带来的收益,核心观点是

  • 通过增加推理阶段的计算资源,可以显著提升LLM性能,且效率优于单纯扩大模型参数。例如,采用优化策略后,较小规模的模型在部分任务上可超越参数规模大14倍的模型,同时减少约4倍的计算资源消耗。这表明,测试时计算的合理分配能够以更低的成本实现高性能输出。
  • 适应性“计算最优”策略,论文提出根据问题难度动态调整测试时计算策略:
    • 简单到中等难度问题:LLM本身有能力生成合理的推理结果,那在推理阶段分配更多资源(深度or广度搜索),能显著弥补预训练截断的不足
    • 复杂问题:但是超越LLM本身能力的,即便在推理侧分配更多资源也没用,还是要更多预训练提升能力才可以
    • 通过预测问题难度并自适应分配计算资源,可以达到最优的资源分配

那结合DeepMind以及众多其他推理搜索的论文,我们可以总结归纳出来,推理阶段的思维链生成,包含两个核心能力也就是推理链路的生活能力和打分能力

  • 推理生成能力:推理链路的中间过程如何生成,以什么样的形态生成
    • 深度搜索:self-refine(RISE),self-reflection(GLoRE), 思考本身是串行的,整个流程就是思考->反思->优化->再思考
    • 广度搜索:Major-Vote,Best-of-N,Beam-Search
    • 深度+广度:MCTS,REBEASE等相比Beam-search的局部最优,复杂度更高的全局优化方案
  • 推理打分能力:如何选择更优的推理路径,从而指导以上的推理过程生成?
    • 基于结果的价值函数ORM
    • 基于过程的价值函数:PRM,PRM + Lookahead
    • 基于蒙特卡洛模拟:根据每个节点通向最终正确答案的概率来计算节点打分

在Inference Scaling的基础上再进一步,很自然就会想到既然我们能通过在推理阶段海量的探索和打分找到相对更优的推理链路,那我们是否就能把这更优的推理链路直接通过训练内化大模型的参数中,这样在推理侧不就不需要这么高的推理资源了么?

那如何如何把外生推理搜索过程内化到模型中,既保留思考效果,又保证全场景泛化能力;以及是否能突破MCTS的上限,获得更稳定,质量更高的思考链路就是下一个阶段大家核心探讨的问题了。

虽然后面R1的推出让大家开始怀疑推理搜索技术的合理性,但可能殊途也能同归。如果搜索推理走到极致也能媲美O1的思考能力,例如rstart-Math已经部分跑通,在数学任务上只靠外生推理搜索就能让下模型在部分任务媲美O1的推理能力。只不过当前搜索推理的一个问题更多在非STEM问题的泛化上

阶段3-内生慢思考:O1开启的Long Thought时代

STaR: Self-Taught Reasoner Bootstrapping ReasoningWith Reasoning

RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

12月OpenAI RFT:https://www.bilibili.com/video/BV1P2qBY2EwK/?vd_source=52e5d8e60f1d8edf228e8fded56b41631

12月字节 REFT:Reasoning with REinforced Fine-Tuning

下一个阶段,自然以跨时代的O1作为代表,也就是把更强思考能力内化到模型中的方案,可以分成以下两个部分

  • 如何进一步提升思考样本的质量:这一阶段的尝试多脱离人工标注,毕竟在思考任务上Scabality Oversight是最容易出现的,就是人类标注Golden Answer的上限很低,自优化,持续迭代优化是核心。
  • 如何把思考能力训练内化到模型中,如何提高训练的效率和泛化性

思考样本优化

首先是思考样本质量的提升方案,主要是以STaR为代表的模型自由化Bootstrap方案和OpenAI提出的Prover-Verifier对抗优化方案。 其中Bootstrap方案主要通过对模型生成的多个推理结果进行拒绝采样,筛选更优推理链路,再通过SFT训练进模型,再基于新的模型生成更优的推理链路再训练,这样反复迭代不断提升样本质量。R1的训练过程中,也用了类似的方案,就是RL训练得到R1-Zero后,会使用R1-Zero通过拒绝采样来构建大规模的思维链样本重新训练DeepSeek-V3。

而对抗优化的重心更多在Verfier,也就是随着大模型Generator能力的提升,对应Reward模型的能力也要随之提升,才能持续为模型提供有效的监督信号。所以会借助辩论,或者Proposal尝试迷惑Verifier等博弈对抗方案,来同时提升生成器和校验器的模型能力。

但最近常看R1的Reasong思考过程也让我产生了一个疑问:在训练过程中构造的COT,真的是过程越正确的思维链更好么?会不会基于PRM步骤打分得得到的更加正确的思维链,在一定程度上本身会抑制模型的反思能力,以及思维链的泛化性?毕竟中间过程都是正确的,类似于找到了整个思考链路中的Shortest Path,把反思,错误优化,尝试其他假设等基于错误思考节点的反思优化能力都抛弃掉了。而R1-Zero完全基于RL训练的思维链只基于目标优化,没有冷启动过程,反而不存在这个问题?

内化思考

其次是如何把长思考能力内化到模型参数中,方案还是主要集中在SFT上,但通过SFT训练的模型,在样本外的思考泛化能力较差,因此有很多方案都集中在如何提高SFT训练的泛化性。

前期主要方案在Data Augumentation(offline Training),通过更充分的利用推理时生成的思维链正负样本,让模型在学习时有更多的选择,降低对单一思考链路的拟合,包括

  • 充分利用正样本:生成更多正确推理路径同时进行SFT,例如RFT同时采样100个思考链路,所有正确的推理路径一起训练
  • 充分利用负样本:增加关键错误节点样本进行SFT,让模型通过对比识别正确和错误的关键差异例如 V-STaR,GLoRE,Incorrect Synthetic Data等等

中期大家开始更多考虑RL,不过RL目标的设计相对复杂,多采用了PRM的打分方案。 这类方案主要针对Math和Code这两个垂直领域,例如

  • MATH-SHEPHERD使用MCTS蒙特卡洛模拟作为PRM打分,进行RL优化
  • DeepSeekMATH先做SFT,再使用ORM+PRM共同对问题进行优化

后期方案同样是RL,但大道至简,RL的奖励函数重新回归简单,收敛到了基于结果(标准答案+规则打分)的优化方案。 分别有OpenAI在24年底推出的RFT(可申请测试),和同期字节推出的ReFT。前者更多针对system2到领域模型的思维链优化,后者主要针对system1到system2思考模型的优化。其中

  • OpenAI RFT:已有o1-mini模型,经过少量领域样本,和领域评分器,通过RL就能拥有该领域复杂问题的强大推理能力,适合法律,金融,医疗等专家能对样本给出标准答案和评分,并且任务复杂度超过通用模型能力的,这里的评分器主要为各种规则打分例如ranking
  • Bytedance REFT:两阶段训练先使用COT样本进行warm up训练,再在Policy模型基础上进行多轮采样,使用基于标准答案(0/1规则)的奖励函数进行PPO训练

如何就到R1了呢?

不难发现在RFT,REFT的阶段大家已经开始探索基于结果(标准答案) 的RL对于提升模型思维链泛化的效果,但是和R1的实现相比,个人认为有几个核心的差异点,主要来自SFT和RL的技术定位差异。

以SFT为主RL为辅,RFT和ReFT本质还是以SFT为主,也就是先把准备好的思维链样本喂给模型,而RL的作用更多是进行拒绝采样,也就是从模型推理的多个候选思维链中,奖励更好的,惩罚不好的。DeepSeek V3其实就是这种训练方案。但是这种方案可能会存在一些问题

  • 前期经过大规模的COT SFT可能会影响模型思考泛化能力,模型已经记忆了大量的思考范式,就很难再Think Out of Box了。即便有RL泛化也不会太好,同时前期标注COT的思考水平会一定程度上限制模型的上限。
  • 前期标注的大规模COT或许不是质量越高越好,过优的COT中因为中间节点的推理正确概率较高,可能限制了模型的反思,优化,基于错误前置推理提出新假设的种种反思能力,Shortest Path是终极目标但不应该是初始目标。
  • 前期标注COT样本和模型分布存在偏移,本质上非相同基座模型生成的推理样本多少都存在分布偏移,而分布差异会导致模型更倾向于模仿而非学习

而R1-Zero揭示了模型思考能力这个领域上,可以是RL为主SFT为辅的技术方案。前期只依赖RL,让模型在更广泛的空间中直接进行思维链编排的各种探索,即便使用SFT进行warm-up,个人认为这部分的量级和训练steps也都不会太大,本质只是为了加速RL训练的收敛。

以及RL可以单纯依赖数学,代码,这些思考密度更高的领域训练得到。 本质上全领域世界知识能力的获取,和思维能力的获取是存在差异的,前者依靠背,后者靠探索习得。这两种能力本质可能存在差异,只不过之前有一些思维惯性在,因此更多沿着前期SFT的范式去做,但实际可能并非如此。

想看更全的大模型论文·微调预训练数据·开源框架·AIGC应用 >> DecryPrompt

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
2 条评论
热度
最新
可以,大佬来互粉一个
可以,大佬来互粉一个
11点赞举报
走起~
走起~
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling,也可以在RL。也算是Post Train阶段新的Scaling方向,几个核心Take Away包括
风雨中的小七
2025/02/07
1.1K0
​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
​解密Prompt系列11. 小模型也能思维链推理
前两章我们分别介绍了思维链的多种使用方法以及思维链(COT)的影响因素。这一章更多面向应用,既现实场景中考虑成本和推理延时,大家还是希望能用6B的模型就不用100B的大模型。但是在思维链基础和进阶玩法中反复提到不论是few-shot还是zero-shot的思维链能力似乎都是100B左右的大模型才有的涌现能力,而在小模型上使用思维链甚至会带来准确率的下降。
风雨中的小七
2023/07/13
2.6K0
​解密Prompt系列11. 小模型也能思维链推理
图解DeepSeek R1训练流程
这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
致Great
2025/02/08
3330
图解DeepSeek R1训练流程
​解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
前几章我们讨论了RLHF的样本构建优化和训练策略优化,这一章我们讨论两种不同的RL训练方案,分别是基于过程训练,和使用弱Teacher来监督强Student
风雨中的小七
2024/07/18
5090
​解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
一文读懂|DeepSeek新模型大揭秘,为何它能震动全球AI圈
📷 【编者按】课代表系列-AI大事儿的最快、最全解读,本文关注DeepSeek-R1在技术上最重要的突破——用纯深度学习的方法让AI自发涌现出推理能力。这一
小腾资讯君
2025/01/23
1.4K0
解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法
这一篇真的是解密prompt!我们会讨论下思维链(chain-of-Thought)提示词究竟要如何写,如何写的更高级。COT其实是Self-ASK,ReACT等利用大模型进行工具调用方案的底层逻辑,因此在Agent调用章节之前我们会有两章来讲思维链
风雨中的小七
2023/06/14
7K6
解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法
解密Prompt系列10. 思维链COT原理探究
前一章思维链基础和进阶玩法我们介绍了如何写Chain-of-thought Prompt来激活生成逐步推理,并提高模型解决复杂问题的能力,这一章我们追本溯源,讨论下COT的哪些元素是提升模型表现的核心?
风雨中的小七
2023/06/29
2.6K0
解密Prompt系列10. 思维链COT原理探究
对DeepSeek事件的复盘和展望
作者简介:腾讯云TVP、北京交通大学计算机学院教授、计算机科学系主任、交通大数据与人工智能教育部重点实验室副主任。主要研究方向为多模态计算、网络数据挖掘、可信与对齐、AI Agent等。曾获中科院院长特别奖、ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题、北京市杰出青年基金和国家级青年人才计划,第一/二作者论文7次获得中国计算机学会推荐国际会议的主会论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。
TVP官方团队
2025/02/03
1.2K0
对DeepSeek事件的复盘和展望
图解 DeepSeek-R1
DeepSeek-R1 是人工智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说,这是一个颇为重要的版本,原因包括:
深度学习与Python
2025/02/18
2420
图解 DeepSeek-R1
DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清
(调试着R1的API接口,看着控制台瀑布般流淌的思维链日志)此刻我仿佛看到AlphaGo的棋谱在代码世界重生——这是属于推理模型的AlphaZero时刻。
LeonAlgo
2025/02/26
2980
DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方”  ——附多阶段训练流程图与核心误区澄清
观点 | 从Deepseek-R1 看 2025 模型的未来
年初以来,DeepSeek 的爆火引发了行业震动,各大模型厂商纷纷预告下一代大模型的研发计划,包括 OpenAI 的 GPT-4.5 和 GPT-5、Anthropic 的 Claude 4,以及国内众多 AI 公司也开始重新聚焦技术研发。本篇短文将探讨几个值得关注的赛道,看看今年是否会迎来技术落地。
深度学习与Python
2025/02/26
1230
观点 | 从Deepseek-R1 看 2025 模型的未来
张俊林:Deepseek R1是如何做的?
前言|Deepseek R1是如何做的?Kimi K1.5的思路是什么?它们之间是什么关系?它们和MCST树搜索又是什么关系?本文探讨这些问题。
TVP官方团队
2025/02/03
5220
张俊林:Deepseek R1是如何做的?
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
1K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
解密prompt系列47. O1 Long Thought的一些特征分析
但O1之后,思维链一个简单但之前都没进入视野的特征引起了大家的注意,那就是思考的长度对推理效果的影响,更准确来说是通过哪些思考步骤来有效延长思维长度对推理的影响。这一章我们着重讨论思考长度,慢思考的一些特点,下一章再讨论一些实现方案。哈哈注意这里的很多观点都是各方推测,请辩证看待~
风雨中的小七
2025/01/16
2810
解密prompt系列47. O1 Long Thought的一些特征分析
推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
最近,基于大型语言模型(RLLMs)的推理能力取得了显著进展,例如OpenAI的O1和DeepSeek的R1,它们在数学、编程等复杂领域展现了强大的能力。这些进展的关键因素之一就是长链思维(Long CoT)的应用,它能增强推理能力,帮助解决更复杂的问题。然而,尽管已有这些突破,关于长链思维的全面综述仍然匮乏,这也限制了对其与传统短链思维(Short CoT)区别的理解,并使得“过度思考”和“测试时扩展性”等问题的讨论变得复杂。这项综述旨在填补这一空白,提供一个统一的视角来理解长链思维。
致Great
2025/03/19
3410
推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
DeepSeek R1 最新全面综述,近两个月的深度思考!
https://github.com/datawhalechina/hugging-llm/tree/main/resources
Datawhale
2025/02/20
1K0
DeepSeek R1 最新全面综述,近两个月的深度思考!
解密prompt系列40. LLM推理scaling Law
OpenAI的O-1出现前,其实就有已经有大佬开始分析后面OpenAI的技术路线,其中一个方向就是从Pretrain-scaling,Post-Train-scaling向Inference Scaling的转变,这一章我们挑3篇inference-scaling相关的论文来聊聊,前两篇分别从聚合策略和搜索策略来优化广度推理,最后一篇全面的分析了各类广度深度推理策略的最优使用方案。
风雨中的小七
2024/10/10
5640
解密prompt系列40. LLM推理scaling Law
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
机器之心
2025/04/15
1140
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
DeepSeek R1:中国AI黑马的崛起与挑战
在人工智能领域,大型语言模型(LLMs)正以迅猛之势重塑我们的世界,其发展速度和影响力令人瞩目。近期,中国DeepSeek公司发布的DeepSeek R1模型,宛如一颗璀璨新星,凭借卓越的推理能力和开源精神,在全球科技界掀起波澜,吸引了无数关注的目光。本文将深入剖析DeepSeek R1的技术突破、实验成果,以及其对行业发展带来的深远影响。
码事漫谈
2025/01/27
6370
DeepSeek R1:中国AI黑马的崛起与挑战
10篇R1相关的研究全面汇总,万字思考!
本文通过10篇R1相关的研究,介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。
Datawhale
2025/03/21
1730
10篇R1相关的研究全面汇总,万字思考!
推荐阅读
相关推荐
​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档