Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【论文分享】推理大模型Post-Training技术的全面综述

【论文分享】推理大模型Post-Training技术的全面综述

作者头像
致Great
发布于 2025-03-07 02:14:27
发布于 2025-03-07 02:14:27
4030
举报
文章被收录于专栏:自然语言处理自然语言处理

论文题目:LLM Post-Training: A Deep Dive into Reasoning Large Language Models

论文链接:https://arxiv.org/abs/2502.21321

项目地址:https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

这篇论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》试图系统地探讨大型语言模型(LLMs)的后训练(post-training)方法,非常好好的一篇综述,系统性梳理了LLM-Post-Training相关技术,值得好好阅读!

大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。

下面是论文一些比较漂亮的总结

LLM Post-Training技术分类

大型语言模型(LLMs)后训练方法的分类,分为微调、强化学习和测试时扩展方法。论文总结了最近的LLM模型中使用的关键技术,如GPT-4 、LLaMA 3.3 和Deepseek R1 。

基于强化学习增强的大模型变体

下图为增强型强化学习大型语言模型(LLMs)概述,其中符号“141B-A39B”表示一种专家混合(MoE)架构,该模型总参数量为1410亿,其中在推理过程中实际使用的参数为390亿。

大模型推理方法概述

大型语言模型(LLMs)推理方法概述,展示了通过链式思维(CoT)提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术,包括GRPO、RLHF、DPO和RLAIF,用于通过奖励机制和基于偏好的学习来微调推理模型。

Test-time Scaling方法概述

测试时扩展(Test-time Scaling)方法概述:并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。

LLMs中的推理策略

这张图比较了LLMs中的推理策略,从直接提示(Direct Prompting)开始,它将输入直接映射到输出,未涉及推理过程,到更结构化的方法。链式思维(CoT)引入了逐步推理,而自一致性(CoT-SC)生成多个CoT路径并选择最常见的答案。多个CoT独立地探索多样化的推理路径。思维树(ToT)将推理结构化为树形,支持回溯和优化,而思维图(GoT)通过动态汇聚和连接思维来扩展这一方法。图例解释了关键机制,如评分、回溯和自我优化,这些机制对于优化推理效率至关重要。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
4880
推理大模型的后训练增强技术-强化学习篇
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1550
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
推理大模型的后训练增强技术--LLM 推理模型的现状
提升大型语言模型(LLM)的推理能力无疑是 2025 年最火热的话题之一,而且理由很充分。更强的推理能力意味着 LLM 可以处理更复杂的问题,让它在各种任务上表现得更出色,更贴近用户的实际需求。
致Great
2025/03/13
3940
推理大模型的后训练增强技术--LLM 推理模型的现状
迈向System 2推理,100页论文硬核讲述Meta-CoT
「我们有一份关于『推理时间计算』的新研究,以及我们过去几个月一直在研究的内容!我们提出了一些理论,说明为什么它是必要的,它是如何工作的,我们为什么需要它,以及它对超级智能意味着什么。」
机器之心
2025/02/03
1390
迈向System 2推理,100页论文硬核讲述Meta-CoT
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。
机器之心
2025/05/04
1940
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
机器之心
2025/04/15
1360
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
每周AI论文速递(250526-250530)
本文介绍 Mutarjim,一个专为阿拉伯语-英语双向翻译设计的紧凑型高性能语言模型。尽管当前大规模大语言模型在机器翻译等自然语言处理任务中展现出显著优势,我们发现小型模型同样具备竞争力。基于这一发现,我们在专为阿拉伯语和英语优化的 Kuwain-1.5B 语言模型基础上开发了 Mutarjim。该模型通过采用优化的两阶段训练流程和精选的高质量训练语料,在保持较小规模的同时,其性能表现超越了多个主流基准测试中的大型模型。实验数据表明,Mutarjim 的性能可与体积大 20 倍的模型相媲美,同时大幅降低了计算资源和训练成本。此外,我们提出了 Tarjama-25 新基准测试集,该数据集包含 5,000 组经过专家校验的平行句对,覆盖广泛领域,有效解决了现有阿拉伯语-英语评测数据存在的领域局限、语句过短和英语源偏置等问题,为相关研究提供了更全面均衡的评估体系。值得注意的是,Mutarjim 在 Tarjama-25 的英阿翻译任务中取得了当前最优性能,甚至超越了 GPT-4o mini 等规模显著更大的专有模型。我们将公开 Tarjama-25 数据集,以促进阿拉伯语-英语翻译系统的后续研究和评估工作。
叶子的技术碎碎念
2025/06/08
1190
每周AI论文速递(250526-250530)
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.6K0
深入了解Deepseek模型的最佳三篇论文
每周AI论文速递(2506209-250613)
本研究提出强化预训练 (RPT) 作为大语言模型和强化学习 (RL) 的新型扩展方法。具体而言,我们将下一 token 预测重构为基于 RL 的推理任务,模型通过正确预测给定上下文的下一 token 来获得可验证奖励。RPT 提供了一种可扩展方案,能够利用海量文本数据实现通用强化学习,而无需依赖特定领域的标注数据。通过提升下一 token 推理能力,RPT 显著提高了语言模型在 token 预测任务上的准确性。此外,RPT 为后续强化微调提供了优质的预训练基础。缩放曲线显示,增加训练计算量能持续提升下一 token 预测准确率。实验结果证明,RPT 是推进语言模型预训练的一种高效且具有前景的扩展方案。
叶子的技术碎碎念
2025/06/16
1360
每周AI论文速递(2506209-250613)
DeepSeek R1&V3 原版论文摘要
论文还开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的多个蒸馏模型,为研究社区提供了宝贵的资源。
用户11468258
2025/02/05
5680
DeepSeek R1&V3 原版论文摘要
大语言模型推理优化论文-Reasoning on a Budget
这篇论文主要讨论了如何提高大型语言模型(LLMs)在推理时的计算效率。目前的LLMs在推理时往往采用固定的计算预算,导致对于简单问题过度思考,而对于复杂问题则不足思考。为了改善这种情况,作者提出了适应性和可控性两种策略,并对这两种策略进行了详细的介绍和比较。通过在多个数据集上进行测试,作者还探讨了这些策略之间的关键权衡,并指出了未来需要解决的关键挑战。总体来说,本文为提高LLMs的计算效率提供了有价值的参考。
aaronwjzhao
2025/07/18
980
推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
最近,基于大型语言模型(RLLMs)的推理能力取得了显著进展,例如OpenAI的O1和DeepSeek的R1,它们在数学、编程等复杂领域展现了强大的能力。这些进展的关键因素之一就是长链思维(Long CoT)的应用,它能增强推理能力,帮助解决更复杂的问题。然而,尽管已有这些突破,关于长链思维的全面综述仍然匮乏,这也限制了对其与传统短链思维(Short CoT)区别的理解,并使得“过度思考”和“测试时扩展性”等问题的讨论变得复杂。这项综述旨在填补这一空白,提供一个统一的视角来理解长链思维。
致Great
2025/03/19
3920
推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
250多篇论文,上海AI Lab综述推理大模型高效思考
但随之而来的是一个日益严重的问题:它们太能「说」了!生成的推理过程往往充斥着冗余信息(比如反复定义)、对简单问题过度分析,以及对难题的探索浅尝辄止。
机器之心
2025/04/05
1730
250多篇论文,上海AI Lab综述推理大模型高效思考
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
1310
每周AI论文速递(250210-250214)
9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。
deephub
2023/10/23
6000
9月大型语言模型研究论文总结
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
推理语言模型(Reasoning Language Models,RLM)是AI领域的革命性突破,它们的出现可以与ChatGPT的出现相提并论。
新智元
2025/02/04
4880
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2750
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1320
每周AI论文速递(250120-250124)
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
DeepSeek-R1的秘籍在于强化学习微调算法:群体相对策略优化(Group Relative Policy Optimization,GRPO)。
新智元
2025/05/25
1930
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型
机器之心 & ArXiv Weekly  参与:楚航、罗若天、梅洪源 本周论文包括 Meta 发布「分割一切」AI 模型;国内 20 余位研究者联合撰写大型语言模型综述等。 目录 Segment Anything Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning A Survey of Large Language Models HuggingGPT: Solving AI Tasks
机器之心
2023/04/11
4400
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型
推荐阅读
相关推荐
推理大模型的后训练增强技术-强化学习篇
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档