部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【论文分享】推理大模型Post-Training技术的全面综述

【论文分享】推理大模型Post-Training技术的全面综述

作者头像
致Great
发布于 2025-03-07 02:14:27
发布于 2025-03-07 02:14:27
2170
举报
文章被收录于专栏:自然语言处理自然语言处理

论文题目:LLM Post-Training: A Deep Dive into Reasoning Large Language Models

论文链接:https://arxiv.org/abs/2502.21321

项目地址:https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

这篇论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》试图系统地探讨大型语言模型(LLMs)的后训练(post-training)方法,非常好好的一篇综述,系统性梳理了LLM-Post-Training相关技术,值得好好阅读!

大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。

下面是论文一些比较漂亮的总结

LLM Post-Training技术分类

大型语言模型(LLMs)后训练方法的分类,分为微调、强化学习和测试时扩展方法。论文总结了最近的LLM模型中使用的关键技术,如GPT-4 、LLaMA 3.3 和Deepseek R1 。

基于强化学习增强的大模型变体

下图为增强型强化学习大型语言模型(LLMs)概述,其中符号“141B-A39B”表示一种专家混合(MoE)架构,该模型总参数量为1410亿,其中在推理过程中实际使用的参数为390亿。

大模型推理方法概述

大型语言模型(LLMs)推理方法概述,展示了通过链式思维(CoT)提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术,包括GRPO、RLHF、DPO和RLAIF,用于通过奖励机制和基于偏好的学习来微调推理模型。

Test-time Scaling方法概述

测试时扩展(Test-time Scaling)方法概述:并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。

LLMs中的推理策略

这张图比较了LLMs中的推理策略,从直接提示(Direct Prompting)开始,它将输入直接映射到输出,未涉及推理过程,到更结构化的方法。链式思维(CoT)引入了逐步推理,而自一致性(CoT-SC)生成多个CoT路径并选择最常见的答案。多个CoT独立地探索多样化的推理路径。思维树(ToT)将推理结构化为树形,支持回溯和优化,而思维图(GoT)通过动态汇聚和连接思维来扩展这一方法。图例解释了关键机制,如评分、回溯和自我优化,这些机制对于优化推理效率至关重要。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档