白话科普 | 深度解析AI自学习与强化学习：大模型背后的“黑科技”，如何让AI更聪明？深入浅出DeepSeek等大模型特殊技能

AI研思录

发布于 2025-02-20 20:03:39

1690

引言：大模型的进化与强化学习的重要性

在人工智能（AI）发展的浪潮中，大语言模型（LLM）无疑是最耀眼的明星之一。从最初的简单规则系统到如今能够生成高质量文本、解决复杂问题的大规模神经网络，AI的能力已经达到了令人惊叹的高度。然而，随着技术的进步，我们也逐渐意识到传统方法的局限性——尤其是在数据驱动的预训练阶段。互联网上的文本数据正在被快速消耗殆尽，而单纯依赖更多数据堆叠的方式已无法持续推动性能提升。正是在这种背景下，强化学习是AI自学习的一种方法（Reinforcement Learning, RL），作为一种新兴的后训练方法，开始崭露头角，并迅速成为提升大模型性能的关键手段。

数据瓶颈：为何需要新的训练范式？

过去几年里，大语言模型的性能提升主要依赖于大规模预训练。通过海量文本数据的学习，这些模型掌握了语法、语义以及常识性知识，从而能够在多种任务上表现出色。然而，这种基于数据堆叠的方法正面临严峻挑战：

数据质量的问题 互联网上的文本数据并非全部高质量，大量噪声数据会降低模型的表现。例如，低质量的论坛帖子或错误信息可能误导模型，使其生成不准确的内容。
多样性的缺失 某些领域的数据分布极不均匀，导致模型在特定任务上表现不佳。比如，在医学或法律等专业领域，由于相关数据稀缺，模型往往难以生成权威且可信的回答。
泛化能力的局限 单纯依靠预训练，模型很难应对复杂的推理任务，如数学竞赛、代码生成或逻辑推导。这些问题不仅要求模型具备深度理解能力，还需要它能够灵活运用所学知识进行多步骤推理。

因此，业界逐渐认识到，仅仅依靠预训练无法满足未来的需求。于是，强化学习（RL）作为后训练阶段的一种补充方法，成为了新的研究热点。通过引入交互式学习机制，强化学习可以帮助模型突破现有数据限制，进一步挖掘潜在能力。

强化学习的核心理念：从试错中成长

所谓强化学习，是一种基于试错的学习方法，其核心思想是通过与环境的交互来优化策略。具体而言，强化学习包含以下几个关键要素：

状态（State）：当前环境的状态信息。对于大语言模型来说，这可以是用户的输入文本、上下文历史或其他相关信息。
动作（Action）：模型可以采取的行为。例如，生成一段回答、执行一段代码或完成一道数学题。
奖励（Reward）：模型行为的结果反馈。如果模型的答案正确，则获得正向奖励；如果答案错误，则受到惩罚。
策略（Policy）：决定在某个状态下应该采取什么动作的规则。强化学习的目标就是找到最优策略，使得长期累积奖励最大化。

通过这种方式，模型能够在没有外部监督的情况下，通过自身行为与环境的交互不断改进性能。这种方法不仅能够弥补数据不足带来的限制，还能让模型在复杂任务中表现得更加智能。

行业趋势：从预训练到“后训练为王”

正如DeepSeek的强化学习专家所指出的那样，“预训练的scaling已经做了几年，这里带来的收益会逐渐变少”。换句话说，虽然预训练仍然是构建强大基础模型的重要步骤，但其边际效益正在递减。相比之下，强化学习的潜力才刚刚开始显现。Whisper认为，“强化学习（RL）的scaling才刚刚开始，我们期望会有更陡峭的梯度在这里”。

事实上，许多领先的AI公司和研究机构已经开始将重点转向强化学习。例如，OpenAI的GPT系列模型和DeepMind的Alpha系列项目都广泛采用了强化学习技术。而在国产模型方面，DeepSeek R1的成功发布更是证明了这一点。这款模型通过强化学习显著提升了推理能力和实际应用效果，充分展示了这一方法的巨大潜力。

第一部分：后训练阶段的强化学习

1. 预训练已到极限，RL后训为王？

随着互联网上的文本数据逐渐枯竭，传统的预训练方法已接近瓶颈。为了进一步提升大模型的性能，我们需要一种全新的训练范式——即通过强化学习来进行后期训练（post-train）。这种方法不仅可以克服数据限制，还能帮助模型在复杂任务中实现更高水平的表现。接下来，我们将深入探讨强化学习的技术细节及其在大模型中的具体应用，揭示这一方法如何重塑AI的未来。

2. 什么类型的数据达到极限？是文本还是图片？

当讨论数据类型的极限时，首先需要明确的是，不同类型的数据对模型的影响各不相同。对于单纯的语言模型而言，文本数据的质量和规模至关重要。这类模型依赖于大量的文本数据来学习语言结构、语法规则以及常识性知识。然而，随着互联网上的高质量文本数据逐渐被挖掘殆尽，继续增加数据量所带来的边际效益正在减少。这意味着，仅靠增加文本数据的数量已不足以显著提升模型性能。

相比之下，多模态模型除了需要文本数据外，还需处理图像、音频或视频等多种类型的数据。这些数据类型目前仍有一定的增长空间，但同样面临着挑战。例如，图像数据的处理通常比文本数据更为复杂，需要更多的计算资源和更高级的算法支持。此外，不同类型的多模态数据之间可能存在较大的差异，这要求模型具备更强的跨模态理解和生成能力。

值得注意的是，虽然图片数据在某些任务中能够提供额外的信息，但它们对提升模型的核心推理能力作用有限。例如，DeepSeek R1 在图片理解上的表现相对较好，但在涉及数学和逻辑推理的任务中，模型的表现依然主要依赖于文本数据。图片的作用更多体现在 grounding 上，即帮助模型更好地理解空间关系或具体的场景。因此，对于提升模型的整体智力水平，文本数据仍然是不可或缺的基础。

3. 之前的后训练阶段使用的方法是什么？

在强化学习之前，后训练阶段通常采用的是监督微调（Supervised Fine-Tuning, SFT）和直接偏好优化（Direct Preference Optimization, DPO）等方法。SFT 的基本思路是利用标注好的数据集对模型进行微调，使其学会特定任务，如对话生成或指令遵循。这种方法的优点在于可以直接针对目标任务进行优化，提高模型在该任务上的表现。然而，过度依赖 SFT 可能会对模型的通用性造成损害，因为它可能会使模型过于专注于训练数据中的模式，而忽视其他未见过的情况。

DPO 是一种基于偏好优化的简化版本，用于替代传统 RLHF 中复杂的强化学习步骤。DPO 的核心思想是直接利用人类偏好数据进行优化，而不依赖复杂的强化学习算法。具体来说，DPO 通过比较两条回答的好坏，直接调整模型的输出策略，使其更符合人类的期望。这种方法的优点在于操作简单且效率较高，适合在有大量人类偏好数据时直接优化模型输出效果。然而，DPO 也有其局限性，尤其是在处理主观性强的任务时，因为人类的评价标准往往因人而异，难以形成统一的标准。

总的来说，SFT 和 DPO 在一定程度上提高了模型的性能，但它们都无法完全替代强化学习。强化学习的优势在于能够通过与环境的交互，动态调整模型的策略，从而在更广泛的场景中实现更好的表现。

4. 目前的RL和RLHF有什么区别？

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）与传统强化学习（RL）之间的本质区别主要在于奖励来源的不同。RLHF 的奖励来自一个“奖励模型”（reward model），这个模型通过配置好的数据进行训练。例如，在训练过程中，会准备两条回答数据：一条是人类认为好的回答，另一条是人类认为不好的回答。通过这些配对的数据，奖励模型学会了对回答进行评分。例如，问一个问题“今天的天气怎么样？”，如果模型回答了不相关的内容，比如“你好”，这是一个不好的回答。而如果模型回答了与天气相关的准确内容，那就是一个好的回答。奖励模型通过这种方式学会为不同回答打分。

基于这个奖励模型，对策略网络（policy net）进行训练。但这里需要注意，训练不能进行太多步，否则策略网络会过拟合（overfit）奖励模型。如果过拟合了，奖励模型就无法提供有效的反馈，这时需要重新训练一个新的奖励模型。

而现在我们在后训练阶段用到的 RL，更多是根据 ground truth 来的，例如判断模型是否正确完成了任务，比如代码是否写对了，或者问题是否回答准确。在这种情况下，奖励相当于一个“黄金标准”（golden reward），具有更高的可靠性。由于这种黄金标准很难被策略网络“破解”或欺骗，因此可以在这种奖励下进行更长时间的强化学习训练。

RLHF 是基于人类反馈的强化学习，本质上依赖于人类提供的意见来区分哪些回答是好的，哪些是差的。目前在后训练阶段用到的强化学习（RL）通常针对的是有明确答案的问题，这些答案并不是基于人类的主观意见，而是由客观标准决定的。因此，这两种方法所处理的问题类型是不同的。RLHF 更适合处理主观性较强的任务，比如文本对话，因为这些任务的评价标准往往因人而异。而传统 RL 则主要用于那些答案明确、目标清晰的场景，比如解数学题，或者写代码。所以其实如果总结上来看，在处理一些数学和编程相关的问题时，使用 RL 来进行 post-training 目前被认为是最优的。

5. 后训练阶段用到的RL是什么类型的RL？

强化学习中有许多分类，比如基于价值（value-based）和基于策略（policy-based）的方法。当前的主流方法大多采用的是基于策略的方法。这是因为，比较长时间以来，大家逐渐放弃了基于价值的方法。基于策略的 RL 比较容易 scale，主要是在大规模部署和训练的角度来说，它有一定的优势，所以进一步可以解决更难的问题。

目前，业界普遍使用的训练方法是基于策略的方法，比如以前常见的 PPO（Proximal Policy Optimization）。PPO 在早期阶段被认为非常有效，但现在来看，在 LLM 中 PPO 可能已经没有必要，或者说它的效果并不显著。当前的主流方法多是采用更简单的基于策略的训练算法，而不再依赖复杂的 ppo 框架。

从另一个维度 Model-free 还是 Model-based（这里的 model 指的是 transition model）目前在大语言模型用到的 RL 都是 Model-free，机器人里用到 Model-based 的会多一些。

从 on-policy 和 off-policy 的角度，在 on-policy 方法中，训练的数据是从当前策略网络（policy network）中采样出来的，每次模型参数更新后，需要重新采样数据进行训练。而在 off-policy 方法中，可以利用之前采样的数据来继续训练，即便模型参数已经更新。这意味着 on-policy 更强调实时性和一致性，而 off-policy 则可以更高效地利用历史数据。我们用的是带有一定 off-policyness 的算法。

RL 在后训练方面的方法其实在我们发布这篇论文之前，业界并没有共识，GPT-O1 也没有公布他们在 RL 方面的训练方法。但随着更多的论文公布，RL 在后训练方面的方法会受到越来越多人关注。

6. 文本类也可以用 RL 吗？

文本类回答问题是否也存在用 RL 来进行 post-training 的趋势？这主要取决于能否准确评估结果。例如，如果写两段作文，如何准确地评估哪一段更好？这其实是一个挺困难的问题，因为没有一个明确的、统一的标准能够完全客观地衡量优劣。很多时候，这种评估带有一定的主观因素。

因此，对于文本回答类的问题，通常还是需要通过 RLHF（Reinforcement Learning from Human Feedback）来优化。然而，也存在另一种思路，即假设可以通过一套非常复杂的机制（比如有一个套非常复杂的 pipeline）来获得更准确的评估，那么在这种情况下，也可以进行直接优化。

7. RL 对训练效率和 GPU 的需求上升了吗？

强化学习（RL）方法并没有显著降低训练成本，其成本依然很高。这是因为 RL 方法依赖暴力搜索，需要大量算力支持，生成与训练需要同时进行。在生成任务中，例如解决数学题时，模型需要生成答案并根据其正确与否进行评估，从而给予奖励（reward）。评估方法可能是将生成的答案与标准答案（ground truth）进行对比，或者在代码生成的情况下通过执行代码并运行测试用例来验证正确性。这种过程被称为 "rollout"，即生成答案并与标准答案进行对比，判断其准确性。

生成完答案后，还需要进一步训练，整个过程包括生成、验证、训练的迭代操作，最终优化模型的性能。

第二部分：DeepSeek R1 利用 LLMs 扩展强化学习

8. 什么是 DeepSeek 的 R 系列模型？

DeepSeek 的 R 系列模型是一组专为解决复杂推理任务而设计的大语言模型。这些模型在多个领域展现了卓越的能力，尤其是在数学竞赛和编程竞赛中表现出色。R 系列模型的研发方向逐渐增强模型在复杂问题和视觉推理方面的能力，同时利用多模态数据扩展其应用场景。

R0：这是 R 系列的第一个版本，主要聚焦于数学问题的应用。R0 通过大量的数学题目训练，具备了较强的数学推理能力，能够解决从基础算术到高等数学的各种问题。
R1：在 R0 的基础上，R1 进一步拓展了多模态能力，特别是加入了视觉处理功能。这使得 R1 不仅能够处理纯文本问题，还可以结合图像信息解决几何类数学题、行测题以及智商测试中的图片推理问题。

总体来看，R 系列模型的研发目标是打造一款全能型 AI 助手，能够在多个领域提供高质量的服务。无论是解决复杂的科学问题，还是优化日常生活中的服务体验，R 系列模型都展现出了巨大的潜力。

9. 什么叫 Inference Scaling Law？

Inference Scaling Law 指的是推理时间变长可以显著提升模型效果。具体来说，模型的输出过程本质上是一种计算过程。如果允许模型有更长的时间“思考”，它会通过反复尝试和自我修正来优化答案。例如，模型可能会先粗略地计算一遍答案，发现错误后进行反思和调整，最终得出更准确的结果。这种延长推理时间的方式相比直接给出答案，能够带来非常显著的效果提升。

在推理时间较长的场景下，用户可能会感到模型的响应变慢，但得到的答案质量会更高。然而，这种延长推理时间的效果需要根据具体场景来权衡。如果只是回答简单的问题，比如打个招呼，响应速度慢会影响用户体验。

最理想的方式是模型能够同时掌握长回复和短回复，并能自如地判断在不同场景中何时需要长时间推理、何时需要快速响应。然而，目前的技术还未达到这一理想状态，模型的表现往往受到训练数据的影响，训练数据较多的场景更容易优化，而其他场景可能尚不够完善。

一种解决方案是提供多个入口，让用户自行选择是偏向快速响应还是高质量推理结果。这既为用户提供了灵活性，也是一种权衡模型能力与实际需求的方式。

10. 怎么理解 Long-COT 和 Short-COT 以及 Long2Short？

关于 Short-CoT（Chain of Thought）和 Long-CoT 的区别，长 CoT 是指模型在推理过程中使用非常长的输出，比如解决一道题可能需要一万 token。然而，实际上模型可能并不需要这么长的推理过程，如果能将输出压缩到更短的长度，比如 2000 token，仍然可以得出正确答案。

所以我们的 Long2Short 提到一个关键问题是，是否可以将模型的输出压缩到最短的程度，同时仍然能够正确解决问题。这意味着在保证正确性的前提下，尽量减少推理过程中不必要的冗余，使模型更加高效，避免无意义的过长推理输出。

这种优化的目标是在推理准确性和效率之间找到平衡，既能保持模型的高性能，又能减少计算资源的浪费。

然而，强化学习（RL）训练中模型往往会倾向于生成更长的推理过程，会越训越长。这是因为 RL 只根据模型的答案是否正确给予奖励，而不考虑推理过程的长度。因此，模型在训练中逐渐形成了更长推理的模式，并且这种模式具有自我强化的趋势。

虽然更长的推理过程可能显得冗余，但在许多情况下，通过更深入的反思和多次尝试，模型的最终准确率确实得到了显著提升。

将模型推理比作学生做数学题，强调了逐步推理的过程：模型不是直接给出答案，而是一步一步推导，有时还会回到前面的步骤重新反思和检查，寻找更好的思路。这种反复推理的方式能够提升最终答案的准确性。

然而，如果推理过程变得过长，可能会导致不必要的复杂性。当前的优化方向是限制推理长度，避免它无限制增长。在许多情况下，随着推理长度增加，模型性能会逐渐提升，但当问题本身的难度饱和时，推理长度的增加就不再带来额外收益。目标是找到一种方式，使模型在适当的长度内达到最佳性能，而不是盲目延长推理过程。

11. 怎么做 Long2Short？

针对优化模型从长推理到短推理，有几种方法。

unsetunset第一种方法：模型合并（Model Merge）unsetunset

模型合并是一种直观且有效的方法，通过将一个擅长长推理的模型与一个擅长短推理的模型进行融合，生成一个能够在推理长度和效率之间取得平衡的新模型。具体来说，这种方法的核心思想是利用两个模型的优势互补：长推理模型能够提供更深入、细致的推导过程，而短推理模型则能够在较短时间内得出简洁的答案。

在实际操作中，模型合并可以通过多种方式实现。例如，可以采用权重平均的方式，将两个模型的参数按照一定的比例进行混合；也可以通过知识蒸馏（Knowledge Distillation）的方式，让短推理模型从长推理模型中学习其核心能力，同时保持自身的高效性。这种方式类似于“取长补短”，最终生成的模型既具备长推理模型的深度思考能力，又保留了短推理模型的快速响应特性。

然而，模型合并并非没有挑战。首先，如何选择合适的合并比例是一个关键问题。如果偏向长推理模型过多，可能会导致新模型仍然倾向于生成冗长的输出；而如果偏向短推理模型过多，则可能削弱其解决复杂问题的能力。其次，模型合并的效果还受到训练数据分布的影响。如果训练数据中长推理任务占主导地位，那么即使进行了模型合并，生成的模型仍可能倾向于生成较长的推理路径。

尽管如此，模型合并仍然是优化推理长度的一种重要手段，尤其适用于需要兼顾准确性和效率的场景。

unsetunset第二种方法：长度惩罚（Length Penalty）unsetunset

长度惩罚是一种更加直接且优雅的方式，通过在强化学习的奖励函数中引入对推理长度的约束，促使模型在生成答案时权衡推理长度和准确性。这种方法的核心思想是，为模型的每一步推理赋予一个“成本”，从而引导模型避免不必要的冗余输出。

具体来说，长度惩罚可以通过以下公式实现：

其中，是总奖励，是基于答案准确性的奖励，是推理长度，而是一个超参数，用于控制长度惩罚的强度。通过调整，可以灵活地控制模型在推理长度和准确性之间的权衡。例如，当较大时，模型会倾向于生成更短的推理路径；而当较小时，模型则可能更注重推理的完整性。

长度惩罚的优点在于其简单性和灵活性。相比于模型合并，这种方法不需要额外的模型或复杂的训练流程，只需在现有框架中加入一个惩罚项即可。此外，长度惩罚还可以与其他优化方法结合使用，进一步提升效果。

然而，长度惩罚也存在一定的局限性。例如，如果设置不当，可能会导致模型过于追求短推理路径，从而牺牲准确性。此外，长度惩罚的效果还依赖于奖励函数的设计。如果奖励函数本身不够精确，可能会导致模型无法正确权衡推理长度和准确性。

第三种方法：最短数据筛选

最短数据筛选是一种基于数据驱动的优化方法，通过从长推理模型生成的正确解答中挑选出推理路径最短的数据，作为新的训练数据提供给其他模型。这种方法的核心思想是，通过筛选出高质量且高效的推理路径，引导模型在保证准确性的前提下尽可能缩短推理长度。

具体操作步骤如下：

收集长推理模型的输出：首先，让长推理模型生成大量正确解答，并记录其推理路径。
筛选最短推理路径：从这些正确解答中，挑选出推理路径最短的数据。例如，对于一道数学题，如果长推理模型生成了多个正确答案，但其中一个答案的推理路径明显更短，则优先选择这个答案。
重新训练模型：将筛选出的短推理路径作为新的训练数据，重新训练其他模型。这样，模型就能够从中学到更高效的推理方式。

这种方法的优点在于其直观性和有效性。通过筛选出高质量的短推理路径，模型可以直接从中学习如何以更少的步骤解决问题。此外，这种方法还具有一定的通用性，可以应用于各种类型的任务。

然而，最短数据筛选也面临一些挑战。首先，筛选过程需要消耗大量的计算资源，尤其是在处理大规模数据时。其次，筛选出的短推理路径可能并不总是最优解。例如，某些问题可能需要更长的推理路径才能得出正确答案，而过于强调短推理路径可能会导致模型忽略这些特殊情况。

第四种方法：直接偏好优化（Direct Preference Optimization, DPO）

直接偏好优化（DPO）是一种基于强化学习的方法，通过直接优化模型对短推理路径的偏好来实现目标。与长度惩罚类似，DPO 的核心思想是通过奖励机制引导模型生成更短的推理路径，但其实施方式更加直接和高效。

具体来说，DPO 的实现步骤如下：

定义偏好数据集：首先，构建一个包含短推理路径和长推理路径的数据集，并标注每条路径的偏好程度。例如，对于同一道题目，如果短推理路径能够得出正确答案，则将其标记为“偏好”；而长推理路径则标记为“非偏好”。
训练偏好模型：基于上述数据集，训练一个偏好模型，用于评估不同推理路径的优劣。
优化策略模型：利用偏好模型的输出作为奖励信号，对策略模型进行优化，使其更倾向于生成短推理路径。

DPO 的优点在于其简单快捷，适合快速实现优化目标。相比于其他方法，DPO 不需要复杂的模型合并或数据筛选过程，只需通过强化学习直接优化模型的行为即可。

然而，DPO 也存在一定的局限性。例如，偏好数据集的质量直接影响优化效果。如果数据集中短推理路径的比例过低，可能会导致模型无法充分学习短推理的能力。此外，DPO 的效果还依赖于偏好模型的准确性。如果偏好模型的评估标准不够精确，可能会导致模型生成不符合预期的推理路径。

第三部分：强化学习的未来展望

尽管强化学习已经取得了一定的成果，但仍然面临许多挑战和未解决的问题。例如，如何在大规模应用场景中提高训练效率和样本利用率？如何设计更有效的奖励函数来引导模型学习？如何在复杂环境中保持策略更新的稳定性和可靠性？

未来的研究方向可能包括以下几个方面：

更高效的算法设计 随着模型规模的不断扩大，现有的强化学习算法在计算资源和内存消耗方面面临巨大压力。因此，开发更高效的算法，例如去掉价值函数的GRPO，将成为一个重要方向。

更灵活的奖励机制 当前的奖励机制大多依赖于人类反馈或简单的客观标准，但在复杂任务中，这种机制可能无法充分反映模型的表现。未来的研究可能会探索更灵活、动态的奖励机制，例如基于上下文感知的奖励函数。
跨领域的应用拓展 强化学习不仅适用于搜索引擎和推荐系统，还可以应用于机器人控制、自动驾驶、金融交易等多个领域。随着技术的进步，强化学习有望在更多复杂场景中发挥作用。
理论与实践的结合 强化学习的理论研究和实际应用之间仍然存在一定的差距。未来的研究需要更加注重理论与实践的结合，推动算法在真实场景中的落地。

如果你觉得这篇文章对你有帮助，请不要吝啬点赞和转发！让更多人了解强化学习的魅力吧！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-02，如有侵权请联系 cloudcommunity@tencent.com 删除

模型