01 大模型训练的三段式进阶之路
基础构建:预训练阶段
预训练(Pre-training):利用数十亿到数万亿个token的庞大文本语料库对模型继续预训练,使模型能够根据提供的文本来预测「下一个单词」

大模型之旅始于预训练,模型在海量无标注文本上学习语言的基本规律:
这一阶段让模型掌握了语言的“语法”和“知识”,但还不会遵循人类的指令。
有监督微调(Supervised Tinetuning):虽然 SFT 训练目标和预训练(Pre-training)类似,也是需要模型预测「下一个单词」,但是需要人工标注的指令数据集,其中模型的输入是一个指令(根据任务的不同,也可能包含一段输入文本),输出为模型的预期回复内容。

在预训练基础上,使用人工标注的指令-回复数据进行监督微调:
{
"instruction": "写一首关于鹦鹉的打油诗",
"input": "",
"output": "从前有一只鹦鹉很好,羽毛色彩如彩虹..."
}关键对比:预训练 vs 监督微调
维度 | 预训练 | 监督微调 |
|---|---|---|
训练目标 | 下一个token预测 | 下一个token预测 |
数据量 | 极大(TB级) | 较小(1K-50K样本) |
数据格式 | 无标注文本 | 人工标注的指令-回复对 |
主要目的 | 学习语言规律 | 学习遵循指令 |
价值观对齐(Alignment)
通过微调的方式,将语言模型与人类的偏好、价值观进行对齐,其目标是让模型不仅会回答问题,还要回答得有用、诚实、无害,这也是RLHF机制发挥的地方。

简单介绍一下 RLHF 流程
1.如何在在预训练好的模型上进行有监督微调;
先收集一个Prompts集合,并要求标注人员写出高质量的回复,然后使用该数据集以监督的方式微调预训练的基础模型。

2.如何在有监督微调模型基础上创建一个RM模型?
对于每个Prompt,要求有监督微调后的LLM生成四到九个回复,再由标注人员根据个人偏好对所有回复进行排序。虽然排序过程很耗时,但工作量还是比第一步的有监督数据集构建要少一些。

在处理排序数据时,使用了一个奖励模型RM,RM来自RLHF第一步的「有监督微调语言模型」(SFT),SFT的输出通过一个回归层(单个输出节点)转换为奖励分数,即可称为RM模型。
3.如何基于RM模型使用PPO算法微调SFT模型?
基于RM模型使用proximal policy optimization (PPO)算法微调SFT模型

instructGPT是一种基于强化学习的文本生成模型,其核心原理涉及两个概念:RLHF(Reinforcement Learning from Human Feedback)和reward shaping(奖励塑造)。
•RLHF:在训练instructGPT时,首先使用有人类生成的示例对模型进行预训练。然后,通过与人类评估者进行交互,收集评估结果,以创建一个用于强化学习的数据集。该数据集包含了人类评估者对生成结果的评分或反馈,用于指导模型的强化学习训练。
•Reward shaping:为了更好地引导模型的训练,reward shaping用于调整模型的奖励信号。通过将人类评估者的反馈与模型生成的文本进行比较,可以计算出一个差异度量,用作奖励信号的一部分。这样,模型可以根据这个奖励信号进行训练,并进行强化学习的训练。模型根据当前的状态(对话历史)生成文本,并通过奖励信号来评估生成文本的质量。模型的目标是最大化预期累积奖励,从而生成更高质量的文本。
通过RLHF和reward shaping的结合,instructGPT能够通过人类评估者的反馈指导模型的生成过程,并逐步提升生成文本的质量和一致性。
解决方案:AI反馈替代人类反馈
解决方案:流程优化与数据效率提升
1.DPO(直接偏好优化):直接使用偏好数据优化模型,跳过奖励模型训练
方法 | 训练阶段 | 计算复杂度 | 效果 |
|---|---|---|---|
传统RLHF | SFT → RM → PPO | 高 | 优 |
DPO | SFT → 直接优化 | 中 | 相当或更优 |
2.后见之明重新标记:将失败案例转化为训练数据,提高数据利用效率
挑战三:PPO资源消耗巨大
解决方案:训练架构创新
1.ReST(强化自训练):
2.RRHF:通过排名损失对齐,无需强化学习阶段
关键发现:随着训练进行,奖励模型分数持续上升,但真实性能先升后降。
实践启示:
解决方案:多奖励模型与组合优化
04 技术演进趋势与未来展望
方法 | 核心思想 | 优点 | 适用场景 |
|---|---|---|---|
传统RLHF | 人类反馈 → 奖励模型 → PPO | 效果稳定 | 资源充足的项目 |
DPO | 直接优化偏好目标 | 训练简单高效 | 快速迭代场景 |
RLAIF | AI生成反馈替代人类 | 可扩展性强 | 大规模部署 |
Constitutional AI | 基于规则的自训练 | 可控性强 | 高安全要求场景 |
大模型对齐技术的发展,本质上是让机器更好地理解和服务人类的过程。从RLHF到其各种变体,技术不断演进的核心目标始终如一:在模型能力与人类价值观之间找到最佳平衡点;无论是通过人类反馈还是AI反馈,无论是多阶段训练还是直接优化,最终目的都是创建既强大又可靠、既智能又安全的人工智能系统。
随着技术的成熟,我们有理由相信,未来的大模型将更加自然地融入人类社会,真正成为人类的智能伙伴而非简单的工具。