DeepSeek是一家中国人工智能公司,刚刚推出了一种模型,其推理能力与OpenAI-o1相当,尽管参数数量仅为其一小部分,并且训练成本低得多。
之前,我写过一篇文章,展示了GPT-4o在有效推理方面失败的情况。其中一个例子是“死的薛定谔猫”问题。
我的一位读者在DeepSeek-R1上尝试了相同的提示,他告诉我DeepSeek的输出,实际上相当令人印象深刻!
当我询问GPT-4o时,以下是它的回答。显然,它未能意识到猫是死的,而它活着的概率为0\。
当我在DeepSeek上尝试同样的问题时,我注意到该LLM像聪明的人一样思考,试图考虑所有可能性,并在最终确定答案之前避免愚蠢的错误。最终,它不仅给出了正确的答案,还解释得非常好。
如果您想要更多关于GPT-4o推理失败的例子,请查看这个博客:
就在那时,我决定需要进一步调查。DeepSeek推理能力提升的秘密是什么?
基础模型
所有训练方法,包括 DeepSeek 的,都是从预训练阶段开始,得到“基础模型”。
基础模型是指在预训练后但在任何形式的监督微调之前立即产生的 LLM。
预训练(在 LLM 中)涉及将 LLM 暴露于大量互联网文本语料库,从而提高 LLM 预测下一个单词的能力。产生的基础模型不一定会给出有帮助的答案,但它们会在语言结构上相当流畅,并知道在给定文本序列的情况下可以预测哪些单词。
最终产生的基础模型具有以下特征:
•它理解语言的结构。它可以根据输入的问题预测出语法流畅的一组下一个标记。
•它可能无法提供有帮助的响应,例如在回答一个流畅的句子时却提供了不准确或不相关的答案。
•它可能产生有害的输出,包括令人反感的答案或无法拒绝有害请求的能力(例如,“如何入侵某人的电子邮件”)。
大多数基础模型可以在 HuggingFace 上获取,您可以尝试它们。这些模型通常不适合生产使用,因为它们缺少后续步骤,这些步骤有助于使它们更适合生产环境。
DeepSeek的做法
DeepSeek-R1与其他方法的主要区别在于他们在训练过程中引入的特殊**“自主”RL步骤**。请注意,这与LLMs中已经存在的RLHF步骤非常不同。
什么是RL?我将在这里简要解释这个概念。
RL 简介
假设一只老鼠需要学习寻找食物。
最初,老鼠**“探索”**了很多,尝试随机动作并观察哪些有效。
随着时间的推移,特定的动作序列使老鼠获得奖励(例如食物),老鼠学会优先选择这些动作。在这个阶段,老鼠**“利用”**它已经知道的知识来最大化其奖励。
在 RL 问题中有三个变量——状态、动作和奖励。
给定一个特定状态,老鼠应该“学习一个策略”,使其能够确定应该采取的动作以获得最大奖励。
那么 DeepSeek 在 RL 中究竟做了什么呢?
DeepSeek-R1-Zero的RL策略
我们将从DeepSeek-R1-Zero开始,这是DeepSeek-R1的简化版本。
早些时候,DeepSeek发布了一篇名为DeepSeekMath的论文,在其中首次介绍了这一RL策略。
这是他们第二次使用它。
该RL策略的目标是让LLM在生成输出时能够更好地推理。动作对应于LLM生成的下一个token,而状态对应于到目前为止生成的tokens,奖励由一个特殊的奖励函数确定,该函数奖励“良好的输出”。
你一定听说过RLHF,这是典型的LLM训练阶段之一。
我想在这篇博客中提到的主要区别是奖励的定义方式。
奖励函数不再基于“人类反馈”。
奖励是根据以下内容自动确定的:
•答案的正确性。模型会被提供一些数学问题,通常会将得到的最终答案框住,模型会因“正确的最终答案”而获得奖励。因此,通过强化学习,模型试图优化其过程以提供更多正确答案。
•代码输出的正确性。训练数据集还包含编码问题,LLM的代码输出可以简单地传递给编译器,并在一组预定的测试用例上进行评估,类似于LeetCode等竞争编程网站。
•对思维过程的奖励。有人说这是DeepSeek为何如此有效的秘密。它特别奖励LLM在<思维>标签中包含思维标记。这迫使LLM进行思考,鼓励LLM在回答之前找出答案。
这个过程帮助很大,因为它确保我们可以使用强化学习来训练LLM,使用大量示例和高质量数据。人类反馈数据可能会有噪声,但像这里使用的客观奖励意味着更干净的数据,使得LLM能够学习如何优化以获得正确答案。
结果?
这里的图表表示了LLM在美国邀请数学考试(AIME)基准测试上的准确性。
•蓝色图表显示了通过单个模型的预测获得的准确性。
•红色图表表示16个模型的共识预测。这意味着我们的16个DeepSeek模型被问及每个问题,最终答案是通过“多数投票”得出的,同时计算准确性。
RL过程显然随着时间的推移提高了LLM的推理能力,显示了这种技术的强大。实际上,该模型在多个推理基准测试中的表现与OpenAI-o1相似!
DeepSeek-R1
DeepSeek-R1-Zero 的问题在于,尽管它在推理方面表现出色,但它没有生成可读的输出。
为了解决这个问题,他们实施了一些额外的步骤,例如监督微调和一个优先考虑推理和其他任务的 RL 步骤。
例如,由于我们通常希望 LLM 是无害的,我们可能会训练它拒绝回答任何有害的问题,例如 “如何入侵某人的电子邮件”。
但 DeepSeek-R1 的一个核心区别是冷启动。
Cold-start
可以这样理解:
1. DeepSeek-R1-Zero 通过试错的方式艰难地找到了推理的方法。
2. DeepSeek-R1-Zero 然后通过多个高质量的示例将其学习传授给 DeepSeek-R1。这使得 DeepSeek-R1 能够在更少的训练迭代中取得更大的进展。
这就是冷启动。它是一个阶段,在这个阶段中,由 DeepSeek-R1-Zero 生成的 Chain-of-Thought 推理示例被整理、变得可读,并用于微调 DeepSeek-R1。
在冷启动之后,DeepSeek-R1 进入了相同的强化学习过程——它已经从 R1-Zero 学到了很多,但现在继续独立探索。
结论思考
这个新的强化学习管道在推理方面大大提升了能力。但这就是终点吗?
我认为不是。
•一个干净且客观的奖励函数允许大量数据供LLM学习如何得出正确答案。
•鼓励LLM在回答之前“思考”很多确保LLM会验证其答案并给出更准确的回答。
•某些“聪明”的行为是通过这个学习过程演变而来的。例如,LLM学习了重新阅读问题、考虑所有可能性以及重新审视/重新评估其先前步骤等行为。这些“聪明”的行为并不是明确编程到LLM中的,而是通过为模型提供正确的激励而演变而来的。
仅仅通过提供正确的激励,人工智能系统可以发展出连人类都未曾意识到的新推理规则。
这意味着它们“可能”有一天会比人类更聪明,即使它们是由人类构建的。
强化学习会是实现AGI的秘密吗?
领取专属 10元无门槛券
私享最新 技术干货