首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek-R1如何以独特训练引领AGI新时代?

DeepSeek是一家中国人工智能公司,刚刚推出了一种模型,其推理能力与OpenAI-o1相当,尽管参数数量仅为其一小部分,并且训练成本低得多。

之前,我写过一篇文章,展示了GPT-4o在有效推理方面失败的情况。其中一个例子是“死的薛定谔猫”问题。

我的一位读者在DeepSeek-R1上尝试了相同的提示,他告诉我DeepSeek的输出,实际上相当令人印象深刻!

当我询问GPT-4o时,以下是它的回答。显然,它未能意识到猫是死的,而它活着的概率为0\。

当我在DeepSeek上尝试同样的问题时,我注意到该LLM像聪明的人一样思考,试图考虑所有可能性,并在最终确定答案之前避免愚蠢的错误。最终,它不仅给出了正确的答案,还解释得非常好。

如果您想要更多关于GPT-4o推理失败的例子,请查看这个博客:

就在那时,我决定需要进一步调查。DeepSeek推理能力提升的秘密是什么?

基础模型

所有训练方法,包括 DeepSeek 的,都是从预训练阶段开始,得到“基础模型”。

基础模型是指在预训练后但在任何形式的监督微调之前立即产生的 LLM。

预训练(在 LLM 中)涉及将 LLM 暴露于大量互联网文本语料库,从而提高 LLM 预测下一个单词的能力。产生的基础模型不一定会给出有帮助的答案,但它们会在语言结构上相当流畅,并知道在给定文本序列的情况下可以预测哪些单词。

最终产生的基础模型具有以下特征:

它理解语言的结构。它可以根据输入的问题预测出语法流畅的一组下一个标记。

它可能无法提供有帮助的响应,例如在回答一个流畅的句子时却提供了不准确或不相关的答案。

它可能产生有害的输出,包括令人反感的答案或无法拒绝有害请求的能力(例如,“如何入侵某人的电子邮件”)。

大多数基础模型可以在 HuggingFace 上获取,您可以尝试它们。这些模型通常不适合生产使用,因为它们缺少后续步骤,这些步骤有助于使它们更适合生产环境。

DeepSeek的做法

DeepSeek-R1与其他方法的主要区别在于他们在训练过程中引入的特殊**“自主”RL步骤**。请注意,这与LLMs中已经存在的RLHF步骤非常不同。

什么是RL?我将在这里简要解释这个概念。

RL 简介

假设一只老鼠需要学习寻找食物。

最初,老鼠**“探索”**了很多,尝试随机动作并观察哪些有效。

随着时间的推移,特定的动作序列使老鼠获得奖励(例如食物),老鼠学会优先选择这些动作。在这个阶段,老鼠**“利用”**它已经知道的知识来最大化其奖励。

在 RL 问题中有三个变量——状态、动作和奖励。

给定一个特定状态,老鼠应该“学习一个策略”,使其能够确定应该采取的动作以获得最大奖励。

那么 DeepSeek 在 RL 中究竟做了什么呢?

DeepSeek-R1-Zero的RL策略

我们将从DeepSeek-R1-Zero开始,这是DeepSeek-R1的简化版本。

早些时候,DeepSeek发布了一篇名为DeepSeekMath的论文,在其中首次介绍了这一RL策略。

这是他们第二次使用它。

该RL策略的目标是让LLM在生成输出时能够更好地推理。动作对应于LLM生成的下一个token,而状态对应于到目前为止生成的tokens,奖励由一个特殊的奖励函数确定,该函数奖励“良好的输出”。

你一定听说过RLHF,这是典型的LLM训练阶段之一。

我想在这篇博客中提到的主要区别是奖励的定义方式。

奖励函数不再基于“人类反馈”。

奖励是根据以下内容自动确定的:

答案的正确性。模型会被提供一些数学问题,通常会将得到的最终答案框住,模型会因“正确的最终答案”而获得奖励。因此,通过强化学习,模型试图优化其过程以提供更多正确答案。

代码输出的正确性。训练数据集还包含编码问题,LLM的代码输出可以简单地传递给编译器,并在一组预定的测试用例上进行评估,类似于LeetCode等竞争编程网站。

对思维过程的奖励。有人说这是DeepSeek为何如此有效的秘密。它特别奖励LLM在<思维>标签中包含思维标记。这迫使LLM进行思考,鼓励LLM在回答之前找出答案。

这个过程帮助很大,因为它确保我们可以使用强化学习来训练LLM,使用大量示例高质量数据。人类反馈数据可能会有噪声,但像这里使用的客观奖励意味着更干净的数据,使得LLM能够学习如何优化以获得正确答案。

结果?

这里的图表表示了LLM在美国邀请数学考试(AIME)基准测试上的准确性。

蓝色图表显示了通过单个模型的预测获得的准确性。

红色图表表示16个模型的共识预测。这意味着我们的16个DeepSeek模型被问及每个问题,最终答案是通过“多数投票”得出的,同时计算准确性。

RL过程显然随着时间的推移提高了LLM的推理能力,显示了这种技术的强大。实际上,该模型在多个推理基准测试中的表现与OpenAI-o1相似!

DeepSeek-R1

DeepSeek-R1-Zero 的问题在于,尽管它在推理方面表现出色,但它没有生成可读的输出

为了解决这个问题,他们实施了一些额外的步骤,例如监督微调和一个优先考虑推理和其他任务的 RL 步骤。

例如,由于我们通常希望 LLM 是无害的,我们可能会训练它拒绝回答任何有害的问题,例如 “如何入侵某人的电子邮件”。

但 DeepSeek-R1 的一个核心区别是冷启动。

Cold-start

可以这样理解:

1. DeepSeek-R1-Zero 通过试错的方式艰难地找到了推理的方法。

2. DeepSeek-R1-Zero 然后通过多个高质量的示例将其学习传授给 DeepSeek-R1。这使得 DeepSeek-R1 能够在更少的训练迭代中取得更大的进展。

这就是冷启动。它是一个阶段,在这个阶段中,由 DeepSeek-R1-Zero 生成的 Chain-of-Thought 推理示例被整理、变得可读,并用于微调 DeepSeek-R1。

在冷启动之后,DeepSeek-R1 进入了相同的强化学习过程——它已经从 R1-Zero 学到了很多,但现在继续独立探索。

结论思考

这个新的强化学习管道在推理方面大大提升了能力。但这就是终点吗?

我认为不是。

一个干净且客观的奖励函数允许大量数据供LLM学习如何得出正确答案。

鼓励LLM在回答之前“思考”很多确保LLM会验证其答案并给出更准确的回答。

某些“聪明”的行为是通过这个学习过程演变而来的。例如,LLM学习了重新阅读问题、考虑所有可能性以及重新审视/重新评估其先前步骤等行为。这些“聪明”的行为并不是明确编程到LLM中的,而是通过为模型提供正确的激励而演变而来的。

仅仅通过提供正确的激励,人工智能系统可以发展出连人类都未曾意识到的新推理规则。

这意味着它们“可能”有一天会比人类更聪明,即使它们是由人类构建的。

强化学习会是实现AGI的秘密吗?

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OrfivWOZiboYVKy3esmZTyig0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券