Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础

Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础

作者头像
机器之心
发布于 2025-05-04 02:51:36
发布于 2025-05-04 02:51:36
1700
举报
文章被收录于专栏:机器之心机器之心

选自 Ahead of AI

作者:Sebastian Raschka

机器之心编译

推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。

近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。

机器之心编译了这本书的第一章,以飨读者。

  • 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch

(注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference 指模型根据输入生成输出的计算过程(如生成文本),而 reasoning 侧重模型通过思维链等方法进行逻辑分析、因果判断或问题解决的能力。)。

欢迎来到大型语言模型(LLM)的下一阶段:推理(reasoning)

LLM 已经改变了我们处理和生成文本的方式,但它们的成功主要得益于统计模式识别。然而,推理方法正在取得新进展,这些新技术能让 LLM 处理更复杂的任务,例如求解逻辑难题或多步骤算术题。本书的核心便是理解这些方法。

本章将介绍的内容包括:

  • 在 LLM 中,「推理」的具体含义;
  • 推理与模式匹配的根本区别;
  • LLM 的传统预训练和后训练阶段;
  • 提升 LLM 推理能力的关键方法;
  • 为什么从头开始构建推理模型可以帮助我们理解它们的优势、局限性和实践中权衡。

1、在 LLM 中,「推理」究竟是什么?

什么是基于 LLM 的推理(LLM-based reasoning)?这个问题的答案和讨论本身就足以写成一本书。然而,本书与之不同,目标则是从头开始实现 LLM 推理方法,因此会更注重实践和亲自动手编程,而不是概念层面上的推理。尽管如此,我认为简要定义在 LLM 语境中所说的「推理」依然很重要。

因此,在后续章节转向编程部分之前,我想在这本书的第一节定义 LLM 语境中的推理,以及它与模式匹配和逻辑推理的关系。这将为进一步讨论 LLM 目前的构建方式、它们如何处理推理任务以及它们的优点和缺点奠定基础。

在本书中,LLM 语境中的「推理」定义如下:

在 LLM 语境中,推理是指模型在提供最终答案之前产生中间步骤的能力。这个过程通常被描述为思维链(CoT)推理。在 CoT 推理中,LLM 会显式地生成结构化的陈述或计算序列,以说明其得出结论的过程。

图 1 展示了一个简单的 LLM 多步骤(CoT)推理示例。

图 1:LLM 处理一个多步骤推理任务的简版示例。推理模型所做的并不是简单回忆一个事实,而是将多个中间推理步骤组合起来得出正确的结论。根据实现方式的不同,中间推理步骤可能会展示给用户,也可能不会。

从图 1 中可以看到,LLM 产生的中间推理步骤看起来非常像一个人大声表达内心的想法。然而,这些方法(以及由此产生的推理过程)与人类推理的相似度究竟如何仍是一个尚待解答的问题,本书也不会试图回答这个问题。我们甚至不清楚这样的问题是否可以得到明确解答。

相反,本书侧重于解释和实现能提升 LLM 的推理能力的技术,从而让 LLM 更好地处理复杂任务。我希望通过上手实践这些方法,你能更好地理解和改进那些正在开发中的推理方法,甚至探索它们与人类推理的异同。

注:LLM 中的推理过程可能与人类思维非常相似,特别是在中间步骤的表达方式上。然而,目前尚不清楚 LLM 推理是否在内部认知过程方面与人类推理相似。人类的推理方式通常是有意识地操控概念、直觉理解抽象关系或基于少数示例进行概括。相比之下,当前的 LLM 推理主要基于从训练数据中的大量统计相关性中学习到的模式,而不是显式的内部认知结构或有意识的反思。

因此,尽管推理增强型 LLM 的输出看起来有点像人类,但其底层机制(很可能)存在很大差异,并且这也是一个活跃的探索领域。

2、LLM 训练过程简介

本节将简要总结 LLM 的典型训练方式,以便我们更好地理解它们的设计并了解它们的局限性。这一背景也将有助于我们讨论模式匹配和逻辑推理之间的差异。

在应用任何的推理方法之前,传统的 LLM 训练通常分为两个阶段:预训练和后训练,如下图 2 所示。

图 2:典型 LLM 的训练流程概述。一开始,初始模型使用随机权重初始化,然后在大规模文本数据集上通过预测下一个 token 进行预训练,以学习语言模式。然后,通过指令微调和偏好微调来优化模型,使 LLM 能够更好地遵从人类指令并与人类偏好对齐。

在预训练阶段,LLM 要使用大量(可达数 TB)未标记文本进行训练,其中包括书籍、网站、研究论文和许多其他来源。LLM 的预训练目标是学习预测这些文本中的下一个词(或 token)。

当使用 TB 级文本进行大规模预训练时,当前领先的 LLM 往往会使用数千台 GPU 运行数月时间,还会花费数百万美元资金,结果得到的 LLM 会非常强大。这意味着它们开始有能力生成与人类书写的非常相似的文本。此外,在某种程度上,经过预训练的 LLM 将开始表现出所谓的涌现属性(emergent property),这意味着它们能执行未经明确训练的任务,包括翻译、代码生成等。

然而,这些预训练模型仅仅是后训练阶段的基础模型,后训练阶段会使用两种关键技术:监督式微调(SFT,也称指令微调)和偏好微调。后训练的目的是让 LLM 学会响应用户查询,如下图 3 所示。

图 3:语言模型在不同训练阶段的示例响应。图中,提示词要求总结睡眠与健康之间的关系。预训练 LLM 给出了一个相关但没有重点的答案,没有直接遵从指令。指令微调版 LLM 生成了与提示词一致的简洁准确的总结。而偏好微调后的 LLM 更进一步改善了响应 —— 使用了友好的语气和更有感召力的语言,使答案更具相关性和以用户为中心。

如图 3 所示,指令微调能提高 LLM 的个人助理类任务的能力,如问答、总结和翻译文本等等。然后,偏好微调阶段可完善这些能力。它有助于根据用户偏好定制响应。此外,偏好微调也常被用于使 LLM 更安全。(一些读者可能很熟悉基于人类反馈的强化学习(RLHF)等术语,它们是实现偏好微调的具体技术。)

简而言之,我们可以将预训练视为「原始语言预测」(通过下一 token 预测),它能为 LLM 提供一些基本属性和生成连贯文本的能力。然后,后训练阶段可通过指令微调提高 LLM 的任务理解能力,并通过偏好微调让 LLM 有能力创建具有特定风格的答案。

对 LLM 预训练和后训练阶段细节感兴趣的读者可以参阅《Build A Large Language Model (From Scratch)》。而当前这本关于推理的书无需有关这些阶段的知识 —— 你一开始就会获得一个已经经过预训练和后训练的模型。

3、模式匹配:LLM 如何从数据中学习

LLM 在训练时,会「阅读」海量的文本数据,并学习如何根据前文预测下一个 token。它们是靠发现数据中的统计规律,而不是真正「理解」内容。所以,即使它们能写出流畅、通顺的句子,但本质上只是在模仿表面的关联,而不是进行深入的思考。

目前大多数 LLM(比如 GPT-4o、Meta 的 Llama 3,除非专门训练过推理能力)都是这样工作的 —— 它们不会像人一样一步步逻辑推理,而是根据输入的问题,从训练数据中找到最可能的答案。简单来说,它们不是通过真正的逻辑推导来回答问题,更像是在「匹配」输入和输出的模式。

可以参考以下示例:

提示词:德国的首都是…… 回答:柏林

当 LLM 回答「柏林」时,它并不是通过逻辑推理得出的结论,而只是从训练数据中记住了 「德国→柏林」这个高频搭配。这种反应就像条件反射,我们称为「模式匹配」—— 模型只是在复现学到的文字规律,并没有真正一步步思考。

但如果遇到更复杂的问题呢?比如需要根据已知事实推导答案的任务?这时候就需要另一种能力:逻辑推理

真正的逻辑推理,是指像解数学题一样,根据前提一步步推出结论。它需要中间思考步骤,能发现前后矛盾,也能基于已定的规则判断因果关系。这和单纯「匹配文字关系」完全不同。

举个例子:

所有鸟都会飞。企鹅是鸟。那企鹅会飞吗?

如果是人类(或者真正会推理的系统),马上就能发现不对劲 —— 根据前两句看起来企鹅应该会飞,但大家都知道企鹅其实不会飞,这就矛盾了(如下图 1.4 所示)

会推理的系统会立刻抓住这个矛盾,并意识到:要么第一句话说得太绝对(不是所有鸟都会飞),要么企鹅是个例外。

图 4:前提矛盾导致的逻辑冲突示意图。根据「所有鸟都会飞」和「企鹅是鸟」这两句话,我们会推出「企鹅会飞」 的结论。但这个结论和已知事实「企鹅不会飞」直接冲突,这就产生了矛盾。

依靠于统计学习的 LLM 并不会主动识别这种矛盾。它只是根据训练数据中的文字规律来预测答案。如果在训练数据中「所有鸟都会飞」这个说法出现得特别多,模型就可能会自信地回答:「是的,企鹅会飞。」

在下一节中,我们将用一个具体的例子看看 LLM 遇到这个「所有鸟都会飞.……」的问题时,实际上会怎么回答。

4、模拟逻辑推理:LLM 如何在没有显式规则的情况下模仿推理逻辑

上一节我们说到,当遇到自相矛盾的前提时(比如「所有鸟都会飞,但企鹅不会飞」),普通 LLM 其实不会主动发现这些矛盾。它们只是根据训练时学到的文字规律来生成回答。

现在让我们看个具体例子(见图 5):像 GPT-4o 这样没有专门加强推理能力的模型,遇到这个「所有鸟都会飞...」的问题时,会怎么回答呢?

图 5:语言模型(GPT-4o)如何处理矛盾前提的示例。

从图 5 的例子可以看到,虽然 GPT-4o 并不是专门的推理模型(不像 OpenAI 其他专门开发了推理功能的版本,比如 o1 和 o3),但它在这个问题上却给出了看似正确的回答。

这是怎么回事?难道 GPT-4o 真的会逻辑推理吗?其实不然,不过至少说明,4o 在它熟悉的场景中,能够非常逼真地「装」出逻辑推理的样子。

其实 GPT-4o 并不会主动检查说法是否自相矛盾。它的回答完全基于从海量数据中学到的「文字搭配概率」。

举个例子:如果在训练数据中,经常出现「企鹅不会飞」这样的正确说法,模型就会牢牢记住「企鹅」和「不会飞」之间的关联。就像图 5 展示的,虽然 4o 没有真正的逻辑推理能力,但靠着这种「文字概率记忆」,它也能给出正确答案。

简单来说:它不是在用逻辑规则思考,而是靠「见得多了自然记住」的方式在回答问题。

简单来说,模型之所以能「察觉」这个矛盾,是因为它在训练时反复见过类似的例子。这种能力完全来自于它在海量数据中学习到的文字规律 —— 就像我们常说的「熟能生巧」,见得多了自然就会了。

换句话说,就算像图 5 里那样,普通 LLM 看似在进行逻辑推理,其实它并不是按照规则一步步思考,而只是在运用从海量训练数据中学到的文字规律。

不过,ChatGPT 4o 能答对这个问题,恰恰说明了一个重要现象:当模型经过超大规模训练后,它的这种「隐性规律匹配」能力可以变得非常强大。但这种基于统计规律的模式也存在明显短板,比如遇到以下情况时就容易出错:

  • 遇到全新题型(训练数据里完全没见过的逻辑问题)→ 就像让一个只会刷题的学生突然碰到从没见过的考题;
  • 问题太复杂(需要环环相扣的多步推理)→ 类似让计算器解一道需要写证明过程的数学大题;
  • 需要严格逻辑推导(但训练数据中没有类似案例)→ 好比让背过范文的学生现场创作全新体裁的文章。

既然规则系统这么靠谱,为什么现在不流行了?其实在 80、90 年代,基于规则的系统确实很火,像医疗诊断、法律判决、工程设计这些领域都在用。直到今天,在一些性命攸关的领域(比如医疗、法律、航天),我们还是能看到它们的身影 —— 毕竟这些场合需要清晰的推理过程和可追溯的决策依据。但这种系统有个硬伤:它完全依赖人工编写规则,开发起来特别费劲。相比之下,像 LLM 这样的深度神经网络,只要经过海量数据训练,就能灵活处理各种任务,适用性广多了。

我们可以这样理解:LLM 是通过学习海量数据中的规律来「装」逻辑推理的。虽然它们内部并不运行任何基于规则的逻辑系统,但可以通过一些专门的优化方法(比如增强推理计算能力和后训练策略)来进一步提升这种模拟能力。

值得一提的是,LLM 的推理能力其实是一个渐进发展的过程。早在 o1 和 DeepSeek-R1 这类专业推理模型出现之前,普通 LLM 就已经能展现出类似推理的行为了 —— 比如通过生成中间步骤来得出正确结论。而现在我们所说的 「推理模型」,本质上就是把这种能力进一步强化和优化的结果,主要通过两种方式实现:1. 采用特殊的推断计算扩展技术,2. 进行针对性的后训练。

本书后续内容将重点介绍这些提升大语言模型解决复杂问题能力的进阶方法,帮助你更深入地理解如何增强大语言模型这种「隐性」的推理能力。

5、提升 LLM 的推理能力

大语言模型的「推理能力」真正进入大众视野,是在 2024 年 9 月 12 日 OpenAI 发布 o1 的时候。在那篇官宣文章里,OpenAI 特别提到

这些新版 AI 不像以前那样秒回,而是会像人类一样先琢磨几秒,确保答案更靠谱。

OpenAI 还特别说明:

这种强化过的思考能力,对解决科学、编程、数学等领域的复杂问题特别有帮助 —— 毕竟这些领域的问题,往往需要多转几个弯才能想明白。

虽然 o1 的具体技术细节没有公开,但普遍认为它是在 GPT-4 等前代模型基础上,通过「增强推断计算能力」来实现更强的思考能力的。

几个月后的 2025 年 1 月,深度求索公司发布了 DeepSeek-R1 模型和技术报告,详细介绍了训练推理模型的方法,引起了巨大轰动。因为:

  • 他们不仅免费开源了一个性能媲美甚至超越 o1 的模型;
  • 还公开了如何开发这类模型的完整方案。

本书将通过从零实现这些方法,带你看懂这些提升 AI 推理能力的技术原理。如图 6 所示,目前增强大语言模型推理能力的方法主要可以分为三大类:

图 6:提升大语言模型推理能力的三大方法。这三大方法(推断计算增强、强化学习和知识蒸馏)通常是在模型完成常规训练后使用的。所谓常规训练包括:基础模型训练、预训练、指令微调和偏好微调。

如图 6 所示,这些增强方法都是用在已经完成上述常规训练阶段的模型上的。

推断时间计算增强

推断时间计算扩展(也叫推断计算增强、测试时增强等)包含一系列在推理阶段(即用户输入提示词时)提升模型推理能力的方法,这些方法无需对底层模型权重进行训练或修改。其核心思想是通过增加计算资源来换取性能提升,借助思维链推理(chain-of-thought reasoning)及多种采样程序等技术,使固定参数的模型展现出更强的推理能力。

强化学习(RL)

强化学习是一类通过最大化奖励信号来提升模型推理能力的训练方法。其奖励机制可分为两类:

  • 广义奖励:如任务完成度或启发式评分
  • 精准可验证奖励:如数学问题正确答案或编程任务通过率

与推断时间计算增强(inference-time compute scaling)不同,RL 通过动态调整模型参数(weights updating)实现能力提升。该机制使模型能够基于环境反馈,通过试错学习不断优化其推理策略。

注: 在开发推理模型时,需明确区分此处的纯强化学习(RL)方法与常规大语言模型开发中用于偏好微调的基于人类反馈的强化学习(RLHF)(如图 2 所示)。二者的核心差异在于奖励信号的来源:RLHF 通过人类对模型输出的显式评分或排序生成奖励信号,直接引导模型符合人类偏好行为;纯 RL 则依赖自动化或环境驱动的奖励信号(如数学证明的正确性),其优势在于客观性,但可能降低与人类主观偏好的对齐度。典型场景对比:纯 RL 训练:以数学证明任务为例,系统仅根据证明步骤的正确性提供奖励;RLHF 训练:需人类评估员对不同输出进行偏好排序,以优化符合人类标准(如表述清晰度、逻辑流畅性)的响应。

监督微调与模型蒸馏

模型蒸馏是指将高性能大模型习得的复杂推理模式迁移至更轻量化模型的技术。在 LLM 领域,该技术通常表现为:使用高性能大模型生成的高质量标注指令数据集进行监督微调(Supervised Fine-Tuning, SFT)。这种技术在 LLM 文献中常统称为知识蒸馏(Knowledge Distillation)或蒸馏(Distillation)。

与传统深度学习的区别:经典知识蒸馏中,「学生模型」需同时学习「教师模型」的输出结果和 logits,而 LLM 的蒸馏通常仅基于输出结果进行迁移学习。

注:本场景采用的监督微调(SFT)技术与常规大语言模型开发中的 SFT 类似,其核心差异体现在训练样本由专为推理任务开发的模型生成(而非通用 LLM)。也因此,其训练样本更集中于推理任务,通常包括中间推理步骤。

6、从头构建推理模型的重要性

自 2025 年 1 月 DeepSeek-R1 发布以来,提高 LLM 的推理能力已成为 AI 领域最热门的话题之一。原因也不难理解。更强的推理能力使 LLM 能够解决更复杂的问题,使其更有能力解决用户关心的各种任务。

OpenAI CEO 在 2025 年 2 月 12 日的一份声明也反映了这种转变:

我们接下来将发布 GPT-4.5,即我们在内部称之为 Orion 的模型,这是我们最后一个非思维链模型。在此之后,我们的首要目标是统一 o 系列模型和 GPT 系列模型,方法是打造可以使用我们所有工具、知道何时需要或不需要长时间思考并且可以广泛用于各种任务的系统。

以上引文凸显了领先的 LLM 提供商向推理模型的转变。这里,思维链是指一种提示技术,其能引导语言模型逐步推理以提高其推理能力。

另一点也值得一提,「知道何时需要或不需要长时间思考」也暗示了一个重要的设计考量:推理并不总是必要或可取的

举个例子,推理模型在设计上就是为了解决复杂任务设计的,如解决难题、高级数学问题和高难度编程任务。然而,对于总结、翻译或基于知识的问答等简单任务来说,推理并不是必需的。事实上,如果将推理模型用于一切任务,则可能效率低下且成本高昂。例如,推理模型通常使用起来成本更高、更冗长,有时由于「过度思考」更容易出错。此外,这里也适用一条简单的规则:针对具体任务使用正确的工具(或 LLM 类型)。

为什么推理模型比非推理模型成本更高?

主要是因为它们往往会产生更长的输出,这是由于中间推理步骤解释了得出答案的方式。如图 7 所示,LLM 一次生成一个 token 的文本。每个新 token 都需要通过模型进行完整的前向传递。因此,如果推理模型产生的答案是非推理模型的两倍长,则需要两倍的生成步骤,从而导致计算成本增加一倍。这也会直接影响 API 使用成本 —— 计费通常基于处理和生成的 token 数量。

图 7:LLM 中的逐个 token 生成。在每一步,LLM 都会获取迄今为止生成的完整序列并预测下一个 token—— 可能代表词、子词或标点符号,具体取决于 token 化器。新生成的 token 会被附加到序列中,并用作下一步的输入。这种迭代解码过程既用于标准语言模型,也用于以推理为中心的模型。

这直接凸显了从头开始实现 LLM 和推理方法的重要性。这是了解它们的工作方式的最佳方式之一。如果我们了解 LLM 和这些推理模型的工作原理,我们就能更好地理解这些权衡。

7、总结

  • LLM 中的推理涉及使用中间步骤(思维链)来系统地解决多步骤任务。
  • 传统的 LLM 训练分为几个阶段:预训练,模型从大量文本中学习语言模式;指令微调,可改善模型对用户提示词的响应;偏好微调,使模型输出与人类偏好对齐。
  • LLM 中的模式匹配完全依赖于从数据中学习到的统计关联,这可使得文本生成流畅,但缺乏明确的逻辑推理。
  • 可以通过这些方式来提高 LLM 中的推理能力:推断时间计算扩展,无需重新训练即可增强推理能力(例如,思维链提示);强化学习,使用奖励信号显式地训练模型;监督微调和蒸馏,使用来自更强大推理模型的示例。
  • 从头开始构建推理模型可以提供有关 LLM 能力、局限性和计算权衡的实用见解。

以上就是 Sebastian Raschka 新书《Reasoning From Scratch》第一章的主要内容,可以说通过一些基础介绍为这本书奠定了一个很好的基调。你对推理模型有什么看法,对这本书有什么期待吗?

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」
机器之心
2025/02/10
1960
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2510
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
推理大模型的后训练增强技术--LLM 推理模型的现状
提升大型语言模型(LLM)的推理能力无疑是 2025 年最火热的话题之一,而且理由很充分。更强的推理能力意味着 LLM 可以处理更复杂的问题,让它在各种任务上表现得更出色,更贴近用户的实际需求。
致Great
2025/03/13
3400
推理大模型的后训练增强技术--LLM 推理模型的现状
每周AI论文速递(250526-250530)
本文介绍 Mutarjim,一个专为阿拉伯语-英语双向翻译设计的紧凑型高性能语言模型。尽管当前大规模大语言模型在机器翻译等自然语言处理任务中展现出显著优势,我们发现小型模型同样具备竞争力。基于这一发现,我们在专为阿拉伯语和英语优化的 Kuwain-1.5B 语言模型基础上开发了 Mutarjim。该模型通过采用优化的两阶段训练流程和精选的高质量训练语料,在保持较小规模的同时,其性能表现超越了多个主流基准测试中的大型模型。实验数据表明,Mutarjim 的性能可与体积大 20 倍的模型相媲美,同时大幅降低了计算资源和训练成本。此外,我们提出了 Tarjama-25 新基准测试集,该数据集包含 5,000 组经过专家校验的平行句对,覆盖广泛领域,有效解决了现有阿拉伯语-英语评测数据存在的领域局限、语句过短和英语源偏置等问题,为相关研究提供了更全面均衡的评估体系。值得注意的是,Mutarjim 在 Tarjama-25 的英阿翻译任务中取得了当前最优性能,甚至超越了 GPT-4o mini 等规模显著更大的专有模型。我们将公开 Tarjama-25 数据集,以促进阿拉伯语-英语翻译系统的后续研究和评估工作。
叶子的技术碎碎念
2025/06/08
910
每周AI论文速递(250526-250530)
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
DeepSeek-R1的秘籍在于强化学习微调算法:群体相对策略优化(Group Relative Policy Optimization,GRPO)。
新智元
2025/05/25
1750
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1380
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
致Great
2025/02/17
1.2K0
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
3970
推理大模型的后训练增强技术-强化学习篇
推理模型升级浪潮下,Agentic RAG 如何借力 DeepSeek 实现知识革命?
王昊奋,同济大学特聘研究员、博导、腾讯云 TVP。研究方向包括知识图谱、自然语言处理、对话问答机器人等。长期在一线人工智能公司担任 CTO 之职。是全球最大的中文开放知识图谱联盟 OpenKG 发起人之一。负责主持多项国家级和上海市 AI 相关项目,发表 100 余篇 AI 领域高水平论文,谷歌学术引用 6100 余次,H-index 达到 31。构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过 10 亿人次。目前担任中国计算机学会术语工委副主任,SIGKG 主席,上海秘书长,中国中文信息学会理事,语言与知识计算专委会副秘书长,上海市计算机学会自然语言处理专委会副主任,上海交通大学 AI 校友会秘书长等社会职位。
TVP官方团队
2025/04/11
2690
推理模型升级浪潮下,Agentic RAG 如何借力 DeepSeek 实现知识革命?
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:
立委
2025/02/28
3750
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
1.1K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
推上多位网友表示,OpenAI o1和o3模型背后究竟是何原理——这一未解之谜,被中国研究者「发现」了!
新智元
2025/02/15
590
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
每周AI论文速递(250505-250509)
推理是智能的核心能力,决定了系统在决策、结论推导及跨领域泛化方面的表现。在人工智能领域,随着系统日益需要在开放、不确定和多模态环境中运行,推理成为实现鲁棒性与自适应行为的关键。大型多模态推理模型 (Large Multimodal Reasoning Models, LMRMs) 作为一种新兴范式,通过整合文本、图像、音频和视频等多模态数据,旨在实现全面感知、精准理解和深度推理。该领域的研究已从早期的模块化感知驱动流程,发展为以语言为核心的统一框架,显著提升了跨模态理解的连贯性。尽管指令微调与强化学习提升了模型推理能力,但在全模态泛化、推理深度和智能体行为等方面仍存在挑战。为此,本文提出了一种基于四阶段发展路线图的系统性综述,该路线图反映了领域设计理念的演变与新兴能力。首先,我们分析了基于任务专用模块的早期研究,其推理过程隐含于表征、对齐与融合的各个阶段;其次,探讨了当前将推理统一至多模态大语言模型的方法,多模态思维链 (Multimodal Chain-of-Thought, MCoT) 和多模态强化学习等技术推动了结构化推理链的发展;最后,结合 OpenAI O3 和 O4-mini 的基准测试与实验案例,阐述了原生大型多模态推理模型 (Native-LMRMs, N-LMRMs) 的设计理念,该模型致力于在复杂现实环境中实现可扩展、自主和自适应的推理与规划能力。
叶子的技术碎碎念
2025/05/12
910
每周AI论文速递(250505-250509)
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是通过“推理”框架将 LLMs 扩展到新高度的典范。
AIGC新知
2025/03/21
5850
理解什么是推理模型,看懂这篇就够了
图解DeepSeek-R1大模型—推理型大语言模型(LLM)的训练秘密
DeepSeek-R1 是人工智能(AI)进步历程中最新的一次令人瞩目的重大进展。对于机器学习(ML)研发社区来说,它是一个重要的发布版本,原因包括:
AIGC部落
2025/02/07
9980
图解DeepSeek-R1大模型—推理型大语言模型(LLM)的训练秘密
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
自2022年底ChatGPT发布以来,其已经在人工智能的整个领域带来了翻天覆地的变化。通过对大型语言模型(LLM)进行指令微调,并从人类反馈中进行监督微调和强化学习,表明模型可以回答人类问题并在广泛的任务中遵循指令。在这一成功之后,对LLM的研究兴趣增强了,新的LLM在学术界和工业界频繁蓬勃发展。虽然非开源LLM(例如,OpenAI的GPT, Anthropic的Claude)通常优于它们的开源同行,但后者的进展很快。这对研究和商业都有至关重要的影响。在ChatGPT成立一周年之际,本文对这类LLMs进行了详尽的介绍。
zenRRan
2023/12/05
4960
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
DeepSeek-R1 论文解析——人工智能领域的 RL LLM 新时代?
最近几年,AI领域真是突飞猛进,尤其是大型语言模型(LLM),它们为通用人工智能(AGI)的发展打下了基础。OpenAI的o1模型就是个很好的例子,它用了一种创新的推理时间扩展技术,大大提升了推理能力。不过呢,这个模型还是闭源的,有点遗憾。
致Great
2025/02/10
5810
DeepSeek-R1 论文解析——人工智能领域的 RL LLM 新时代?
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3820
DeepSeek-R1:强化学习驱动的LLM推理能力提升
【论文分享】推理大模型Post-Training技术的全面综述
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。
致Great
2025/03/07
3590
【论文分享】推理大模型Post-Training技术的全面综述
推荐阅读
相关推荐
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档