文章/答案/技术大牛

发布

社区首页 >专栏 >Sebastian Raschka 新书《从头开始推理》抢先看，揭秘推理模型基础

Sebastian Raschka 新书《从头开始推理》抢先看，揭秘推理模型基础

机器之心

发布于 2025-05-04 02:51:36

1700

文章被收录于专栏：机器之心机器之心

选自 Ahead of AI

作者：Sebastian Raschka

机器之心编译

推理模型发展正盛，著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。在此之前，他已经出版了多本 AI 领域的著名书籍，包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。

近日，他在自己的博客上放出了这本书的第一章，为 LLM 领域的推理进行了入门级的介绍，同时还概述了推断时间扩展和强化学习等技术方法。

机器之心编译了这本书的第一章，以飨读者。

原文地址：https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch

（注：为了行文清晰，本文会将 inference 译为「推断」，将 reasoning 译为「推理」；其中 inference 指模型根据输入生成输出的计算过程（如生成文本），而 reasoning 侧重模型通过思维链等方法进行逻辑分析、因果判断或问题解决的能力。）。

欢迎来到大型语言模型（LLM）的下一阶段：推理（reasoning）。

LLM 已经改变了我们处理和生成文本的方式，但它们的成功主要得益于统计模式识别。然而，推理方法正在取得新进展，这些新技术能让 LLM 处理更复杂的任务，例如求解逻辑难题或多步骤算术题。本书的核心便是理解这些方法。

本章将介绍的内容包括：

在 LLM 中，「推理」的具体含义；
推理与模式匹配的根本区别；
LLM 的传统预训练和后训练阶段；
提升 LLM 推理能力的关键方法；
为什么从头开始构建推理模型可以帮助我们理解它们的优势、局限性和实践中权衡。

1、在 LLM 中，「推理」究竟是什么？

什么是基于 LLM 的推理（LLM-based reasoning）？这个问题的答案和讨论本身就足以写成一本书。然而，本书与之不同，目标则是从头开始实现 LLM 推理方法，因此会更注重实践和亲自动手编程，而不是概念层面上的推理。尽管如此，我认为简要定义在 LLM 语境中所说的「推理」依然很重要。

因此，在后续章节转向编程部分之前，我想在这本书的第一节定义 LLM 语境中的推理，以及它与模式匹配和逻辑推理的关系。这将为进一步讨论 LLM 目前的构建方式、它们如何处理推理任务以及它们的优点和缺点奠定基础。

在本书中，LLM 语境中的「推理」定义如下：

在 LLM 语境中，推理是指模型在提供最终答案之前产生中间步骤的能力。这个过程通常被描述为思维链（CoT）推理。在 CoT 推理中，LLM 会显式地生成结构化的陈述或计算序列，以说明其得出结论的过程。

图 1 展示了一个简单的 LLM 多步骤（CoT）推理示例。

图 1：LLM 处理一个多步骤推理任务的简版示例。推理模型所做的并不是简单回忆一个事实，而是将多个中间推理步骤组合起来得出正确的结论。根据实现方式的不同，中间推理步骤可能会展示给用户，也可能不会。

从图 1 中可以看到，LLM 产生的中间推理步骤看起来非常像一个人大声表达内心的想法。然而，这些方法（以及由此产生的推理过程）与人类推理的相似度究竟如何仍是一个尚待解答的问题，本书也不会试图回答这个问题。我们甚至不清楚这样的问题是否可以得到明确解答。

相反，本书侧重于解释和实现能提升 LLM 的推理能力的技术，从而让 LLM 更好地处理复杂任务。我希望通过上手实践这些方法，你能更好地理解和改进那些正在开发中的推理方法，甚至探索它们与人类推理的异同。

注：LLM 中的推理过程可能与人类思维非常相似，特别是在中间步骤的表达方式上。然而，目前尚不清楚 LLM 推理是否在内部认知过程方面与人类推理相似。人类的推理方式通常是有意识地操控概念、直觉理解抽象关系或基于少数示例进行概括。相比之下，当前的 LLM 推理主要基于从训练数据中的大量统计相关性中学习到的模式，而不是显式的内部认知结构或有意识的反思。

因此，尽管推理增强型 LLM 的输出看起来有点像人类，但其底层机制（很可能）存在很大差异，并且这也是一个活跃的探索领域。

2、LLM 训练过程简介

本节将简要总结 LLM 的典型训练方式，以便我们更好地理解它们的设计并了解它们的局限性。这一背景也将有助于我们讨论模式匹配和逻辑推理之间的差异。

在应用任何的推理方法之前，传统的 LLM 训练通常分为两个阶段：预训练和后训练，如下图 2 所示。

图 2：典型 LLM 的训练流程概述。一开始，初始模型使用随机权重初始化，然后在大规模文本数据集上通过预测下一个 token 进行预训练，以学习语言模式。然后，通过指令微调和偏好微调来优化模型，使 LLM 能够更好地遵从人类指令并与人类偏好对齐。

在预训练阶段，LLM 要使用大量（可达数 TB）未标记文本进行训练，其中包括书籍、网站、研究论文和许多其他来源。LLM 的预训练目标是学习预测这些文本中的下一个词（或 token）。

当使用 TB 级文本进行大规模预训练时，当前领先的 LLM 往往会使用数千台 GPU 运行数月时间，还会花费数百万美元资金，结果得到的 LLM 会非常强大。这意味着它们开始有能力生成与人类书写的非常相似的文本。此外，在某种程度上，经过预训练的 LLM 将开始表现出所谓的涌现属性（emergent property），这意味着它们能执行未经明确训练的任务，包括翻译、代码生成等。

然而，这些预训练模型仅仅是后训练阶段的基础模型，后训练阶段会使用两种关键技术：监督式微调（SFT，也称指令微调）和偏好微调。后训练的目的是让 LLM 学会响应用户查询，如下图 3 所示。

图 3：语言模型在不同训练阶段的示例响应。图中，提示词要求总结睡眠与健康之间的关系。预训练 LLM 给出了一个相关但没有重点的答案，没有直接遵从指令。指令微调版 LLM 生成了与提示词一致的简洁准确的总结。而偏好微调后的 LLM 更进一步改善了响应 —— 使用了友好的语气和更有感召力的语言，使答案更具相关性和以用户为中心。

如图 3 所示，指令微调能提高 LLM 的个人助理类任务的能力，如问答、总结和翻译文本等等。然后，偏好微调阶段可完善这些能力。它有助于根据用户偏好定制响应。此外，偏好微调也常被用于使 LLM 更安全。（一些读者可能很熟悉基于人类反馈的强化学习（RLHF）等术语，它们是实现偏好微调的具体技术。）

简而言之，我们可以将预训练视为「原始语言预测」（通过下一 token 预测），它能为 LLM 提供一些基本属性和生成连贯文本的能力。然后，后训练阶段可通过指令微调提高 LLM 的任务理解能力，并通过偏好微调让 LLM 有能力创建具有特定风格的答案。

对 LLM 预训练和后训练阶段细节感兴趣的读者可以参阅《Build A Large Language Model (From Scratch)》。而当前这本关于推理的书无需有关这些阶段的知识 —— 你一开始就会获得一个已经经过预训练和后训练的模型。

3、模式匹配：LLM 如何从数据中学习

LLM 在训练时，会「阅读」海量的文本数据，并学习如何根据前文预测下一个 token。它们是靠发现数据中的统计规律，而不是真正「理解」内容。所以，即使它们能写出流畅、通顺的句子，但本质上只是在模仿表面的关联，而不是进行深入的思考。

目前大多数 LLM（比如 GPT-4o、Meta 的 Llama 3，除非专门训练过推理能力）都是这样工作的 —— 它们不会像人一样一步步逻辑推理，而是根据输入的问题，从训练数据中找到最可能的答案。简单来说，它们不是通过真正的逻辑推导来回答问题，更像是在「匹配」输入和输出的模式。

可以参考以下示例：

提示词：德国的首都是…… 回答：柏林

当 LLM 回答「柏林」时，它并不是通过逻辑推理得出的结论，而只是从训练数据中记住了「德国→柏林」这个高频搭配。这种反应就像条件反射，我们称为「模式匹配」—— 模型只是在复现学到的文字规律，并没有真正一步步思考。

但如果遇到更复杂的问题呢？比如需要根据已知事实推导答案的任务？这时候就需要另一种能力：逻辑推理。

真正的逻辑推理，是指像解数学题一样，根据前提一步步推出结论。它需要中间思考步骤，能发现前后矛盾，也能基于已定的规则判断因果关系。这和单纯「匹配文字关系」完全不同。

举个例子：

所有鸟都会飞。企鹅是鸟。那企鹅会飞吗？

如果是人类（或者真正会推理的系统），马上就能发现不对劲 —— 根据前两句看起来企鹅应该会飞，但大家都知道企鹅其实不会飞，这就矛盾了（如下图 1.4 所示）

会推理的系统会立刻抓住这个矛盾，并意识到：要么第一句话说得太绝对（不是所有鸟都会飞），要么企鹅是个例外。

图 4：前提矛盾导致的逻辑冲突示意图。根据「所有鸟都会飞」和「企鹅是鸟」这两句话，我们会推出「企鹅会飞」的结论。但这个结论和已知事实「企鹅不会飞」直接冲突，这就产生了矛盾。

依靠于统计学习的 LLM 并不会主动识别这种矛盾。它只是根据训练数据中的文字规律来预测答案。如果在训练数据中「所有鸟都会飞」这个说法出现得特别多，模型就可能会自信地回答：「是的，企鹅会飞。」

在下一节中，我们将用一个具体的例子看看 LLM 遇到这个「所有鸟都会飞.……」的问题时，实际上会怎么回答。

4、模拟逻辑推理：LLM 如何在没有显式规则的情况下模仿推理逻辑

上一节我们说到，当遇到自相矛盾的前提时（比如「所有鸟都会飞，但企鹅不会飞」），普通 LLM 其实不会主动发现这些矛盾。它们只是根据训练时学到的文字规律来生成回答。

现在让我们看个具体例子（见图 5）：像 GPT-4o 这样没有专门加强推理能力的模型，遇到这个「所有鸟都会飞...」的问题时，会怎么回答呢？

图 5：语言模型（GPT-4o）如何处理矛盾前提的示例。

从图 5 的例子可以看到，虽然 GPT-4o 并不是专门的推理模型（不像 OpenAI 其他专门开发了推理功能的版本，比如 o1 和 o3），但它在这个问题上却给出了看似正确的回答。

这是怎么回事？难道 GPT-4o 真的会逻辑推理吗？其实不然，不过至少说明，4o 在它熟悉的场景中，能够非常逼真地「装」出逻辑推理的样子。

其实 GPT-4o 并不会主动检查说法是否自相矛盾。它的回答完全基于从海量数据中学到的「文字搭配概率」。

举个例子：如果在训练数据中，经常出现「企鹅不会飞」这样的正确说法，模型就会牢牢记住「企鹅」和「不会飞」之间的关联。就像图 5 展示的，虽然 4o 没有真正的逻辑推理能力，但靠着这种「文字概率记忆」，它也能给出正确答案。

简单来说：它不是在用逻辑规则思考，而是靠「见得多了自然记住」的方式在回答问题。

简单来说，模型之所以能「察觉」这个矛盾，是因为它在训练时反复见过类似的例子。这种能力完全来自于它在海量数据中学习到的文字规律 —— 就像我们常说的「熟能生巧」，见得多了自然就会了。

换句话说，就算像图 5 里那样，普通 LLM 看似在进行逻辑推理，其实它并不是按照规则一步步思考，而只是在运用从海量训练数据中学到的文字规律。

不过，ChatGPT 4o 能答对这个问题，恰恰说明了一个重要现象：当模型经过超大规模训练后，它的这种「隐性规律匹配」能力可以变得非常强大。但这种基于统计规律的模式也存在明显短板，比如遇到以下情况时就容易出错：

遇到全新题型（训练数据里完全没见过的逻辑问题）→ 就像让一个只会刷题的学生突然碰到从没见过的考题；
问题太复杂（需要环环相扣的多步推理）→ 类似让计算器解一道需要写证明过程的数学大题；
需要严格逻辑推导（但训练数据中没有类似案例）→ 好比让背过范文的学生现场创作全新体裁的文章。

既然规则系统这么靠谱，为什么现在不流行了？其实在 80、90 年代，基于规则的系统确实很火，像医疗诊断、法律判决、工程设计这些领域都在用。直到今天，在一些性命攸关的领域（比如医疗、法律、航天），我们还是能看到它们的身影 —— 毕竟这些场合需要清晰的推理过程和可追溯的决策依据。但这种系统有个硬伤：它完全依赖人工编写规则，开发起来特别费劲。相比之下，像 LLM 这样的深度神经网络，只要经过海量数据训练，就能灵活处理各种任务，适用性广多了。

我们可以这样理解：LLM 是通过学习海量数据中的规律来「装」逻辑推理的。虽然它们内部并不运行任何基于规则的逻辑系统，但可以通过一些专门的优化方法（比如增强推理计算能力和后训练策略）来进一步提升这种模拟能力。

值得一提的是，LLM 的推理能力其实是一个渐进发展的过程。早在 o1 和 DeepSeek-R1 这类专业推理模型出现之前，普通 LLM 就已经能展现出类似推理的行为了 —— 比如通过生成中间步骤来得出正确结论。而现在我们所说的「推理模型」，本质上就是把这种能力进一步强化和优化的结果，主要通过两种方式实现：1. 采用特殊的推断计算扩展技术，2. 进行针对性的后训练。

本书后续内容将重点介绍这些提升大语言模型解决复杂问题能力的进阶方法，帮助你更深入地理解如何增强大语言模型这种「隐性」的推理能力。

5、提升 LLM 的推理能力

大语言模型的「推理能力」真正进入大众视野，是在 2024 年 9 月 12 日 OpenAI 发布 o1 的时候。在那篇官宣文章里，OpenAI 特别提到

这些新版 AI 不像以前那样秒回，而是会像人类一样先琢磨几秒，确保答案更靠谱。

OpenAI 还特别说明：

这种强化过的思考能力，对解决科学、编程、数学等领域的复杂问题特别有帮助 —— 毕竟这些领域的问题，往往需要多转几个弯才能想明白。

虽然 o1 的具体技术细节没有公开，但普遍认为它是在 GPT-4 等前代模型基础上，通过「增强推断计算能力」来实现更强的思考能力的。

几个月后的 2025 年 1 月，深度求索公司发布了 DeepSeek-R1 模型和技术报告，详细介绍了训练推理模型的方法，引起了巨大轰动。因为：

他们不仅免费开源了一个性能媲美甚至超越 o1 的模型；
还公开了如何开发这类模型的完整方案。

本书将通过从零实现这些方法，带你看懂这些提升 AI 推理能力的技术原理。如图 6 所示，目前增强大语言模型推理能力的方法主要可以分为三大类：

图 6：提升大语言模型推理能力的三大方法。这三大方法（推断计算增强、强化学习和知识蒸馏）通常是在模型完成常规训练后使用的。所谓常规训练包括：基础模型训练、预训练、指令微调和偏好微调。

如图 6 所示，这些增强方法都是用在已经完成上述常规训练阶段的模型上的。

推断时间计算增强

推断时间计算扩展（也叫推断计算增强、测试时增强等）包含一系列在推理阶段（即用户输入提示词时）提升模型推理能力的方法，这些方法无需对底层模型权重进行训练或修改。其核心思想是通过增加计算资源来换取性能提升，借助思维链推理（chain-of-thought reasoning）及多种采样程序等技术，使固定参数的模型展现出更强的推理能力。

强化学习（RL）

强化学习是一类通过最大化奖励信号来提升模型推理能力的训练方法。其奖励机制可分为两类：

广义奖励：如任务完成度或启发式评分
精准可验证奖励：如数学问题正确答案或编程任务通过率

与推断时间计算增强（inference-time compute scaling）不同，RL 通过动态调整模型参数（weights updating）实现能力提升。该机制使模型能够基于环境反馈，通过试错学习不断优化其推理策略。

注：在开发推理模型时，需明确区分此处的纯强化学习（RL）方法与常规大语言模型开发中用于偏好微调的基于人类反馈的强化学习（RLHF）（如图 2 所示）。二者的核心差异在于奖励信号的来源：RLHF 通过人类对模型输出的显式评分或排序生成奖励信号，直接引导模型符合人类偏好行为；纯 RL 则依赖自动化或环境驱动的奖励信号（如数学证明的正确性），其优势在于客观性，但可能降低与人类主观偏好的对齐度。典型场景对比：纯 RL 训练：以数学证明任务为例，系统仅根据证明步骤的正确性提供奖励；RLHF 训练：需人类评估员对不同输出进行偏好排序，以优化符合人类标准（如表述清晰度、逻辑流畅性）的响应。

监督微调与模型蒸馏

模型蒸馏是指将高性能大模型习得的复杂推理模式迁移至更轻量化模型的技术。在 LLM 领域，该技术通常表现为：使用高性能大模型生成的高质量标注指令数据集进行监督微调（Supervised Fine-Tuning, SFT）。这种技术在 LLM 文献中常统称为知识蒸馏（Knowledge Distillation）或蒸馏（Distillation）。

与传统深度学习的区别：经典知识蒸馏中，「学生模型」需同时学习「教师模型」的输出结果和 logits，而 LLM 的蒸馏通常仅基于输出结果进行迁移学习。

注：本场景采用的监督微调（SFT）技术与常规大语言模型开发中的 SFT 类似，其核心差异体现在训练样本由专为推理任务开发的模型生成（而非通用 LLM）。也因此，其训练样本更集中于推理任务，通常包括中间推理步骤。

6、从头构建推理模型的重要性

自 2025 年 1 月 DeepSeek-R1 发布以来，提高 LLM 的推理能力已成为 AI 领域最热门的话题之一。原因也不难理解。更强的推理能力使 LLM 能够解决更复杂的问题，使其更有能力解决用户关心的各种任务。

OpenAI CEO 在 2025 年 2 月 12 日的一份声明也反映了这种转变：

我们接下来将发布 GPT-4.5，即我们在内部称之为 Orion 的模型，这是我们最后一个非思维链模型。在此之后，我们的首要目标是统一 o 系列模型和 GPT 系列模型，方法是打造可以使用我们所有工具、知道何时需要或不需要长时间思考并且可以广泛用于各种任务的系统。

以上引文凸显了领先的 LLM 提供商向推理模型的转变。这里，思维链是指一种提示技术，其能引导语言模型逐步推理以提高其推理能力。

另一点也值得一提，「知道何时需要或不需要长时间思考」也暗示了一个重要的设计考量：推理并不总是必要或可取的。

举个例子，推理模型在设计上就是为了解决复杂任务设计的，如解决难题、高级数学问题和高难度编程任务。然而，对于总结、翻译或基于知识的问答等简单任务来说，推理并不是必需的。事实上，如果将推理模型用于一切任务，则可能效率低下且成本高昂。例如，推理模型通常使用起来成本更高、更冗长，有时由于「过度思考」更容易出错。此外，这里也适用一条简单的规则：针对具体任务使用正确的工具（或 LLM 类型）。

为什么推理模型比非推理模型成本更高？

主要是因为它们往往会产生更长的输出，这是由于中间推理步骤解释了得出答案的方式。如图 7 所示，LLM 一次生成一个 token 的文本。每个新 token 都需要通过模型进行完整的前向传递。因此，如果推理模型产生的答案是非推理模型的两倍长，则需要两倍的生成步骤，从而导致计算成本增加一倍。这也会直接影响 API 使用成本 —— 计费通常基于处理和生成的 token 数量。

图 7：LLM 中的逐个 token 生成。在每一步，LLM 都会获取迄今为止生成的完整序列并预测下一个 token—— 可能代表词、子词或标点符号，具体取决于 token 化器。新生成的 token 会被附加到序列中，并用作下一步的输入。这种迭代解码过程既用于标准语言模型，也用于以推理为中心的模型。

这直接凸显了从头开始实现 LLM 和推理方法的重要性。这是了解它们的工作方式的最佳方式之一。如果我们了解 LLM 和这些推理模型的工作原理，我们就能更好地理解这些权衡。

7、总结

LLM 中的推理涉及使用中间步骤（思维链）来系统地解决多步骤任务。
传统的 LLM 训练分为几个阶段：预训练，模型从大量文本中学习语言模式；指令微调，可改善模型对用户提示词的响应；偏好微调，使模型输出与人类偏好对齐。
LLM 中的模式匹配完全依赖于从数据中学习到的统计关联，这可使得文本生成流畅，但缺乏明确的逻辑推理。
可以通过这些方式来提高 LLM 中的推理能力：推断时间计算扩展，无需重新训练即可增强推理能力（例如，思维链提示）；强化学习，使用奖励信号显式地训练模型；监督微调和蒸馏，使用来自更强大推理模型的示例。
从头开始构建推理模型可以提供有关 LLM 能力、局限性和计算权衡的实用见解。

以上就是 Sebastian Raschka 新书《Reasoning From Scratch》第一章的主要内容，可以说通过一些基础介绍为这本书奠定了一个很好的基调。你对推理模型有什么看法，对这本书有什么期待吗？

转载请联系本公众号获得授权

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-05-02，如有侵权请联系 cloudcommunity@tencent.com 删除

数据