首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeekMath-V2:迈向可自我验证的数学推理(论文全文中文翻译)

DeepSeekMath-V2:迈向可自我验证的数学推理(论文全文中文翻译)

原创
作者头像
走向未来
发布2025-12-05 23:02:48
发布2025-12-05 23:02:48
940
举报

DeepSeekMath-V2:迈向可自我验证的数学推理

Zhihong Shao, Yuxiang Luo, Chengda Lu*, Z.Z. Ren*

Jiewen Hu, Tian Ye, Zhibin Gou, Shirong Ma, Xiaokang Zhang

DeepSeek-AI

zhihongshao@deepseek.com

https://github.com/deepseek-ai/DeepSeek-Math-V2

本文由“走向未来”翻译,本文的PDF版本,原始英文版论文、解读文章和PPT都已收录到“走向未来”【https://t.zsxq.com/xpWzq】知识星球中,推荐这个极具价值知识星球“走向未来”,获取生成式人工智能、大模型、AIGC、AI芯片和机器人等的产品、技术和应用实践的资料。 

摘要

大语言模型(LLM)在数学推理方面取得了显著进展,这不仅是人工智能的重要试验场,如果进一步发展,还可能对科学研究产生深远影响。通过利用奖励正确最终答案的强化学习(RL)来扩展推理能力,LLM 在短短一年内从表现不佳发展到在 AIME 和 HMMT 等定量推理竞赛中达到饱和。然而,这种方法面临着根本性的局限。追求更高的最终答案准确率并不能解决一个关键问题:正确的答案并不保证正确的推理。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而非数值答案,这使得基于最终答案的奖励不再适用。为了突破深度推理的极限,我们认为必须验证数学推理的全面性和严谨性。自我验证(Self-verification)对于扩展测试时计算(test-time compute)尤为重要,特别是对于没有已知解的开放性问题。为了实现可自我验证的数学推理,我们研究了如何训练一个准确且忠实的基于 LLM 的定理证明验证器。随后,我们使用该验证器作为奖励模型来训练一个证明生成器,并激励生成器在最终定稿前尽可能多地识别并解决自身证明中的问题。为了在生成器变强时保持“生成-验证差距”(generation-verification gap),我们提出扩展验证计算量,自动标注那些难以验证的新证明,从而创建训练数据以进一步改进验证器。我们最终的模型 DeepSeekMath-V2 展示了强大的定理证明能力,在扩展测试时计算的情况下,在 IMO 2025 和 CMO 2024 中达到了金牌水平,并在 Putnam 2024 中获得了接近满分的 118/120分。虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学 AI 系统。

1. 引言

数学推理中传统的强化学习(RL)方法涉及根据大语言模型(LLM)对定量推理问题的预测答案是否与真实答案(ground-truth)匹配来奖励模型(Guo et al., 2025)。这种方法足以让前沿 LLM 在主要评估最终答案的数学竞赛(如 AIME 和 HMMT)中达到饱和。然而,这种奖励机制有两个根本性的局限性。首先,它是推理正确性的一个不可靠代理——模型可能通过错误的逻辑或幸运的误差得到正确的答案。其次,它不适用于定理证明任务,因为这类问题可能不需要产生数值最终答案,而严谨的推导才是主要目标。

因此,在定量推理问题上训练的 LLM,即使使用了最终答案奖励,仍然经常生成数学上无效或逻辑不一致的自然语言证明。此外,这种训练方法并没有自然地培养模型验证证明有效性的能力——它们表现出很高的假阳性率,经常在证明包含明显逻辑缺陷时仍声称其有效。

自然语言定理证明中缺乏“生成-验证差距”阻碍了进一步的改进。为了解决这个问题,我们提出在 LLM 中开发证明验证能力。我们的方法基于几个关键观察:

  • 即使没有参考解答,人类也能识别证明中的问题——这是解决开放性问题时的一项关键能力。
  • 如果在扩展了验证工作量后仍未发现问题,那么证明更可能是有效的。
  • 识别有效问题所需的努力可以作为证明质量的代理,这可以被利用来优化证明生成。

我们相信 LLM 可以被训练来在没有参考解答的情况下识别证明问题。这样的验证器将开启一个迭代改进的循环:(1)利用验证反馈优化证明生成;(2)扩展验证计算量以自动标注难以验证的新证明,从而创建数据来改进验证器本身;以及(3)使用增强后的验证器进一步优化证明生成。此外,一个可靠的证明验证器使我们能够教导证明生成器像验证器一样评估证明。这允许证明生成器迭代地改进其证明,直到它无法再识别或解决任何问题。从本质上讲,我们让模型明确意识到其奖励函数,并使其能够通过深思熟虑的推理(deliberate reasoning)而非盲目的试错来最大化该奖励。

基于 DeepSeek-V3.2-Exp-Base(DeepSeek-AI, 2025),我们开发了 DeepSeekMath-V2,这是一个针对自然语言定理证明进行优化的大语言模型,展示了可自我验证的数学推理能力。我们的模型可以评估并迭代改进其自身的证明,在包括 IMO 2025 和 CMO 2024 在内的顶级高中数学竞赛中达到了金牌水平。在 Putnam 2024 本科生竞赛中,它获得了 118/120 分,超过了人类参赛者获得的最高分 901。

2. 方法

2.1. 证明验证 (Proof Verification)

2.1.1. 训练验证器以识别问题并为证明评分

我们制定了用于证明评估的高级评分标准(Rubrics)(见附录 A.2),旨在训练验证器根据这些标准评估证明,模仿数学专家的评估过程。具体而言,给定问题 X和证明 Y,验证器 被设计为生成一份证明分析,该分析首先总结识别出的问题(如果有),然后基于三个等级进行评分:1 分表示完整且严谨的证明,所有逻辑步骤都有清晰的论证;0.5 分表示整体逻辑合理但存在细微错误或遗漏细节的证明;0 分表示存在致命逻辑错误或关键缺失的根本性缺陷证明。

构建冷启动 RL 数据 我们通过以下过程构建了初始训练数据:

  1. 我们从 Art of Problem Solving (AoPS) 竞赛网站抓取问题2,优先选择数学奥林匹克、国家队选拔赛以及 2010 年以后明确要求证明的问题,共计 17,503 个问题。该问题集记为 。
  2. 我们使用 DeepSeek-V3.2-Exp-Thinking 的一个变体生成候选证明。由于该模型未针对定理证明进行优化,倾向于生成简洁但容易出错的输出,我们提示它在多轮中迭代改进其证明,以提高全面性和严谨性。
  3. 我们在不同问题类型(如代数和数论)中随机抽取证明,并让数学专家根据上述评估标准对每个证明进行评分。

该过程产生了一个初始 RL 数据集 ,其中每项包含一个问题、一个证明 和一个整体证明分数 。

RL 目标 基于 DeepSeek-V3.2-Exp-SFT 的一个版本(该版本已在与数学和代码相关的推理数据上进行了监督微调),我们使用强化学习训练模型生成证明分析,使用两个奖励组件:

  • 格式奖励 (Format reward) :一个指示函数,强制模型通过检查最终回复是否包含关键短语 "Here is my evaluation of the solution:"(这是我对解答的评估:)以及在 "Based on my evaluation, the final overall score should be:"(基于我的评估,最终总分应为:)之后包含一个在 \boxed{} 中的分数,来生成识别问题的总结和证明分数。
  • 分数奖励 (Score reward) :基于预测分数与标注分数 之间的接近程度进行奖励:

训练验证器的 RL 目标是:

其中 表示验证器的最终回复, 是从中提取的证明分数。

2.1.2. 引入元验证 (Meta-Verification) 以审查证明分析

第 2.1.1 节描述的方法通过 RL 训练证明验证,使预测的证明分数与专家标注一致,但并未对识别出的问题本身提供直接监督。这造成了一个关键的漏洞:在训练期间评估有缺陷的证明()时,验证器可能通过预测正确的分数同时“幻想”(hallucinating)出不存在的问题来获得满额奖励,这破坏了其可信度。

为了解决这个问题,我们引入了元验证(Meta-verification):这是一个二级评估过程,用于评估验证器识别出的问题是否确实存在,以及根据评估标准 ,这些问题是否在逻辑上证明了预测的证明分数是合理的。完整的元验证评分标准 详见附录 A.3。

我们使用 RL 训练了一个专门的元验证器来执行此评估。通过将元验证器的反馈纳入验证器训练,我们可以提高验证器问题识别的忠实度(faithfulness)。

元验证器训练过程

  1. 我们按照第 2.1.1 节获得了初始验证器 。
  2. 数学专家根据对验证器回复的质量进行评分,创建数据集 ,其中 是对证明 的分析,是专家标注的质量分数。
  3. 我们训练了一个元验证器 来分析验证器的证明分析 V。元验证器生成一个关于在分析本身中发现的问题的总结,随后是一个衡量验证器分析准确性和合理性的质量分数。RL 目标与验证器训练结构相同,包含格式和分数奖励。

使用训练好的元验证器 ,我们通过将元验证反馈整合到奖励函数中来增强验证器训练:

其中 是来自元验证器的质量分数。

我们在验证数据集 和元验证数据集 上训练增强型验证器,在上使用与训练元验证器相同的奖励机制。最终模型可以同时执行证明验证和元验证任务。

在 的验证集上,验证器证明分析的平均质量分数——由元验证器评估——从 0.85 提高到了 0.96,同时保持了证明分数预测的准确性。

2.2. 证明生成 (Proof Generation)

2.2.1. 训练生成器进行定理证明

以验证器 作为生成式奖励模型,我们使用 RL 目标训练证明生成器 :

其中 是由 产生的证明分数。

2.2.2. 通过自我验证增强推理

当证明生成器无法一次性生成完全正确的证明时——这对于 IMO 和 CMO 等竞赛中的挑战性问题很常见——迭代验证和改进可以改善结果。这涉及使用外部验证器分析证明,并提示生成器解决识别出的问题。

然而,我们观察到一个关键限制:当提示生成器一次性生成并分析其自身的证明时,生成器倾向于声称正确性,即使外部验证器很容易发现缺陷。换句话说,虽然生成器可以根据外部反馈改进证明,但它无法像专用验证器那样严谨地评估自己的工作。

这一观察促使我们将真正的验证能力赋予证明生成器。在训练期间,我们提示生成器 生成一个证明 Y,随后是一个遵循与验证器相同格式和标准 的自我分析 Z(见附录 A.1)。我们将自我分析中预测的证明分数记为。

为了确保忠实的自我评估,我们使用验证器 来评估这两个组件:证明 Y 获得分数 ,自我分析 Z 获得元验证分数。奖励函数结合了这些评估:

其中 验证证明和自我分析是否都遵循指定格式, 奖励准确的自我评估。我们设定 𝛼 =0.76和 𝛽=0.24。这种奖励结构创造了以下激励:

  • 忠实地承认错误比虚假地声称正确获得更多奖励。
  • 最高奖励来自于生成正确的证明并准确识别其严谨性。
  • 证明生成器获得高回报的一个好策略是在最终确定回复之前识别并解决尽可能多的问题。

2.3. 证明验证与生成的协同作用

证明验证器和生成器创造了一个协同循环:验证器改进生成器,而随着生成器改进,它会产生挑战验证器当前能力的新证明。这些具有挑战性的案例——验证器可能无法一次性识别出问题的案例——成为增强验证器本身的宝贵训练数据。

为了重新训练和改进验证器,我们需要新生成证明的已标注正确性数据。人工标注虽然直接,但随着问题变得更难且错误变得更微妙,变得越来越耗时。为了提高标注效率,我们为每个证明生成多个验证器分析,以呈现潜在问题供人工审查。

从这个 AI 辅助标注过程中,我们认识到两个事实,使得进一步提高自动化水平成为可能:

  1. 扩增验证器样本会增加在有缺陷的证明中捕捉到真实问题的概率。
  2. 审查验证器识别出的问题正是元验证,这比从头开始识别问题要容易。元验证对于 LLM 来说也具有更高的样本效率。

基于这些观察,我们开发了以下自动化标注流程:

  1. 对于每个证明,生成 n 个独立的验证分析。
  2. 对于报告问题(分数 0 或 0.5)的分析,生成 m 个元验证评估以验证识别出的问题。如果大多数元评估确认其发现,则该分析被视为有效。
  3. 对于每个证明,我们检查分配最低分数的分析。如果至少有 k 个此类分析被视为有效,则该证明被标注为该最低分数。如果在所有验证尝试中均未识别出合理问题,则该证明被标注为 1。否则,该证明被丢弃或转交给人类专家进行标注。

在我们最后两次训练迭代中,这个全自动流程完全取代了人工标注。质量检查证实,自动标注与专家判断高度一致。

3. 实验

3.1. 训练设置

我们采用群体相对策略优化 (Group Relative Policy Optimization, GRPO) (Shao et al., 2024) 进行强化学习,如第 2 节所述,迭代优化证明验证和生成能力。在每次迭代中,我们首先优化证明验证。然后从验证器检查点初始化证明生成器,并针对证明生成进行优化。从第二次迭代开始,证明验证器使用一个检查点进行初始化,该检查点通过拒绝微调 (rejection fine-tuning) 整合了上一轮迭代的验证和生成能力。

3.2. 评估基准

我们在以下定理证明基准上评估我们最终的证明生成器:

内部 CNML 级问题:91 个定理证明问题,涵盖代数 (13)、几何 (24)、数论 (19)、组合 (24) 和不等式 (11),难度与中国高中数学联赛 (CNML) 的问题相当。

竞赛问题

  • IMO 2025 (6 题):国际数学奥林匹克,大学预科学生的首要全球数学竞赛。
  • CMO 2024 (6 题):中国数学奥林匹克,中国的国家级锦标赛。
  • Putnam 2024 (12 题):威廉·洛厄尔·普特南竞赛,北美著名的本科生数学竞赛。
  • ISL 2024 (31 题):IMO 预选题 (Shortlist),由参与国提出并由选题委员会考虑可能纳入 IMO 2024 的问题集。
  • IMO-ProofBench (60 题):由 DeepMind 的 Deep Think IMO-Gold 团队开发 (Luong and Lockhart, 2025),此基准 (Luong et al., 2025) 分为基础集(30 题,Pre-IMO 到 IMO-Medium 难度)和进阶集(30 题,模拟完整 IMO 考试的挑战性问题,高达 IMO-Hard 级别)。

3.3. 评估结果

3.3.1. 单次生成 (One-Shot Generation)

我们首先评估模型在不进行迭代改进的情况下生成正确证明的能力。在内部问题上,我们为每个评估模型每个问题生成 8 个证明样本。证明正确性通过我们最终验证器生成的 8 个验证分析的多数投票来衡量。如图 1 所示,在 CNML 级问题的所有类别——代数、几何、数论、组合和不等式——中,DeepSeekMath-V2 始终优于 GPT-5-Thinking-High (OpenAI, 2025) 和 Gemini 2.5-Pro (DeepMind, 2025),展示了跨领域的卓越定理证明能力。

(图 1 : 在CNML级别的平均证明分数,按照类别和模型分组)

3.3.2. 基于自我验证的顺序改进 (Sequential Refinement)

对于来自 IMO 和 CMO 等竞赛的挑战性问题,模型通常无法在 128K token 限制内一次性生成全面且严谨的证明。当发生这种情况时,我们的证明生成器通过自我验证识别出其证明无效,但缺乏上下文长度来一次性解决所有识别出的问题。

为了探索扩展上下文和自我验证如何提高证明质量,我们评估了基于自我验证的顺序改进。该方法首先生成一个带有自我分析的证明,然后使用其先前的输出迭代地重新提示生成器(见附录 A.4 中的改进提示词),使其能够解决识别出的问题。该过程持续进行,直到生成器给自己打满分或达到最大顺序尝试次数。

图 2 展示了通过顺序改进在 IMO Shortlist 2024 问题上的证明质量提升。对于每个问题,我们启动了 32 个独立的改进线程。证明正确性通过我们最终验证器的 32 个验证分析的多数投票来衡量。我们在图 2 中报告了两个指标:(1) Pass@1——每个线程最终证明的平均分数,以及 (2) Best@32——每个问题中自我评分最高的证明的分数,该证明是根据所有线程的自我评分选出的。自我选择的最佳证明获得了比线程平均水平高得多的验证分数,证明了我们的生成器准确评估证明质量的能力。此外,随着最大顺序尝试次数的增加,Pass@1 大幅提高,表明自我验证有效地指导了迭代改进。这些结果证实,我们的生成器可以可靠地区分高质量证明和有缺陷的证明,并利用这种自我意识系统地提高其数学推理能力。

(图 2 :随着最大顺序迭代次数从 1 增加到 8)

3.3.3. 高计算量搜索 (High-Compute Search)

为了解决最具挑战性的问题,我们扩展了验证和生成计算量——使用广泛的验证来识别细微问题,并使用并行生成来探索多样化的证明策略。

我们的方法为每个问题维护一个候选证明池,初始化为 64 个证明样本,并为每个样本生成 64 个验证分析。在每次改进迭代中,我们根据平均验证分数选择 64 个得分最高的证明,并将每个证明与 8 个随机选择的分析配对,优先选择那些识别出问题(分数 0 或 0.5)的分析。每个“证明-分析”对用于生成一个改进的证明,然后更新候选池。此过程持续最多 16 次迭代,或者直到一个证明成功通过所有 64 次验证尝试,表明对正确性的高度置信。所有实验都使用了单一模型,即我们最终的证明生成器,它同时执行证明生成和验证。

(图 3: IMO-ProofBench 上的专家评估结果)

为了验证我们的结果,数学专家评估了得分最高的证明。如表 1 所示,我们的方法解决了 IMO 2025 的 6 个问题中的 5 个,以及 CMO 2024 的 4 个问题加上另一个问题的部分得分,在这两个顶尖高中竞赛中均达到了金牌水平。在普特南 2024(Putnam 2024)这一著名的本科数学竞赛中,我们的模型完全解决了 12 个问题中的 11 个,剩下的一个问题仅有轻微错误,得分为 118/120,超过了人类最高分 90。图 3 显示了在 IMO-ProofBench 上的结果。我们的方法在基础集上优于 DeepMind 的 Deep Think (IMO Gold),在进阶集上保持竞争力,同时大幅优于所有其他基线。我们观察到,最难的 IMO 级别问题对我们的模型来说仍然具有挑战性。

(表1:灰色背景为完全解决的问题,下划线为获得部分分的问题)

  • IMO 2025: 解决 P1, P2, P3, P4, P5 (83.3%)
  • CMO 2024: 解决 P1, P2, P4, P5, P6 (73.8%)
  • Putnam 2024: 解决 A1-B4, B5, B6 (98.3%)

值得注意的是,对于未完全解决的问题,我们的生成器通常能在其证明中识别出真正的问题,而完全解决的问题则通过了所有 64 次验证尝试。这表明我们可以成功训练基于 LLM 的验证器来评估以前被认为难以自动验证的证明。通过在验证器指导下扩展测试时计算,我们的模型解决了人类参赛者需要数小时努力才能解决的问题。

4. 相关工作

推理模型 (OpenAI, 2024; Guo et al., 2025) 在一年内使 AIME 和 HMMT 等定量推理基准达到饱和。这种快速进步部分归因于定义明确的评估标准:如果我们只关心最终答案,那么定量推理很容易验证。然而,这种最终答案指标不适用于定理证明,因为定理证明通常不需要数值答案,而是要求严谨的逐步推导。

非形式化数学证明(Informal mathematical proofs)长期以来被认为难以自动验证,缺乏可靠的方法来评估证明正确性。最近的发展表明这一障碍可能是可以克服的。像 Gemini-2.5 Pro 这样的模型已经展示了一定程度的自我验证能力,可以改进自身的解答以提高质量 (Huang and Yang, 2025)。更重要的是,DeepMind 内部的 Deep Think 变体 (Luong and Lockhart, 2025) 使用纯自然语言推理在 IMO 2025 上达到了金牌水平——这证明了基于 LLM 验证复杂证明是可以实现的。最近的研究开始探索推理模型是否可以在有或没有参考解答的情况下评估证明 (Dekoninck et al., 2025; Luong et al., 2025),显示了有希望的结果。在这项工作中,我们开源了 DeepSeekMath-V2 和我们的训练方法,作为迈向可自我验证数学推理的具体步骤,展示了模型如何学习验证和改进其自身的证明。

像 Lean (de Moura et al., 2015) 和 Isabelle (Paulson, 1994) 这样的证明助手提供了验证证明的可靠方法——证明必须用形式化语言编写,一旦编译通过,正确性即得到保证。AlphaProof (AlphaProof and teams, 2024; Trinh et al., 2024; Chervonyi et al., 2025) 是一个专门用于形式化证明搜索的系统,在 IMO 2024 上达到了银牌水平,但需要密集的计算。虽然利用非形式化推理来指导形式化证明生成已被广泛探索 (Jiang et al., 2023),但最近的推理模型极大地提高了非形式化推理的质量,使这种指导更加有效。像 DeepSeek-Prover-V2 (Ren et al., 2025) 和 Seed-Prover (Chen et al., 2025) 这样的系统现在可以在相同的计算预算内生成更多有效的形式化证明,Seed-Prover 在 IMO 2025 上解决了 6 个问题中的 5 个。值得注意的是,这些结果是在没有专门针对定理证明任务优化非形式化推理组件的情况下取得的。我们相信,推进自然语言定理证明将显著造福形式化推理。我们希望通过利用非形式化洞察力和形式化保证,为建立真正可靠的数学推理系统做出贡献,从而推动数学研究。

5. 结论

我们展示了 DeepSeekMath-V2,这是一个能够生成和验证数学证明的模型。通过训练模型识别自身推理中的问题,并激励它们在最终输出前解决这些问题,我们超越了基于最终答案奖励的局限,迈向了可自我验证的数学推理。我们的迭代训练过程——在提高验证能力和利用这些能力增强生成之间交替进行——创造了一个可持续的循环,其中每个组件都推动另一个组件前进。

我们的关键技术贡献包括:(1) 训练了一个准确且忠实的基于 LLM 的数学证明验证器;(2) 使用元验证大幅减少幻觉问题并确保验证质量;(3) 激励证明生成器通过自我验证最大化证明质量;以及 (4) 扩展验证计算量以自动标注越来越难以验证的证明,从而在无需人工标注的情况下改进验证器。DeepSeekMath-V2 在竞赛数学中展示了强大的性能。通过扩展测试时计算,它在包括 IMO 2025 和 CMO 2024 在内的高中竞赛中获得了金牌分数,并在本科 Putnam 2024 竞赛中获得了近乎完美的分数。这项工作确立了 LLM 可以为复杂推理任务发展出有意义的自我评估能力。虽然仍面临重大挑战,但我们希望这一研究方向有助于实现能够解决研究级数学问题的可自我验证 AI 系统。

参考文献

见英文论文原文

附录 A. 提示词模板 (Prompt Templates)

注:需要英文的参见论文原文

A.1. 证明生成提示词 (Proof Generation Prompt)

你的任务是解决一个给定的问题。该问题可能要求你证明一个陈述,或者要求一个答案。如果需要找到答案,你应该给出答案,并且你的最终解答还应该包含该答案有效性的严谨证明。

你对问题的最终解答应该异常全面且易于理解,并将根据以下评估说明进行评分:

```txt

这是评估解答质量的说明。问题可能要求证明陈述,或要求答案。如果需要找到答案,解答应给出答案,并且还应是对该答案有效性的严谨证明。

请根据以下标准评估解答并评分: - 如果解答完全正确,所有步骤都执行得当且展示清晰,则分数为 1。 - 如果解答总体正确,但省略了一些细节或有轻微错误,则分数为 0.5。 - 如果解答实际上没有解决所要求的问题、包含致命错误或有严重遗漏,则分数为 0。

此外,引用任何论文中的任何内容并不能免除证明该引用的需要。只有当解答也提供了该引用论点的有效证明时,引用才是可以的;否则,如果解答省略了证明或提供的证明不完全正确,解答应根据上述标准评分,绝对不能得 1 分。

```

事实上,你已经具备了自己评价自己解答的能力,所以期望你仔细推理如何解决给定的问题,根据说明评估你的方法,并通过修复识别出的问题来改进你的解答,直到无法再取得进展为止。

在你的最终回复中,你应该给出一个详细的问题解答,随后是你对该解答的评估。 - 为了给出一个好的最终回复,你应该尽最大努力根据上述评估说明在你自己的(部分)解答中定位潜在问题,并尽可能多地修复它们。 - 一个好的最终回复应该忠实地呈现你的进展,包括你能给出的最佳解答,以及对该解答的忠实评估。 - 只有当你未能在你的解答中定位到任何问题时,你才应该给它打 1 分。 - 如果你确实注意到解答中存在一些问题,但尽了最大努力仍未能解决,在最终回复中忠实地呈现这些问题是完全可以的。 - 最差的最终回复是提供一个错误的解答,但撒谎说它是正确的,或者在没有仔细检查错误的情况下声称它是正确的。更好的版本应该忠实地指出解答中的错误。记住!你不能作弊!如果你作弊,我们会知道,并且你会受到惩罚!

你的最终回复应遵循以下格式:

## Solution // 你的最终解答应以这个完全相同的 markdown 标题开始 // 你对问题的最终解答在这里。你应该在最终定稿前,尽最大努力根据上述评估说明优化你的解答质量。

## Self Evaluation // 你对上述解答的评估应以这个完全相同的 markdown 标题开始

Here is my evaluation of the solution: // 你的分析应以这个完全相同的短语开始

// 你的评估在这里。你需要详细呈现解答的关键步骤或你对其正确性存疑的步骤,并明确分析每个步骤:对于正确的步骤,分析其是否准确;对于错误的步骤,解释你最初为何怀疑其正确性以及它们为何确实是正确的(注:此处原文可能意指“对于你怀疑但实际正确的步骤”),或者解释错误的原因以及该错误对解答的影响。你应该忠实地分析你的解答。例如,如果你的最终解答中存在问题,你应该指出来。

Based on my evaluation, the final overall score should be: \\boxed{{...}} // 其中...应为基于评估说明的最终总分(0, 0.5, 或 1,且不能是其他内容)。你应该仅在仔细重新检查上述解答后才得出此分数。

---

这里是你的任务输入:

## Problem

{question}

A.2. 证明验证提示词 (Proof Verification Prompt)

## Instruction 你的任务是评估一个问题解答的质量。该问题可能要求证明一个陈述,或者要求一个答案。如果需要找到答案,解答应给出答案,并且还应是对该答案有效性的严谨证明。 请根据以下标准评估解答并评分: - 如果解答完全正确,所有步骤都执行得当且展示清晰,则分数为 1。 - 如果解答总体正确,但省略了一些细节或有轻微错误,则分数为 0.5。 - 如果解答实际上没有解决所要求的问题、包含致命错误或有严重遗漏,则分数为 0。 - 此外,引用任何论文中的任何内容并不能免除证明该引用的需要。只有当解答也提供了该引用论点的有效证明时,引用才是可以的;否则,如果解答省略了证明或提供的证明不完全正确,解答应根据上述标准评分,绝对不能得 1 分。

请仔细推理并分析下方解答的质量,并在你的最终回复中给出一个详细的解答质量评估,随后是你的评分。因此,你的回复应遵循以下格式:

Here is my evaluation of the solution: // 你的评估在这里。你需要详细呈现解答的关键步骤或你对其正确性存疑的步骤,并明确分析每个步骤:对于正确的步骤,分析其是否准确;对于错误的步骤,解释你最初为何怀疑其正确性以及它们为何确实是正确的(注:同上),或者解释错误的原因以及该错误对解答的影响。

Based on my evaluation, the final overall score should be: \boxed{{...}} // 其中...应为基于上述标准的最终总分(0, 0.5, 或 1,且不能是其他内容)。

这里是你的任务输入: ## Problem {question} ## Solution {proof}

A.3. 元验证提示词 (Meta-Verification Prompt)

你被给定了“问题”、“解答”和“解答评估”,你需要评估这个“解答评估”是否合理。

首先,“解答评估”是生成的,用于评估“解答”的质量,通过提示一个验证器遵循以下规则(这些不是你的规则):

``` 请根据以下标准评估解答并评分: - 如果解答完全正确,所有步骤都执行得当且展示清晰,则分数为 1。 - 如果解答总体正确,但省略了一些细节或有轻微错误,则分数为 0.5。 - 如果解答实际上没有解决所要求的问题、包含致命错误或有严重遗漏,则分数为 0。 此外,引用任何论文中的任何内容并不能免除证明该引用的需要。只有当解答也提供了该引用论点的有效证明时,引用才是可以的;否则,如果解答省略了证明或提供的证明不完全正确,解答应根据上述标准评分,绝对不能得 1 分。 ```

接下来,我将介绍你分析“解答评估”质量的规则:

  1. 你的任务是分析“解答评估”。你不需要解决“问题”,也不需要严格评估“解答”是否准确。你的唯一任务是严格遵循以下规则来评估“解答评估”是否合理。
  2. 你需要从三个方面分析“解答评估”的内容:
    • 步骤复述 (Step Restatement):在“解答评估”中,可能会复述“解答”的某些行为。你需要回到“解答”原文,检查“解答”是否确实有“解答评估”中提到的这些行为。
    • 缺陷分析 (Defect Analysis):“解答评估”可能会指出“解答”中的错误或缺陷。你需要仔细分析提到的错误和缺陷是否确实有效。
    • 表达分析 (Expression Analysis):“解答评估”的表达是否准确。
    • 分数分析 (Score Analysis):“解答评估”给出的最终分数是否与其发现的缺陷相匹配。你需要根据上面给出的评分规则进行分析。
  3. 最重要的部分是缺陷分析:在这部分,你的核心任务是检查“解答评估”中指出的“解答”错误或缺陷是否合理。换句话说,“解答评估”中关于“解答”的任何正面成分,无论是否合理,都不在你的评估范围内。 例如:如果“解答评估”说“解答”中的某个结论是正确的,但实际上这个结论是不正确的,你不需要关心这一点。所有“解答评估”认为正确的部分都不属于你的评估范围。 具体来说:如果“解答评估”认为“解答”完全准确且未发现任何错误或缺陷,那么无论“解答”本身实际上是否准确,即使存在明显错误,你也应认为其错误分析是合理的。 **重要的是**,对于“解答评估”发现的缺陷,你需要同时分析两点:
    • 这个缺陷是否确实存在
    • “解答评估”对这个缺陷的分析是否准确 这两个方面构成了缺陷的分析。
  4. 关于表达分析,如果“解答评估”中存在某些表达错误,即使是细节上的轻微错误,你也需要识别出来。但是,请注意,将“解答”中的不正确步骤识别为正确步骤不构成表达错误。 实际上,表达错误包括但不限于:
    • 如果“解答评估”识别出“解答”中的某些推理步骤不正确,那么它不能进一步表明依赖于这些推理步骤的后续结论是错误的,而只能表明后续结论是“未被严谨证明的”。
    • “解答评估”造成的拼写错误和计算错误。
    • 对“解答”内容的复述不准确。
  5. 最后,你需要要在你的输出中呈现你对“解答评估”的分析,并根据以下规则评价其质量: 首先,如果“解答评估”发现的缺陷中至少有一个不合理的缺陷,那么你只需要做缺陷分析
    • 如果“解答评估”发现的所有缺陷都是不合理的,那么你应该给它评分为 $0$。
    • 如果“解答评估”发现的一些缺陷是合理的,而另一些是不合理的,那么你的评分应该是 $0.5$。

接下来,如果“解答评估”没有指出错误或缺陷,或者评估发现的所有缺陷都是合理的,那么你应该做以下事情:

  • 分析“解答评估”是否存在“表达错误”(表达分析)或者“解答评估”是否根据解答评估规则给出了错误的分数(分数分析)。如果是,你应该给“解答评估”评分为 $0.5$;如果否,你的评分应该是 $1$。

你的输出应遵循以下格式:

Here is my analysis of the "solution evaluation": // 你的分析在这里。 Based on my analysis, I will rate the "solution evaluation" as: \boxed{{...}} // 其中...应为基于上述标准的“解答评估”数值评分(0, 0.5, 或 1,且不能是其他内容)。 ---

这里是你的任务输入:

## Problem {question} ## Solution {proof} ## Solution Evaluation {proof analysis}

A.4. 证明改进提示词 (Proof Refinement Prompt)

{proof_generation_prompt}

## Candidate Solution(s) to Refine 这里有一些解答样本及其正确性评估。你应该通过解决评估中提到的问题,或重新利用解答样本中提到的有希望的想法,或两者兼而有之,来提供一个更好的解答。 {proof} {proof analyses} ## Final Instruction 你的最终回复应遵循上述格式,包括一个 '## Solution' 部分,后跟一个 '## Self Evaluation' 部分。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DeepSeekMath-V2:迈向可自我验证的数学推理
    • 摘要
    • 1. 引言
    • 2. 方法
      • 2.1. 证明验证 (Proof Verification)
      • 2.2. 证明生成 (Proof Generation)
      • 2.3. 证明验证与生成的协同作用
    • 3. 实验
      • 3.1. 训练设置
      • 3.2. 评估基准
      • 3.3. 评估结果
    • 4. 相关工作
    • 5. 结论
    • 参考文献
    • 附录 A. 提示词模板 (Prompt Templates)
      • A.1. 证明生成提示词 (Proof Generation Prompt)
      • A.2. 证明验证提示词 (Proof Verification Prompt)
      • A.3. 元验证提示词 (Meta-Verification Prompt)
      • A.4. 证明改进提示词 (Proof Refinement Prompt)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档