部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >适用于DeepSeek-R1的推理模型应用实践指南

适用于DeepSeek-R1的推理模型应用实践指南

作者头像
AIGC新知
发布2025-02-18 22:27:29
发布2025-02-18 22:27:29
840
举报
文章被收录于专栏:AIGC新知AIGC新知

OpenAI 提供两种类型的模型:推理模型(例如 o1 和 o3-mini)和 GPT 模型(如 GPT-4o)。

DeepSeek-R1(国内使用)在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。【用啥o系列模型,用DeepSeek-R1吧,性价比高】

本指南涵盖:

  • 推理型和非推理型模型之间的区别
  • 何时使用推理模型
  • 如何有效触发推理模型

作为推理模型的最佳实践指南,本篇文章同样适用于DeepSeek-R1,具体使用根据情况而论。

一、推理模型 vs. GPT 模型

OpenAI的 o 系列模型(“规划者”)【推理模型】,使其能够更深入地思考复杂任务,从而在制定战略、规划解决复杂问题的方案以及基于大量模糊信息做出决策方面表现出色。这些模型还能够以高精度和高准确性执行任务,使其成为那些通常需要人类专家的领域(如数学、科学、工程、金融服务和法律服务)的理想选择。

GPT 模型(“工作主力”)【非推理模型】专为简单直接的任务执行而设计。一个应用程序可能会使用 o 系列模型来规划解决问题的策略,然后使用 GPT 模型来执行具体任务,特别是在速度和成本比完美准确性更重要的情况下。

如何选择这两种模型?

思考:什么对你的使用场景最重要?

  • 速度和成本 → GPT 模型运行速度更快且成本更低【非推理模型】
  • 执行明确定义的任务 → GPT 模型擅长处理明确定义的任务【非推理模型】
  • 准确性和可靠性 → o 系列型号是可靠的决策者【推理模型】
  • 复杂问题解决 → o 系列模型处理模糊性和复杂性【推理模型】

大多数智能体工作流将结合使用两种模型——推理模型用于能动性规划和决策,非推理模型用于任务执行。

GPT models pair well with o-series models
GPT models pair well with o-series models

Example:两种模型处理订单详情并结合客户信息,识别订单问题和退货政策,然后将所有这些数据点输入到推理模型中,根据政策做出退货可行性的最终决定。

二、何时使用推理模型

来自客户和 OpenAI 内部的成功使用模式。

1. 处理模糊任务

推理模型特别擅长处理有限信息或分散的信息片段,通过简单的提示,理解用户的意图并处理指令中的空白。事实上,推理模型在进行未经训练的猜测或尝试填补信息空白之前,通常会提出澄清性问题。

推理模型的推理能力使多智能体平台 Matrix 在处理复杂文档时能够生成详尽、格式良好且详细的响应。


o1 使 Matrix 能够通过一个基本提示轻松识别信用协议下受限支付能力范围内的可用篮子。之前的模型无法达到如此性能。与其它模型相比,o1 在处理密集型信用协议的 52%复杂提示时表现更优。

----Hebbia,法律与金融领域的人工智能知识平台公司


2. 大海捞针

在处理大量非结构化信息时,推理模型在理解并提取仅与回答问题相关的最相关信息方面表现出色。


为了分析一家公司的收购,o1 审查了数十份公司文件——如合同和租赁协议——以寻找可能影响交易的棘手条件。该模型的任务是标记关键条款,而在执行过程中,它在脚注中识别到了一个关键的“变更控制权”条款:如果该公司被出售,它必须立即偿还一笔 7500 万美元的贷款。o1 对细节的极度关注使 AI 代理能够支持财务专业人士,识别出攸关任务的关键信息。

— Endex, 人工智能金融情报平台


3. 在大型数据集中发现关系和细微差别

我们发现,推理模型在处理包含数百页密集、非结构化信息的复杂文档方面尤为出色,例如法律合同、财务报表和保险索赔。这些模型特别擅长在文档间寻找关联,并基于数据中隐含的事实做出决策。


税务研究需要综合多个文档以生成有说服力的最终答案。我们用 o1 替换了 GPT-4o,发现 o1 在推理文档之间的相互作用以得出逻辑结论方面表现得更好,而这些结论在任何单一文档中并不明显。因此,通过切换到 o1,我们在端到端性能上实现了 4 倍的提升——令人难以置信。

— Blue J,人工智能平台,用于税务研究


推理模型也擅长处理复杂的政策和规则,并将其应用到当前任务中,以得出合理结论。

财务分析中,分析师经常处理涉及股东权益的复杂情况,并需要理解相关的法律细节。


用一个具有挑战性但常见的问题测试了约 10 个来自不同供应商的模型: fundraising 如何影响现有股东,尤其是在他们行使反稀释权利时?这需要通过 pre-和 post-money 估值进行推理,并处理循环稀释回路——这是顶级财务分析师通常需要花费 20-30 分钟才能解决的问题。我们发现 o1 和 o3-mini 可以完美完成!这些模型甚至生成了一个清晰的计算表,展示了对$100k 股东的影响。

– 蓝焰 AI,人工智能投资管理平台


4. 多步骤智能体规划

推理模型对于代理规划和策略开发至关重要。我们已见证当推理模型作为“规划者”时的成功,它能生成详细、多步骤的问题解决方案,随后根据高智能或低延迟哪个更重要,选择并分配合适的 GPT 模型(“执行者”)来处理每一步。


使用 o1 作为代理基础设施中的规划器,使其在工作流中协调其他模型以完成多步骤任务。 o1 在选择数据类型和将大问题分解为更小的部分方面非常出色,从而使其他模型能够专注于执行。”

----Argon AI,人工智能知识平台,用于制药行业

o1 在 Lindy 中驱动了代理工作流,Lindy 是用于工作的 AI 助手。该模型通过函数调用从日历或电子邮件中提取信息,然后可以自动帮助安排会议、发送电子邮件,并管理日常任务的其他部分。将所有过去存在问题的代理步骤切换到 o1,并观察到代理几乎在一夜之间变得完美无缺!”

---- Lindy.AI,人工智能助手,用于工作


5. 视觉推理

截至今日,o1 是唯一支持视觉能力的推理模型。与 GPT-4o 相比,o1 的独特之处在于它能够处理最具挑战性的视觉内容,例如结构模糊的图表和表格,或是图像质量较差的照片。


我们为数百万在线产品自动执行风险和合规审查,包括奢侈珠宝仿制品、濒危物种和受控物质。GPT-4o 在我们最困难的图像分类任务中达到了 50%的准确率。o1 在我们的管道没有任何修改的情况下,实现了令人印象深刻的 88%准确率。”

---- SafetyKit,人工智能驱动的风险与合规平台


o1 可以从高度详细的建筑图纸中识别出固定装置和材料,从而生成一份全面的材料清单。o1 可以通过在建筑图纸的一页中使用图例,并在没有明确指示的情况下,将其正确应用于另一页,从而在不同图像之间进行类比。

o-series models correctly read architectural drawing details
o-series models correctly read architectural drawing details

6. 代码审查、调试代码和提升代码质量

推理模型在审查和改进大量代码方面特别有效,通常由于模型的高延迟而在后台运行代码审查。

o3-mini 一贯生成高质量、结论性的代码,并且在问题明确界定的情况下,非常频繁地能够找到正确的解决方案,即使面对极具挑战性的编码任务。相比之下,其他模型可能仅适用于小规模、快速的代码迭代,而 o3-mini 则在规划和执行复杂的软件设计系统方面表现出色。

----Windsurf,协作智能体人工智能驱动的集成开发环境,由 Codeium 构建

7. 其他模型响应的评估和基准测试

我们还看到推理模型在基准测试和评估其他模型的响应方面表现出色。数据验证对于确保数据集的质量和可靠性非常重要,尤其是在医疗保健等敏感领域。传统验证方法使用预定义的规则和模式,但像 o1 和 o3-mini 这样的先进模型能够理解上下文并推理数据,从而实现更灵活和智能的验证方法。

许多客户在 Braintrust 平台上使用LLM-as-a-judge 作为评估流程的一部分。一家医疗保健公司可能会使用像 gpt-4o 这样的主力模型来总结患者的问题,然后使用 o1 评估总结的质量。一位 Braintrust 客户发现,使用 4o 时,评估者的 F1 分数为 0.12,而使用 o1 时,分数提升到了 0.74!在这些应用场景中,他们发现 o1 的推理能力在发现完成任务中的细微差别方面,对于最困难和最复杂的评分任务来说,是一个真正的变革者。

---- Braintrust,AI 评估平台

三、如何有效地触发推理模型

如下是一些最佳实践。

开发者消息是新的系统消息:从 o1-2024-12-17 开始,推理模型支持开发者消息而不是系统消息,以符合模型规格说明中描述的指挥链行为。

保持提示简洁直接:模型擅长理解和回应简短明确的指令。

避免使用链式思维提示:由于这些模型内部进行推理,提示它们“逐步思考”或“解释你的推理”是不必要的。

使用分隔符以提高清晰度:使用分隔符,如 Markdown、XML 标签和标题,以明确区分输入的不同部分,帮助模型正确理解各部分信息。

先尝试零样本,如需再尝试少样本:推理模型通常不需要少样本示例即可生成良好结果,因此请先尝试不带示例的提示。如果你对期望输出有更复杂的要求,可以在提示中包含一些输入和期望输出的示例。只需确保示例与提示指令非常一致,因为两者之间的不一致可能会导致不良结果。

提供具体指导:如果你希望明确限制模型的响应方式(例如“提出一个预算在 500 美元以下的解决方案”),请在提示中明确列出这些限制条件。

明确你的最终目标:在你的指令中,尽量给出非常具体的成功响应参数,并鼓励模型持续推理和迭代,直到符合你的成功标准。

Markdown 格式:从 o1-2024-12-17 开始,API 中的推理模型将避免生成包含 Markdown 格式的响应。如果您希望在响应中包含 Markdown 格式,请在开发者消息的第一行包含字符串 Formatting re-enabled 。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档