Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >来啦来啦!关于CoT提示策略综述

来啦来啦!关于CoT提示策略综述

作者头像
zenRRan
发布于 2023-10-14 03:30:41
发布于 2023-10-14 03:30:41
1.2K0
举报

深度学习自然语言处理 原创 作者:wkk

思维链(CoT)是一个循序渐进、连贯的推理链,通常被用作大型语言模型(LLM)的提示策略并体现出了巨大的优势。近年来,基于CoT提示的展示出的效果吸引了众多的研究。

然而,对CoT提示的关键因素仍缺乏系统的总结,对提示的使用也缺乏全面的指导。

为了更深入地了解CoT提示,本文对当前的广泛研究进行了调查,对可能影响CoT提示效果的几个因素进行了系统全面的分析,并介绍了在这些讨论下如何更好地将其应用于不同的应用中。通过进一步分析CoT提示面临的挑战,提出了一些未来的发展方向,为相关研究提供总体参考。

论文:Towards Better Chain-of-Thought Prompting Strategies: A Survey 地址:https://browse.arxiv.org/abs/2310.04959

简介

基于人类的自然逐步思维能力的方式,研究人员基于LLM提出了思维链(CoT)提示来解决多步推理问题。这种提示策略试图结合中间步骤来指导LLM进行渐进式推理,并在许多推理基准上实现了令人惊讶的改进,即使在包括跨域在内的一些任务。

CoT 提示确保了逻辑和可跟踪的推理过程,这对于人类理解更具有可解释性。

CoT提示的结果引发了对不同模型上不同任务的CoT提示策略设计的探索热潮。但在设计具体策略之前,有必要系统地了解哪些因素可能影响CoT提示的表现。此外,尽管CoT提示在推理任务中显示出其优势,但它在通用性和不透明机制等方面仍有一些局限性。为了更好地指导进一步的工作,有必要对CoT的当前挑战进行分析。

本文对CoT进行了全面而系统的分析。首先,将CoT提示形式化,下图展示了CoT的通用方法,这构成了分析和讨论的基础。然后,确定了四个显著影响CoT提示性能的关键因素:

  • 任务类型
  • 提示设计
  • 扩展策略
  • 模型

背景知识

LLMs

大型语言模型(LLMs)是指使用大量语料库预先训练的大型转换器架构模型。随着模型大小和训练语料库的增加,它开始出现一些新的能力。近年来,LLM在许多NLP领域取得了显著进展。

提示和上下文学习

提示是一种通过以特定方式修改输入样本来更好地引出语言模型训练阶段获得的知识和能力的策略。上下文学习是一种特殊设计的提示策略,它在查询样本前面加上一些示例演示,包括查询和答案,使模型能够类似地进行预测。上下文学习是一种无需训练的范式,可以在Few-shot场景下显著提高LLM性能和许多NLP基准的数据效率。

LLM推理

推理是一个复杂的过程,包括使用证据、逻辑思维和论证。最近,结合上下文学习策略,LLM在推理任务方面取得了显著进展。特别是在思维链提示的帮助下,神经网络在许多推理基准上取得了前所未有的突破。一些工作表明,当语言模型处于一定规模时,推理能力可能会出现。

什么是CoT

定义:CoT提示是专门设计的输入序列,用于指示模型生成连贯的一系列中间推理步骤

其中,“中间推理步骤”指的是不同工作的差异。本文的研究范围是对当今多步任务的提示工作更普遍的覆盖,范围从常见的逐步推理到多步任务部署,涵盖了各种非编程问题划分过程,包括子问题分解和多步部署。

CoT提示是一种利用CoT提示的策略,其工作原理为: 如上图所示,给定一个特定任务,并设计特定的CoT prompt。在可选扩展策略的帮助下,模型根据输入提示预测答案。其中taskpromptsextension strategiesmodels是CoT的关键因素,对最终性能有重大影响。下图展示了各种CoT提示策略的分类。

任务类型

任务是使用CoT提示时的目标。在设计CoT提示策略之前,有必要澄清哪些类型的任务容易受到CoT提示的推动。

闭域推理与问答

此类型的任务包括问题中的所有必要条件和背景知识。模型需要选择信息丰富的材料并对这些材料进行推理。CoT提示可以提供一种推理模式来指导如何选择关键材料并对其进行推理。

开放域推理和问答

这类任务旨在回答基于大规模非结构化知识库的问题,并且不包括问题中所有必要的知识。在这种情况下,LLM被迫使用自己的知识来解决问题,并且CoT提示的性能在很大程度上取决于LLM的知识质量。有些任务甚至需要对自然语言的语义有更深入的理解。不恰当地将CoT提示引入这些知识或面向语义的任务甚至可能损害性能。为了解决这些问题,一些工作使用外部工具来注入所需的知识。

代码生成

代码生成旨在根据输入指令生成代码。由于代码的内部逻辑形式,CoT的逐步推理链与代码生成所需的能力是一致的。

prompts设计

当任务确定后,有必要设计一个有效的CoT提示。除了查询之外,CoT提示中还有两个特殊元素:CoT示例和文本指令。CoT示例是几个逐步推理的范例,文本指令是主动指导渐进式解决过程的文本序列。CoT提示应该至少包含其中一个元素。通常,带有(或不带有)示例的CoT提示称为few-shot CoT(或zero-shot CoT)。下图展示了几个CoT提示示例。

示例

在Few-shot的CoT中,示例是必不可少的部分。如上图所示,CoT示例是一个(问题、理由、答案)三元组,其中理由包含从问题到答案的中间推理步骤。

文本说明

LLM显示出即使在Zero-shot情况下也能遵循明确指令的能力。受此启发,一些工作发现,用“让我们一步一步地思考”这样的主动理论指令明确提示LLM可以指导渐进推理。在没有任何示例的情况下,与非CoT方法相比,这种简单的Zero-shot策略展示出出色效果,这意味着这些文本指令可以类似地引发LLM的推理能力。一些工作还发现,将这些文本指令与Few-shot CoT相结合可以实现进一步的性能提升。

扩展策略

给定一个 CoT 提示,有许多可能的扩展策略来增强提示性能。

集成

集成学习是一种有效的策略,它结合了不同的学习器,与单个学习器相比提高了模型性能。最近的工作在 CoT 提示上使用集成策略时取得了更好的性能,这有助于纠正单个推理过程产生的错误,并将不同的提示和演示集成到单个预测中。然而,对于 vanilla CoT 已经有效解决的问题,不必要的集成可能会向自信的预测注入噪声,而是会损害模型性能。

子问题划分

当面对问题需要递归推断或比示例更难时,将问题划分为几个子问题可能是一个更好的选择。

与普通 CoT 相比,子问题划分策略将复杂问题分解为一系列简单的子问题,更容易解决,使模型能够完成比示例更难的查询问题。此外,在处理每个子问题时,模型不受与当前子问题无关的信息,更多信息信息容易指导有效的推理。此外,不同子问题所需的能力是不同的。这种策略使得部署具有不同模块的每个子问题并注入外部辅助更加方便。

外部辅助

为了扩展LLM的能力并帮助LLM在更广泛的应用程序中执行,在推理过程中引入外部来源(包括知识、工具或代码解释器)是很有用的。知识注入在需要外部知识的任务中尤其有用,如常识性QA。工具和代码辅助策略在需要精确数值计算或搜索引擎等LLM能力之外的能力的问题上表现出优势。通过适当的提示,LLM可以生成任务部署链,以指示何时何地调用外部工具、代码解释器甚至其他模型,以解决更复杂的问题。

合理化

通常,LLM预测的基本原理会犯一些错误并导致错误的答案。如果这些错误可以被纠正,就有可能合理化推理过程并提高性能。人工合理化是有效的,但成本太高。

一个简单的方法是使用一些提示来引导模型重新思考。当模型产生错误的答案时,可以告诉模型正确的答案,并要求它自我修正不合逻辑的推理,并在答案的基础上重新生成基本原理。这个过程可以被视为一个自学习过程,模型可以在监督答案的情况下逐步提高推理能力。然而,仍然很难将不完美的理由合理化,从而得出正确的答案。

模型

LLM作为解决问题的主要角色,对最终预测有着显著的影响。本文从模型大小和训练语料库两个方面进行讨论,从而分析哪些类型的模型在CoT提示下更有效。

模型大小

许多研究发现,模型相对较小(通常低于 10 亿参数),CoT 不会保持积极影响。但是随着模型大小增加到一定大小(超过 10 亿参数),它将表现出突然的性能中断。这意味着 CoT 是 LLM 的涌现能力。使用 CoT 提示小型模型通常会导致幻觉,这通常表现为流畅但不合逻辑的生成。

但通过CoT增强小模型推理能力仍然是可能的。一些工作用自建的CoT数据集或知识提炼对小模型进行了微调,使小模型兼容,即使在很Few-shot的场景下也能执行逐步推理。然而,除了CoT调整后的逐步推理之外,小模型会忘记其他任务的一般能力,并且在需要大量知识进行推理的任务上仍然落后于大模型。

训练语料库

LLM表现出的能力来源于训练语料库。一些工作发现,当使用CoT提示时,用代码预训练的模型可以获得更多的性能增益。指令调整还显示出与CoT提示和Zero-shot学习表现的相关性,这可以通过指令调整的训练语料库中CoT样样本的存在来说明。最近的工作甚至试图将CoT样本明确地纳入训练语料库,以增强逐步推理能力,避免过度拟合单调的样本模板。

总之,将上述内容纳入训练语料库可以为LLM引入更多的推理材料和必要的知识,从而对CoT推理能力产生深远影响。

未来工作

本文探讨了CoT未来的工作可以从FaithfulnessGeneralitySelf-rationalizationRationale AnalysisTheoretical Analysis等方面展开。

总结

本文回顾了思想链提示的研究现状。强调了可能影响CoT提示性能的四个因素,并介绍了基于这些因素的方法。给出了在面对不同环境时正确利用CoT提示的总体方向。此外,还讨论了当前CoT提示方面的挑战,并提出了一些潜在的方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
在 2017-2019 年之间,随着 Transformer 模型的提出,计算资源与大规模语料库不断出现,自然语言处理领域发生了翻天覆地的变化,传统的全监督学习的范式逐渐达到了瓶颈,很难在传统的训练方式上取得大幅度提升。这时大规模预训练模型的如 Bert、RoBERTa 等模型的出现使得研究方向转向了以预训练模型为基础 + 下游任务 Fine-tune 的范式。
汀丶人工智能
2023/07/20
3.1K0
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
EMNLP2023 | 基于显式证据推理的few-shot关系抽取CoT
Few-shot关系提取涉及使用有限数量的注释样本识别文本中两个特定实体之间的关系类型。通过应用元学习和神经图技术,已经出现了对这个问题的各种解决方案,这些技术通常需要训练过程进行调整。
zenRRan
2023/11/17
1K0
EMNLP2023 | 基于显式证据推理的few-shot关系抽取CoT
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
Chain-of-Thought(CoT)是一种改进的Prompt技术,目的在于提升大模型LLMs在复杂推理任务上的表现,如算术推理(arithmetic reasoning)、常识推理(commonsense reasoning)、符号推理(symbolic reasoning)。
汀丶人工智能
2024/06/15
8990
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
解读提示工程(Prompt Engineering)
提示工程(Prompt Engineering),也称为上下文提示,是一种通过不更新模型的权重/参数来引导LLM行为朝着特定结果的方法。这是与AI有效交流所需结果的过程。提示工程可以用于各种任务,从回答问题到算术推理乃至各种应用领域,理解提示工程,能够帮助我们了解LLM的限制和能力。
半吊子全栈工匠
2023/10/23
9K0
解读提示工程(Prompt Engineering)
Agent 应用于提示工程
如果Agent模仿了人类在现实世界中的操作方式,那么,能否应用于提示工程即Prompt Engingeering 呢?
半吊子全栈工匠
2023/10/30
5220
Agent 应用于提示工程
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.3K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
LLM 效果不好?可能是 Prompt 写错了!Prompt Engineering 技术的最全综述
生成式人工智能(GenAI)系统,特别是基于Transformer架构的大型语言模型(LLM),正在迅速崛起并被广泛应用于各个行业和研究领域。这些模型能够通过文本、图像、音频或视频等多种形式的“提示”(prompt)进行交互,并根据提示生成相应的文本、图像、音频或视频输出。 LLM 从撰写营销邮件到解决数学问题,其应用范围不断拓展。 但是,想要有效地利用LLM需要掌握提示工程(prompt engineering)技术,即设计和优化提示以获得最佳结果。 这门新兴领域正快速发展,新的提示技术层出不穷,但同时也面临着术语混乱和缺乏系统性理解等挑战。
Lion 莱恩呀
2025/04/04
6840
LLM 效果不好?可能是 Prompt 写错了!Prompt Engineering 技术的最全综述
大模型思维链经典论文阅读之——Zero-shot CoT, Manual CoT, AutoCoT
ChatGPT 以及 GPT4 作为纯自回归式语言模型,本不应该期待其有什么推理能力,尤其是数学推理,但是他们在基础的推理任务上却十分让我们惊艳(当然肯定不能作为专业的数学解题工具),这让我们非常好奇大模型(LLM)这么多参数里面到底藏了些什么好东西,怎么去激发大模型的潜能给我们带来更多惊喜。
beyondGuo
2023/09/01
3.2K0
大模型思维链经典论文阅读之——Zero-shot CoT, Manual CoT, AutoCoT
Auto-CoT:自动构建大模型的思维链提示
论文题目:AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS
AI研思录
2025/02/20
2220
Auto-CoT:自动构建大模型的思维链提示
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.4K0
【论文解读】多模态大模型综述
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(下)
在预训练之后,LLMs可以获得解决各种任务的通用能力。然而,越来越多的研究表明,LLMs的能力可以根据特定目标进行进一步的适应调整。在本节中,我们介绍了两种主要的适应预训练LLMs的方法,即指令调整和对齐调整。前一种方法主要旨在增强(或解锁)LLMs的能力,而后一种方法旨在将LLMs的行为与人类的价值观或偏好相一致。此外,我们还将讨论快速模型适应的高效调整方法。接下来,我们将详细介绍这三个部分。
jhonye
2023/05/30
1.2K0
大模型Prompt-Tuning技术进阶
近两年来,随之Prompt-Tuning技术的发展,有诸多工作发现,对于超过10亿参数量的模型来说,Prompt-Tuning所带来的增益远远高于标准的Fine-tuning,小样本甚至是零样本的性能也能够极大地被激发出来,得益于这些模型的 参数量足够大 ,训练过程中使用了 足够多的语料 ,同时设计的 预训练任务足够有效 。最为经典的大规模语言模型则是2020年提出的GPT-3,其拥有大约1750亿的参数,且发现只需要设计合适的模板或指令即可以 实现免参数训练的零样本学习 。
@小森
2024/06/06
3850
大模型Prompt-Tuning技术进阶
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
构建词元表:覆盖绝大部分的输入词,并避免词表过大所造成的数据稀疏问题。 BPE 将字节视为合并的基本符号。 算法过程
来杯Sherry
2023/09/26
6140
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
随着大型语言模型(LLM)的快速发展,LLM和教育领域的结合变得越来越切。但是,目前还没有一个专门为中国K-12教育领域设计的LLM评估基准。为了准确评估各种LLM在中国K-12教育领域的表现,我们推出了E-EVAL。E-EVAL包括4351道选择题,涵盖了小学、初中和高中阶段,如图 1 所示,涵盖了23个学科,包括小学语文、数学、英语、科学、思想品德,以及初中和高中阶段的各种学科。我们进一步将问题分为两类:文科和理科,理科包括数学、物理、化学等,文科包括语文、英语、历史等。通常来说,理科的难度要高于文科。
zenRRan
2024/02/22
3080
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
在增强大语言模型(LLM)的推理能力方面,先前的研究主要集中在特定的Prompt技术上,例如少样本(Few-shot)或零样本(Zero-shot)思维链(CoT)提示。这些方法虽然有效,但通常涉及手工密集型Prompt工程。
ShuYini
2024/02/22
6750
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
介绍提示学习、连续提示、离散提示
2021 年,提示学习(Prompt Learning)的研究浪潮兴起。而早在 2020 年,OpenAI 在 NeurIPS 2020 发表的一篇论文 Language Models are Few-Shot Learners 中就已经探讨了如何利用提示学习来提升大语言模型(Large Language Models,LLMs)的推理能力。论文中介绍了 Zero-shot、One-shot、Few-shot 三种不同的提示方法,如下图示意。
叶庭云
2024/05/25
6880
介绍提示学习、连续提示、离散提示
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
最近,来自马里兰大学、OpenAI、斯坦福、微软等12所机构的30多名研究者,首次对LLM的提示技术进行了大规模的系统研究,并发布了一份长达75页的详尽报告。
新智元
2024/06/17
1060
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
解锁大语言模型潜力:4种提示工程技术解析,带你玩转 AI
最近,一种新的职位“提示工程师”在科技媒体上引起了轰动,并登上了顶级人工智能公司的职业需求页面,伴随着令人乍舌的高薪。但到底什么是提示工程呢?这个术语其实是在过去几年里才刚被创造出来的,指的是促使大型语言模型(LLM)取得更好结果的艺术和科学。
深度学习与Python
2024/02/29
2830
解锁大语言模型潜力:4种提示工程技术解析,带你玩转 AI
突破边界:高性能计算引领LLM驶向通用人工智能AGI的创新纪元
ChatGPT的成功带动整个AIGC产业的发展,尤其是LLM(大型语言模型,大语言模型)、NLP、高性能计算和深度学习等领域。LLM的发展将为全球和中国AI芯片、AI服务器市场的增长提供强劲动力,据估算,LLM将为全球和中国AI服务器带来约891.2亿美元和338.2亿美元的市场空间。
液冷服务器
2023/06/25
3310
突破边界:高性能计算引领LLM驶向通用人工智能AGI的创新纪元
迈向System 2推理,100页论文硬核讲述Meta-CoT
「我们有一份关于『推理时间计算』的新研究,以及我们过去几个月一直在研究的内容!我们提出了一些理论,说明为什么它是必要的,它是如何工作的,我们为什么需要它,以及它对超级智能意味着什么。」
机器之心
2025/02/03
1160
迈向System 2推理,100页论文硬核讲述Meta-CoT
推荐阅读
相关推荐
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档