在人工智能领域,大模型(LLMs)如GPT-4和PaLM 2在文本生成方面展现了强大性能。然而,这些模型在处理复杂推理任务时仍面临挑战。传统的提示方法,如思维链(CoT),虽然在某些情况下有效,但它们通常依赖于预设的推理过程,这可能不适用于所有类型的任务。
为此,Google的研究人员提出了「SELF-DISCOVER框架,可实现自动发现和构建推理结构,以解决各种任务」。该方法显著提高了GPT-4和PaLM 2的性能,相比思维链(CoT),性能提升高达32%。
https://arxiv.org/pdf/2402.03620.pdf
大型语言模型(LLM)的基础是由Transformer组成的,例如:GPT-4、PaLM 2,它们在连贯文本生成、指令遵循方面取得了令人印象深刻的突破。为了提升大模型解决复杂问题的能力,受到人类认知理论的启发,人们提出了各种提示(Prompt)方法。例如,Zero-Shot、Few-Shot思维链(CoT)模仿了人们分步解决问题的方式;基于分解的提示(decomposition-based prompting)技术,灵感来自于人们如何将一个复杂的问题分解为一系列较小的子问题,然后逐一解决这些子问题;回溯提示(step-back prompting)技术灵感来源于人类对相关任务的反思。
但是以上的这些技术作为一个原子推理模块,存在一定的局限性,因为当面对给定任务时都会存在隐含的先验假设。相反,本文作者认为每个任务都有独特的内在结构,这是有效解决推理问题的基础。
基于以上考虑,本文作者提出了一个名为自发现(SELF-DISCOVER)的框架,它允许LLMs自发现并组合原子推理模块,并形成一个明确的推理结构,以便在解码过程中遵循。这种方法的核心是一个自发现过程,其中LLMs从多个原子推理模块(如批判性思维和逐步思考)中选择,并将其组合成一个推理结构。
SELF-DISCOVER框架的核心部分是自发现过程,它允许大型语言模型(LLMs)在没有明确标签的情况下,自主地为特定任务生成推理结构。SELF-DISCOVER框架包含两个主要阶段:自发现特定任务的推理结构、应用推理结构解决问题。如下图所示:
「阶段一:自发现特定任务的推理结构」主要包含三个主要动作:选择(SELECT)、适应(ADAPT)和实施(IMPLEMENT)。如下图所示:
其中:
「阶段二:应用发现推理结构」 完成阶段一之后,模型将拥有一个专门为当前任务定制的推理结构。在解决问题的实例时,模型只需遵循这个结构,逐步填充JSON中的值,直到得出最终答案。
这个过程的关键在于,它允许模型在没有人类干预的情况下,自主地生成适合特定任务的推理结构,这不仅提高了模型的推理能力,而且提高了推理过程的可解释性。通过这种方式,模型能够更有效地处理复杂和多样化的任务。
在实验阶段,作者主要验证SELF-DISCOVER框架如何提升大型语言模型(LLMs)在处理复杂推理任务上的性能。实验选取了25个具有挑战性的任务,覆盖了算法推理、自然语言理解、世界知识和数学等多个领域。
在性能方面,如下图所示,在BigBench-Hard、Thinking for Doing和MATH等复杂推理基准测试中,SELF-DISCOVER显著提高了GPT-4和PaLM 2的性能,与Chain of Thought (CoT)相比,性能提升高达32%。
在计算效率方面,与其他推理密集型方法(如CoT+Self-Consistency)相比,SELF-DISCOVER在保持性能的同时,所需的推理计算量减少了10-40倍。