前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务

OPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务

作者头像
zenRRan
发布于 2023-09-11 06:49:11
发布于 2023-09-11 06:49:11
1.2K0
举报

深度学习自然语言处理 原创 作者:Winnie

前言

Google的最新一项研究提出了OPRO优化方法(Optimization by PROmpting),它利用LLM作为优化器,解决一系列用自然语言描述的任务,包括线性回归、旅行商问题(TSP)问题等。让我们来看看是如何做到的吧!

概要

最近Google的一项研究提出了OPRO优化方法,它利用LLMs作为优化器。与传统的迭代优化技术不同,OPRO采用自然语言技术描述和指引优化任务,通过LLMs的指导,结合先前找到的解决方案,不断生成更新的策略。

这种方法灵活性很高,可以通过简单改变提示中的问题描述来快速适应不同的任务。初步案例研究显示,在小规模优化问题上,通过提示,LLMs能够找到高质量的解决方案,甚至可以匹配或超越手工设计的启发式算法的性能。

OPRO优化生成的最佳提示在GSM8K上的性能已经超越了传统手工设计提示8%,而在Big-Bench Hard电影推荐任务上,它的程度更是达到了50%的超越。

以下是经过OPRO优化后在GSM8K测试集上表现出色的几种zero-shot指令,值得我们在日后的实践中试验。

OPRO方法

OPRO采用元提示(meta-prompt)作为主要输入,借此驱使LLM为目标任务产出新的解决方案。而一旦这些方案及其得分被生成,它们就会被整合进元提示,为接下来的优化过程提供更为深入的指导。

元提示

元提示是OPRO的核心,它在每一步优化过程中都会更新。它不仅优化任务的自然语言描述,还会去优化整个过程中累积的解决方案-得分对。

  1. 问题描述:作为元提示的基础部分,它详细描述了优化问题的要求和限制。例如,在提示中,我们可以指导LLM:“请输出一个可以进一步提高准确度的新策略”。这类指示我们称之为元指令。更进一步,我们还可以为LLM提供更为具体的元指令,如“该策略应当简明扼要”。
  2. 优化轨迹:LLM能够从所给上下文中鉴别出特定模式,元提示利用了这一特性。具体来说,优化轨迹概括了之前的策略和得分,并按得分进行排序。当将这些路径整合进元提示时,LLM能识别出高效策略的共性,从而在不需要明确指定如何修改策略的前提下,依据现有策略找到更优解。

下图是一个示例:

解决方案的迭代与更新

使用元提示作为输入,LLM继而生成新的解决方案。在这个过程中有两个关键的问题:

  1. 稳定性的挑战:在连续的优化过程中,不是所有的回复都会持续提供高分。由于LLM对提示的敏感性,一个低质量的优化轨迹可能会极大地影响其输出,尤其是在策略空间还没有被充分挖掘的初期。因此,为了确保优化过程的稳定性,作者会指导LLM在每一步中提供多种解决方案。
  2. 探索与应用的权衡:通过调整LLM的采样温度,确保在探索新策略与利用现有策略之间保持平衡。一个较低的采样温度可以鼓励LLM根据先前的策略进行微调,而较高的温度则鼓励LLM探索和尝试新的策略方向。

案例一:线性回归

在案例研究中,作者将这一方法应用于一维线性回归问题,探索了它如何帮助我们找到最好的线性系数来最好地描述一个数据集。具体地说,当我们面对一维的输入与输出变量(分别表示为X和y),并加入一个截距b,那么需要优化的就是线性系数w和截距b。

作者在一个模拟的环境中为一维变量w和b设定了真实值,并利用生成了50个数据点。优化过程起始于5个随机选取的(w, b)对。每一步中,元提示包括历史上的前20个最佳的(w, b)对及其对应的目标函数值,从而指导LLM生成新的解。

下图展示了一个用于线性回归的元提示的例子。

结果是令人印象深刻的,可以看到OPRO方法能够有效地导航解决方案空间,并在更少的步骤中找到优质解决方案,尤其是使用gpt-4模型时。

案例二:旅行商问题(TSP)

在TSP问题的解决方案中,研究者使用了几个不同的LLMs和启发式算法来发现可能的最短路径。他们还构建了一个标准解决方案来计算所有方法的最优性差距。

下图展示了作者为旅行商问题设计的元提示的示例:

根据实验结果:

  • GPT-4 的性能突出:它在所有规模的问题中都明显优于其他模型,尤其是在小规模问题上更快地找到全局最优解。
  • 启发式算法表现稳健:即便是基于简单启发式原理的最近邻法和最远插入法也在解决TSP问题上显示了效率,尤其是在处理大规模问题时胜过LLM。

尽管OPRO在证明LLM能够优化不同种类的目标函数方面取得了一些成功,但它还是揭示了一些明显的局限性,包括:

  • 规模限制:随着问题规模的增大,LLM找到最优解的能力显著降低。
  • 描述限制:LLM的上下文窗口长度限制使得将大规模优化问题的描述完全纳入提示中变得困难。
  • 优化环境的挑战:一些目标函数的优化环境太复杂,这使得LLM很难找到正确的下降方向,导致优化过程可能中断。

案例三:Prompt优化

这个任务的优化目标是找到一个最大化任务性能的prompt输入。在这项任务中,LLM有两个作用:一个是作为目标函数评估器来应用优化的提示,另一个是作为优化器LLM。我们将用于目标函数评估的LLM称为评分LLM,将用于优化的LLM称为优化器LLM。优化器LLM的输出是一个指令,该指令将与每个示例的问题部分连接,并提示评分LLM。

作者根据一个特定的任务创建了一个数据集,并将其分为训练和测试两部分。在优化过程中,使用训练集来计算训练精度作为目标值,而在优化结束后,我们会在测试集上计算测试精度。

与传统的优化方法通常需要相当大的训练集不同,实验表明,只需要一小部分训练样本(例如,GSM8K的训练集的3.5%,Big-Bench Hard的20%)就足够了。

OPRO优化生成的最佳提示在GSM8K上的性能已经超越了传统手工设计提示8%,而在Big-Bench Hard电影推荐任务上,它的超越程度更是达到了50%。(在GSM8K上的优化用PaLM 2-L作为评分器,指令调整的PaLM 2-L作为优化器。BBH电影推荐上的优化用text-bison作为评分器,PaLM 2-L-IT 作为优化器)

下图展示了在GSM8K上,不同模型的性能,以及取得最高性能的指令。

结语

该研究探索了使用LLMs作为优化器的可能性,来逐步生成新的解决方案以优化特定的目标函数。它主要侧重于提示优化,具体到某些任务,这种优化的提示甚至可以比人类设计的提示提高超过50%。

但是这种方法也存在一些局限性。首先,它高度依赖于一个有效的训练集来指导优化过程。而且,目前的LLM优化器还没有很好地利用训练集中的错误样本来改善生成的指令。这是一个亟待解决的问题。

未来的研究可以考虑如何通过更丰富的错误案例反馈和更精细的优化路径来提高LLM的性能。我们可以预见,在不久的将来,这项技术将得到更加完善和优化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
「深呼吸」让大模型表现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI
只是多了「深呼吸」的命令,模型在GSM8K的得分就从「think step by step」的71.8上升至80.2,成为表现最佳的Prompt。
新智元
2023/09/22
5740
「深呼吸」让大模型表现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI
告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法
有些优化是从初始化开始的,然后迭代的更新解以优化目标函数。这种优化算法通常需要针对单个任务进行定制,以应对决策空间带来的特定挑战,特别是对于无导数的优化。
机器之心
2023/09/19
3830
告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法
大模型靠“深呼吸”数学再涨8分!谷歌DeepMind发现AI自己设计提示词效果胜人类
谷歌DeepMind团队最新发现,用这个新“咒语”(Take a deep breath)结合大家已经熟悉的“一步一步地想”(Let’s think step by step),大模型在GSM8K数据集上的成绩就从71.8提高到80.2分。
量子位
2023/09/19
4020
大模型靠“深呼吸”数学再涨8分!谷歌DeepMind发现AI自己设计提示词效果胜人类
PromptAgent: 利用语言模型进行策略规划实现专家级提示优化
提示工程旨在为大型语言模型(LLMs)制定有效的提示,以发挥其全部潜力。近期的自动提示工程,即提示优化,通过利用LLMs的内部状态或梯度,成功地研究了训练软提示或搜索离散令牌的最佳组合。对于如 GPT-4 这样的尖端、专有API基础的LLMs,提示工程很大程度上依赖于某种特定的人机交互。因此,人类提示专家需要将领域知识和对LLMs的直觉相结合,以设计最有效的提示,这可能包括任务描述、领域知识、解决方案指导等,这些都能显著提高提示的质量和性能。
用户1324186
2024/02/21
8270
PromptAgent: 利用语言模型进行策略规划实现专家级提示优化
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。
zenRRan
2024/07/04
5030
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
LLM评测
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。 但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
孔西皮
2024/08/05
5040
数学建模--旅行商
旅行商问题(TSP,Traveling Salesman Problem)是数学建模中的一个经典组合优化问题。其基本描述如下:给定一组城市和每对城市之间的距离,要求找到一条路径,使得旅行商从某一城市出发,访问所有其他城市一次并返回原点,且总行程最短。
用户11315985
2024/10/16
3120
数学建模--旅行商
一篇关于LLM指令微调的综述
指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程,它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式,领域和应用的应用。
zenRRan
2023/09/11
7.1K0
一篇关于LLM指令微调的综述
9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。
deephub
2023/10/23
5800
9月大型语言模型研究论文总结
AAAI 2024 | 大模型(LLM)论文总结
大语言模型作为近期最火热的研究点,热度至今居高不下。特别是近期,arxiv上每个月都发表很多关于大语言模型的文章。对此,我只想吐槽一句,根本读不完。倒不如来看看在AAAI-2024会议上关于大语言模型的研究工作。经过"老字号"AAAI会议审核过的,质量是杠杠的。
时空探索之旅
2024/11/19
6370
AAAI 2024 | 大模型(LLM)论文总结
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(下)
在预训练之后,LLMs可以获得解决各种任务的通用能力。然而,越来越多的研究表明,LLMs的能力可以根据特定目标进行进一步的适应调整。在本节中,我们介绍了两种主要的适应预训练LLMs的方法,即指令调整和对齐调整。前一种方法主要旨在增强(或解锁)LLMs的能力,而后一种方法旨在将LLMs的行为与人类的价值观或偏好相一致。此外,我们还将讨论快速模型适应的高效调整方法。接下来,我们将详细介绍这三个部分。
jhonye
2023/05/30
1.2K0
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
上周六,OpenAI研究院Jason Wei在个人网站上发表了一篇博客,讨论了他眼中「成功的语言模型评估」应该具备哪些因素,并总结出了阻碍好的评估在NLP社区获得关注的「七宗罪」。
新智元
2024/06/05
2740
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
在增强大语言模型(LLM)的推理能力方面,先前的研究主要集中在特定的Prompt技术上,例如少样本(Few-shot)或零样本(Zero-shot)思维链(CoT)提示。这些方法虽然有效,但通常涉及手工密集型Prompt工程。
ShuYini
2024/02/22
7020
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
Nature | 通过语言模型反馈反向传播优化生成式AI
近年来,人工智能(AI)领域的突破性进展越来越依赖于由多个大语言模型(LLMs)及其他专业工具(如搜索引擎和模拟器)协同驱动的系统。然而,目前这些系统主要依赖领域专家手工设计,并通过启发式方法进行调整,而非自动优化,这在加速AI进步方面构成了重大挑战。人工神经网络的发展曾面临类似的困境,直到反向传播和自动微分的引入,使优化流程变得高效便捷。
DrugAI
2025/03/21
2960
Nature | 通过语言模型反馈反向传播优化生成式AI
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
今天突然看到prompt概念提出者刘鹏飞(现上交大副教授)在twitter上的消息:
zenRRan
2023/09/25
6000
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
自2022年底ChatGPT发布以来,其已经在人工智能的整个领域带来了翻天覆地的变化。通过对大型语言模型(LLM)进行指令微调,并从人类反馈中进行监督微调和强化学习,表明模型可以回答人类问题并在广泛的任务中遵循指令。在这一成功之后,对LLM的研究兴趣增强了,新的LLM在学术界和工业界频繁蓬勃发展。虽然非开源LLM(例如,OpenAI的GPT, Anthropic的Claude)通常优于它们的开源同行,但后者的进展很快。这对研究和商业都有至关重要的影响。在ChatGPT成立一周年之际,本文对这类LLMs进行了详尽的介绍。
zenRRan
2023/12/05
4840
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
细数:大模型评估基准的「七宗罪」
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。
ShuYini
2024/05/28
2990
细数:大模型评估基准的「七宗罪」
用于组合优化的强化学习:学习策略解决复杂的优化问题
从人类诞生之初,每一项技术创新,每一项改善我们生活的发明都是经过奇思妙想后设计出来的。从火到车轮,从电力到量子力学,我们对世界的理解和我们周围事物的复杂性,已经增长到难以直观地掌握它们的程度。
AiTechYun
2019/05/13
3K0
用于组合优化的强化学习:学习策略解决复杂的优化问题
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
大型语言模型(LLMs)在各种自然语言任务上展示了无与伦比的性能,涵盖了常识推理、问答以及甚至像数学和编程等专业化领域。LLM的有效性基于扩展定律,该定律提出,模型和训练数据规模的增加与模型性能的提升相关[27]。然而,随着LLM继续扩展,计算开销和数据需求也在增加。
AIGC 先锋科技
2024/11/08
1730
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成  !
推荐阅读
「深呼吸」让大模型表现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI
5740
告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法
3830
大模型靠“深呼吸”数学再涨8分!谷歌DeepMind发现AI自己设计提示词效果胜人类
4020
PromptAgent: 利用语言模型进行策略规划实现专家级提示优化
8270
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
7K0
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
5030
LLM评测
5040
数学建模--旅行商
3120
一篇关于LLM指令微调的综述
7.1K0
9月大型语言模型研究论文总结
5800
AAAI 2024 | 大模型(LLM)论文总结
6370
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(下)
1.2K0
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
2740
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
7020
Nature | 通过语言模型反馈反向传播优化生成式AI
2960
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
6000
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
4840
细数:大模型评估基准的「七宗罪」
2990
用于组合优化的强化学习:学习策略解决复杂的优化问题
3K0
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
1730
相关推荐
「深呼吸」让大模型表现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档