Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中山&港大| 提出DQ-LoRe框架,自动选择上下文示例,为LLMs复杂推理开辟新道路!

中山&港大| 提出DQ-LoRe框架,自动选择上下文示例,为LLMs复杂推理开辟新道路!

作者头像
ShuYini
发布于 2024-05-10 03:00:20
发布于 2024-05-10 03:00:20
3600
举报

引言

大模型(LLMs)在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现,人们提出思维链”(Chain-of-Thought,CoT)的方法,利用中间推理步骤来辅助模型生成。那么,如何有效地选择优秀示例来提升LLMs上下文学习能力呢

为此,本文提出了DQ-LoRe框架,利用「双重查询(DQ)和低秩近似重排(LoRe)」自动选择上下文学习示例。实验表明,DQ-LoRe在自动选择GPT-4示例方面超越了之前的方法,准确率从92.5%提升至94.2%,为LLMs解决复杂推理问题开辟了新道路。

https://arxiv.org/pdf/2310.02954

背景介绍

随着模型规模和语料规模的扩大,大模型展现出了强大的上下文学习能力(ICL)。这种能力使得LLMs能够通过少量示例学习就能执行各种复杂任务,例如:摘要总结、信息抽取和规划推理。此外,为了增强LLM的能力,人们还探索了通过提供中间推理步骤的“思维链”(Chain-of-Thought,CoT)来增强其学习能力。

CoT的有效性体现在它可以通过多种方法进一步提升,例如将复杂问题分解、在推理前进行规划,以及在多轮投票和推理中应用CoT范式。特别是在多步推理任务中,使用CoT的上下文学习方法已被证明比对同一大型模型进行的全数据集微调更为有效。这些进展不仅展示了LLMs在执行复杂任务方面的能力,还为未来在自然语言处理领域的研究和应用开辟了新的可能性。

在此过程中,如何选择合适的示例将是一个关键的问题。因为先前研究表明,在选择示例时会面临不稳定的挑战,即示例中样本顺序的微小变化也可能影响大模型的输出,可见样本示例选择对增强LLM多步推理能力至关重要。当前主要有两种方法来选择示例:1)人工选择设计;2)基于检索的方法

  • 人工选择设计方法:例如,传统的CoT方法主要利用人工编写的八个示例,而PAL方法则将这些示例转化为编程语言语句;Auto-CoT方法通过将训练示例聚类成k个类别,并选择与每个类别中心最近的k个样本来选择示例。该类方法主要是基于试错的方法,很难从经验观察中提取出普遍性的规律来形成有效的选择标准。
  • 基于检索的方法:利用编码器在训练期间对样本进行编码并输入问题,这使得能够选择接近输入问题的向量表示的样本。例如,高效提示检索(EPR)对输入问题和上下文样本之间的交互进行建模,并通过对比学习目标对其进行优化以获得首选样本。此类方法主要关注输入问题和训练集中示例之间的相似性,并没有充分利用给定问题中间推理步骤与其他示例之间的关系。

相比以上两种方法,本提出了一种了DQ-LoRe框架,利用「双重查询和低秩近似重排」自动选择上下文学习中的示例。简单来说,本文方法会将原始表示投影到一个新的表示空间,对实例进行重新排名,以选择与输入问题知识更紧密对齐的示例,从而提高了大模型上下文学习能力

DQ-LoRe

DQ-LoRe的整体流程如下图所示。它主要由三部分组成:双重查询(DQ)、检索器(Retriever)、低秩近似重排序(LoRe)。

「DQ」 首先通过请求大模型(LLMs)来生成思维链(CoT)。这个过程始于初始的n-shot示例,这些示例可以通过多种检索方法,此外,示例还可以包括人工设计的示例,例如CoT、Tree-of-Thought和Graph-of-Thought等模板。本文主要是采用Complex-CoT方法来获取这些初始示例,因为这种方法能够生成信息量丰富的CoT。

随后,利用这些初始示例和DQ问题再次请求LLMs,从而获得对应的CoT 。最后,结合问题和生成的CoT ,作者使用训练的「编码器」来获得测试样本的嵌入表示。

「Retriever」 为了获得示例和测试样本的表示,作者训练了一个编码器,同时为了衡量思维链(CoT)与示例之间的相似性,还开发了一个检索器。简单来说,作者利用训练集中的数据来构建训练数据,每个样本由一个问题

及其对应的CoT

组成,其中

代表训练集中的第

个数据点。通过这种方式,编码器能够学习到能够准确反映问题和CoT之间关系的特征表示,从而提高检索器在挑选与输入问题最相关示例时的性能。

「LoRe」 在获取了基于语义相似性检索的示例后,使用主成分分析(PCA)进行降维,以去除嵌入中的冗余信息,并使用高斯核函数重新计算示例和目标样本之间的相似性,以此来重排序示例。根据重排序后得到的示例,选择顶部的n个示例,并将它们与问题一起输入LLMs以获得最终的CoT和推理结果。

通过以上步骤,DQ-LoRe框架能够在考虑输入问题的CoT的同时,自动选择和重排序示例,以提高LLMs在复杂推理任务中的性能。该方法通过双重查询和低秩近似重排序,有效地结合了问题内容和CoT信息,提高了示例选择的相关性和准确性。

实验结果

下图展示了在独立同分布

设置下,本文模型在GSM8K和AQUA数据集上展现了优异的性能。为了排除偶然相关性的影响并评估模型的真实性能,作者进行了分布偏移条件下的实验。作者在GSM8K数据集上训练检索器,并在SVAMP测试集上进行测试,本文模型在SVAMP*上达到了90%的准确率,显著超过了EPR模型。

下图展示了GPT-4在GSM8K数据集上的ICL结果。本文模型性能大大超过了之前最先进的基于检索的方法 CEIL,准确率大幅提高了1.7%。e

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
机器之心报道 编辑:小舟、杜伟 近日,谷歌研究者提出一种名为「self-consistency」(自洽性)的简单策略,不需要额外的人工注释、训练、辅助模型或微调,可直接用于大规模预训练模型。 尽管语言模型在一系列 NLP 任务中取得了显著的成功,但它们的推理能力往往不足,仅靠扩大模型规模不能解决这个问题。基于此,Wei et al. (2022) 提出了思维提示链(chain of thought prompting),提示语言模型生成一系列短句,这些短句模仿一个人在解决推理任务时可能采用的推理过程。 现在
机器之心
2022/04/13
7480
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
Auto-CoT:自动构建大模型的思维链提示
论文题目:AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS
AI研思录
2025/02/20
3570
Auto-CoT:自动构建大模型的思维链提示
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
大语言模型非常擅长上下文学习(ICL),随着大模型上下文窗口的不断扩展,它可以让我们使用数百或者上千个样例,然而,当前多样本上下文学习(many-shot ICL)却受限于高质量人类生成示例。
ShuYini
2024/04/26
3510
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
在 2017-2019 年之间,随着 Transformer 模型的提出,计算资源与大规模语料库不断出现,自然语言处理领域发生了翻天覆地的变化,传统的全监督学习的范式逐渐达到了瓶颈,很难在传统的训练方式上取得大幅度提升。这时大规模预训练模型的如 Bert、RoBERTa 等模型的出现使得研究方向转向了以预训练模型为基础 + 下游任务 Fine-tune 的范式。
汀丶人工智能
2023/07/20
3.2K0
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
在增强大语言模型(LLM)的推理能力方面,先前的研究主要集中在特定的Prompt技术上,例如少样本(Few-shot)或零样本(Zero-shot)思维链(CoT)提示。这些方法虽然有效,但通常涉及手工密集型Prompt工程。
ShuYini
2024/02/22
6980
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
Chain-of-Thought(CoT)是一种改进的Prompt技术,目的在于提升大模型LLMs在复杂推理任务上的表现,如算术推理(arithmetic reasoning)、常识推理(commonsense reasoning)、符号推理(symbolic reasoning)。
汀丶人工智能
2024/06/15
1K0
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%
 语言模型有时很难理解比较复杂的上下文,它们可能无法准确遵循指令并难以对文档进行推理,从而导致模型在上下文学习中表现出很大的差异。为此,本文作者提出一种新的方法:上下文预训练(IN-CONTEXT PRETRAINING),其中语言模型在一系列相关文档上进行预训练,从而引导模型进行跨文档边界阅读和推理。
ShuYini
2023/10/24
2960
MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
小红书推出新框架:负样本也能提升大模型的推理能力
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。
深度学习与Python
2024/01/24
6340
小红书推出新框架:负样本也能提升大模型的推理能力
上海交大 | 提出Meta-CoT思维链,增强 LLMs 在「混合任务场景」中的推理能力
 思维链(CoT)提示可以大大提升大型语言模型(LLMs)的推理能力。然而,当前CoT方法要么采用简单的通用提示,例如“让我们一步一步思考”,要么严重依赖手工制作的特定任务Demo来获得更好的性能,这使其在性能和泛化之间产生了不可避免的差距。
ShuYini
2023/10/24
5340
上海交大 | 提出Meta-CoT思维链,增强 LLMs 在「混合任务场景」中的推理能力
思维的扩散,扩散语言模型中的链式思考推理
今天为大家介绍的是来自Lingpeng Kong团队的一篇论文。扩散模型在文本处理中获得了广泛关注,与传统的自回归模型相比,它们提供了许多潜在优势。作者在这项工作中探索了扩散模型与链式思考(Chain-of-Thought, CoT)的集成,CoT是一种在自回归语言模型中提高推理能力的成熟技术。
DrugAI
2024/03/26
2990
思维的扩散,扩散语言模型中的链式思考推理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
自GPT-3首次提出了In-Context Learning(ICL)的概念而来,ICL目前已经变成了一种经典的LLMs使用方法。ICL,即In-Context Learning,是一种让大型语言模型(LLMs)通过少量标注样本在特定任务上进行学习的方法。这种方法的核心思想是,通过设计任务相关的指令形成提示模板,利用少量标注样本作为提示,引导模型在新的测试数据上生成预测结果。
汀丶人工智能
2024/06/15
2.5K0
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
老K博客
2024/07/19
930
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维链方法
众所周知,随着谷歌思维链(chain of thought)概念的提出,AI做题时已经能像人类一样生成解题步骤。
量子位
2022/12/09
8950
AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维链方法
LLM RAG系列
本文介绍了RAG以及RAG pipeline的整个流程,包括请求转换、路由和请求构造、索引和检索、生成和评估等,其中引用了大量有价值的论文。
charlieroro
2024/04/02
8570
LLM RAG系列
LLM评测
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。 但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
孔西皮
2024/08/05
4850
华东师范 & 蚂蚁集团提出 E2LLM | 嵌入式扩展 LLM 大语言模型,用于长篇理解和推理 !
理解并推理长序列对于大语言模型(LLMs)至关重要,尤其是在像多轮对话、代码生成、多文本文档总结和问答等任务中。这些任务通常需要处理成千或甚至数百万个 Token 以确保连贯性和准确性。另一方面,为了提高LLM的性能,一些能有效促使LLM激活特定领域知识的技术,例如思路推理、上下文学习和检索相关文档或历史对话等,也在推动长序列长度的需求。
AIGC 先锋科技
2024/10/31
1890
华东师范 & 蚂蚁集团提出 E2LLM | 嵌入式扩展 LLM 大语言模型,用于长篇理解和推理 !
复杂推理:大语言模型的北极星能力
机器之心发布 作者:符尧 符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。本文原文为英文,由作者与 GPT-4 交互翻译为中文。感谢艾伦人工智能研究所 彭昊,Tushar Khot 的深入讨论。 最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的
机器之心
2023/05/09
5160
复杂推理:大语言模型的北极星能力
Meta | 对比解码:进一步提升LLM推理能力
为了改进LLM的推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧!
zenRRan
2023/09/21
7530
Meta | 对比解码:进一步提升LLM推理能力
十年来论文量激增,深度学习如何慢慢推开数学推理的门
机器之心报道 机器之心编辑部 「数学研究就像尼罗河一样,始于细微,终于宏大。」—— Charles Caleb Colton,英国作家 数学推理是人类智能的关键体现,它使我们能够理解并做出基于数值数据和语言的决策。数学推理适用于各个领域,包括科学、工程、金融和日常生活,并包含一系列能力,诸如从模式识别、数字运算等基本技能到解决问题、逻辑推理和抽象思维等高级技能。 长期以来,开发能够解决数学问题、证明数学定理的 AI 系统是机器学习和自然语言处理领域的研究重点。这也可以追溯到 20 世纪 60 年代。 在深度
机器之心
2023/03/29
4220
十年来论文量激增,深度学习如何慢慢推开数学推理的门
推荐阅读
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
7480
Auto-CoT:自动构建大模型的思维链提示
3570
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
3510
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
3.2K0
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
6980
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
1K0
MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%
2960
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
7K0
小红书推出新框架:负样本也能提升大模型的推理能力
6340
上海交大 | 提出Meta-CoT思维链,增强 LLMs 在「混合任务场景」中的推理能力
5340
思维的扩散,扩散语言模型中的链式思考推理
2990
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
2.5K0
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
930
AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维链方法
8950
LLM RAG系列
8570
LLM评测
4850
华东师范 & 蚂蚁集团提出 E2LLM | 嵌入式扩展 LLM 大语言模型,用于长篇理解和推理 !
1890
复杂推理:大语言模型的北极星能力
5160
Meta | 对比解码:进一步提升LLM推理能力
7530
十年来论文量激增,深度学习如何慢慢推开数学推理的门
4220
相关推荐
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档