Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

作者头像
机器之心
发布于 2025-05-06 05:59:22
发布于 2025-05-06 05:59:22
880
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:陈萍

该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。

大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。

然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。

本文,来自谷歌 DeepMind 的研究者系统地研究了为什么 LLM 在决策场景中表现次优的原因。特别是,本文深入研究了三种常见的失败模式:贪婪性、频率偏差和知 - 行差距

在此基础上,本文提出通过强化学习对自动生成的 CoT 推理过程进行微调,以缓解这些不足。实验表明 RL 微调能有效提升 LLMs 的决策能力 —— 既增强了智能体探索性行为,又缩小了知 - 行差距。

  • 论文标题: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
  • 论文地址:https://www.alphaxiv.org/abs/2504.16078

方法介绍

本文系统性地分析了中小规模 LLMs 存在的三种典型缺陷:贪婪性策略、频率偏差以及知行差距。分析表明,由于 LLMs 过早陷入贪婪动作选择策略,导致动作覆盖率停滞(最高达 55% 未探索),最终性能持续低于最优水平。

具体而言,本文发现小规模 LLMs(2B)倾向于机械复制上下文中的高频动作(无视其奖励差异),这种现象被定义为频率偏差。

相比之下,大规模 LLMs(27B)虽能显著减弱频率偏差,但依旧维持贪婪行为。

同样值得注意的是,本文通过量化知 - 行差距发现:LLMs 虽能正确理解任务要求,却因执着于贪婪动作而无法有效执行所知方案。

为克服这些缺陷,本文提出在自动生成思维链(CoT)推理的基础上进行强化学习微调方法(RLFT)

RLFT 方法依赖于从环境交互中获得的奖励,对自生成的 CoT 原理进行微调。在 RLFT 过程中,模型会学习迭代地优化其推理过程,从而倾向于选择能够带来更高奖励的 CoT 模式和动作(参见图 1)。本文方法更专注于决策场景。

上下文表示:在步骤 t 时,输入 Token 包括输入指令

,输出指令

和最近的交互历史

。历史表示包含最近 C 个状态、动作和奖励的轨迹

微调目标:本文使用 Schulman 等人引入的裁剪目标进行微调,并对参考策略

进行额外的 KL 约束:

实验结果

比较模型:实验比较了 Gemma2 模型的三种尺寸大小:2B、9B 和 27B 。

环境:多臂老虎机(MAB,Multi-Armed Bandit)以及井字棋游戏。

为什么 LLM 在决策方面表现不佳?

先前的研究发现,LLM 智能体在交互环境中表现欠佳,且探索不足。因此,本文首先研究模型表现欠佳的原因,并确定了三种常见的故障模式:(1) 贪婪,(2) 频率偏差,以及 (3) 知 - 行差距。发现三种故障模式在各个模型尺寸上均持续存在。

贪婪是第一个也是最普遍的故障模式,其特征是 LLM 过度偏向于迄今为止看到的一小部分操作中表现最佳的操作。为了说明这种故障模式,本文展示了 Gemma2 2B/9B/27B 在启用和禁用 CoT 的情况下,在 64 个 MAB(包含 10 个和 20 个分支)上,并且在 50 个交互步骤中实现的平均操作覆盖率(见图 3 a 和 b)。

结果显示模型过早地采用贪婪策略,导致动作覆盖率在 10 步之后停滞不前。增加分支数量会使贪婪更加明显,最大的模型仅覆盖了所有动作的 45%。因此,尽管这些模型比随机智能体有显著改进(参见图 3c),但与 UCB ( Upper-confidence Bound )相比,遗憾值仍然很高。

本文探索的下一个常见故障模式是频率偏差,其特点是模型重复选择上下文中出现频率最高的动作,即使该动作的奖励很低。

结果显示,Gemma2 2B 严重受到重复动作的影响,随着重复次数的增加,熵值不断降低(见图 4a)。相反,27B 模型摆脱了频率偏差(见图 4c)。事实上,对于 2B 来说,频率偏差随着重复次数的增加而不断增加。虽然 27B 摆脱了频率偏差,但它严重受到贪婪的影响。

知 - 行差距。智能体清楚地知道如何解决任务,所有推理中有 87% 是正确的(见图 5)。然而,即使对于正确计算的推理,模型也经常会选择贪婪动作(58%)而不是最优动作(21%)。这种差异凸显了 LLM 在了解算法的情况下采取行动不一的缺陷。

RL 微调的有效性

接下来,本文研究 RLFT 对累积遗憾的影响(相对于最优策略),以及它是否能缓解这些故障模式。

结果显示 RLFT 降低了遗憾值。在各种环境中,LLM 的表现明显优于随机基线,并且 RLFT 降低了 2B 和 9B 的遗憾值。

此外,RLFT 可缓解贪婪性,通过 RLFT,智能体学会了探索,从而缓解了贪婪性。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌这次确实有诚意,性能翻倍
AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Sonnet。如此激烈的争斗中,谷歌虽然发力较晚,但在短时间内就能有显著的能力跟进,可见其技术发展与创新的潜力。
Ai学习的老章
2024/07/06
1460
谷歌这次确实有诚意,性能翻倍
每周AI论文速递(240812-240816)
GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频,并提供先进的多模态交互体验。我们从 Mixtral 8x7B 这一语言模型基础出发,扩展其中文词汇,并进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予了该模型视觉和听觉能力。VITA 在多种单模态和多模态基准测试中表现出色,显示出其强大的多语言、视觉和听觉理解能力。此外,我们在提升自然多模态人机交互体验方面取得了显著进展,首次在 MLLM 中实现了非唤醒交互和音频中断功能。VITA 标志着开源社区在探索多模态理解和交互无缝集成方面迈出了第一步。尽管 VITA 仍需大量工作以接近闭源模型的水平,但我们相信其作为先驱的角色将为后续研究奠定坚实基础。项目页面:https://vita-home.github.io。
叶子的技术碎碎念
2025/04/08
930
每周AI论文速递(240812-240816)
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。
新智元
2024/02/26
5510
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
Gemma 是 Google 推出的轻量级、先进的开放模型系列,采用与 Gemini 模型相同的研究成果和技术构建而成。它们是仅使用解码器的文本到文本大型语言模型(提供英语版本),为预训练变体和指令调整变体具有开放权重。Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。由于它们相对较小,因此可以将其部署在资源有限的环境(如笔记本电脑、桌面设备或您自己的云基础架构)中,让更多人能够使用先进的 AI 模型,并帮助促进每个人的创新。
LDG_AGI
2024/08/13
7640
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
在提升大型语言模型(LLM)在数学推理方面的能力时,一个常用的方法是训练一个奖励模型(reward model)或验证器(verifier),也可以利用强化学习在测试阶段(test-time)对所有解决方案进行重排序。
新智元
2025/02/14
770
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1
就在昨晚,谷歌的明星开源大模型系列,又迎来两位新成员——Gemma 2 9B和Gemma 2 27B!
新智元
2024/06/28
2270
单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1
每周AI论文速递(240401-240405)
我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamba 层交替布置,兼顾了这两种模型体系的优势。在部分层中融入了 MoE 技术,以扩大模型容量,同时确保参数的活跃使用保持在可控范围内。这种灵活的架构支持针对特定资源和目标的配置。在我们实施的特定配置中,成功构建了一个强大的模型,该模型能够在单个 80GB GPU 上运行。Jamba 在大规模构建时,相比传统 Transformer,提供了更高的吞吐量和更小的内存占用,并在标准语言模型基准测试和长文本评估中展现了卓越性能。值得一提的是,该模型在长达 256K token 的上下文中显示出了强劲的性能。我们对如何结合 Transformer 和 Mamba 层,以及如何混合不同的专家进行了深入研究,并发现其中某些决策对大规模建模至关重要。我们还发现了 Jamba 在训练和评估过程中展现出的几个有趣特性,并计划发布不同消融测试的检查点,以促进对这种新型架构的进一步探索。我们将 Jamba 实现的权重以宽松的许可证形式公开提供。
叶子的技术碎碎念
2025/04/08
730
每周AI论文速递(240401-240405)
谷歌发布新一代大语言模型Gemma 2,重新设计了整体架构有9B和27B两种版本
近日,谷歌公司发布了其最新的大语言模型Gemma 2,向全球研究人员和开发人员开放。新发布的Gemma 2模型有90亿参数(9B)和270亿参数(27B)两种版本。相比于第一代模型,Gemma 2在推理性能和效率方面有了显著提升,同时在安全性上也取得了重要进展。
deephub
2024/07/01
4220
谷歌发布新一代大语言模型Gemma 2,重新设计了整体架构有9B和27B两种版本
同等参数中最强,在苹果15Pro上也能运行!谷歌又“卷”出了端侧小模型 Gemma 2 2B...
在 AI 技术的快速发展下,语言模型的规模和能力也在不断壮大。从最初的几百万参数发展到如今动辄数十亿甚至数百亿参数的模型,每一次技术革新都伴随着巨大的计算资源需求——然而,高昂的成本和复杂的部署流程也因此成为了限制模型广泛应用的主要障碍。
Coding X
2024/08/05
1580
同等参数中最强,在苹果15Pro上也能运行!谷歌又“卷”出了端侧小模型 Gemma 2 2B...
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
670
每周AI论文速递(241202-241206)
Eir-8B 专为医学领域打造的先进大语言模型 !
近年来人工智能(AI)和大型语言模型(LLMs)在自然语言处理(NLP)任务上取得了显著的进步,大大提升了各种功能的使用效率,如客户服务、语言翻译和内容生成。在这个背景下,AI在多个领域,尤其是医疗领域的辅助作用具有尤为重要的意义。
AIGC 先锋科技
2024/09/29
1620
Eir-8B 专为医学领域打造的先进大语言模型 !
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
2840
推理大模型的后训练增强技术-强化学习篇
每周AI论文速递(240708-240712)
无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训练不包含视觉编码器的纯VLMs,即无缝接受视觉和语言输入,仍面临挑战且研究较少。实证研究表明,不使用编码器直接训练会导致收敛缓慢和性能差距大。本研究旨在弥合基于编码器与无编码器模型之间的差距,并提出一种简单有效的训练方案,以实现纯VLMs。具体而言,我们通过深入实验揭示了高效训练无编码器VLMs的关键要素:(1)在统一解码器内融合视觉-语言表示;(2)通过额外监督提升视觉识别能力。基于这些策略,我们开发了EVE,一种高效训练和前向传播的无编码器视觉-语言模型。值得注意的是,仅利用3500万公开数据,EVE在多个视觉-语言基准上与类似容量的基于编码器VLMs表现相当。它显著超越了训练过程神秘且数据未公开的Fuyu-8B模型。我们相信,EVE为跨模态开发纯解码器架构提供了一条透明且高效的路径。相关代码和模型已在以下公开发布:https://github.com/baaivision/EVE。
叶子的技术碎碎念
2025/04/08
870
每周AI论文速递(240708-240712)
9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。
deephub
2023/10/23
5770
9月大型语言模型研究论文总结
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
860
每周AI论文速递(250210-250214)
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是通过“推理”框架将 LLMs 扩展到新高度的典范。
AIGC新知
2025/03/21
3840
理解什么是推理模型,看懂这篇就够了
【论文分享】推理大模型Post-Training技术的全面综述
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。
致Great
2025/03/07
3160
【论文分享】推理大模型Post-Training技术的全面综述
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
更震撼的是,MLLM的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
新智元
2025/02/15
1790
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1020
每周AI论文速递(250120-250124)
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(下)
在预训练之后,LLMs可以获得解决各种任务的通用能力。然而,越来越多的研究表明,LLMs的能力可以根据特定目标进行进一步的适应调整。在本节中,我们介绍了两种主要的适应预训练LLMs的方法,即指令调整和对齐调整。前一种方法主要旨在增强(或解锁)LLMs的能力,而后一种方法旨在将LLMs的行为与人类的价值观或偏好相一致。此外,我们还将讨论快速模型适应的高效调整方法。接下来,我们将详细介绍这三个部分。
jhonye
2023/05/30
1.2K0
推荐阅读
相关推荐
谷歌这次确实有诚意,性能翻倍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档