Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成

每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成

作者头像
zenRRan
发布于 2024-03-26 02:54:46
发布于 2024-03-26 02:54:46
7230
举报

深度学习自然语言处理 分享 整理:pp

摘要:为了满足实际应用的要求,控制大型语言模型(LLM)的生成至关重要。之前的研究试图将强化学习(RL)引入可控文本生成,而大多数现有方法都存在过拟合问题(基于微调的方法)或语义崩溃(后处理方法)。然而,目前的强化学习方法一般由粗粒度(句子/段落级)反馈指导,这可能会由于句子内部的语义扭曲或进展而导致性能不佳。为了解决这个问题,我们提出了一种名为 TOLE 的新型强化学习算法,它为可控文本生成制定了 TOken-LEvel 奖励,并采用 "first-quantize-then-noise" "先量化后噪声 "的范式来增强 RL 算法的鲁棒性。实验结果表明,我们的算法在单属性和多属性控制任务上都能取得优异的性能。

https://arxiv.org/abs/2403.11558

Q1: 这篇论文试图解决什么问题?

A:这篇论文试图解决的问题是如何在现实世界的应用中控制大型语言模型(LLMs)的生成结果,以满足特定的属性要求。具体来说,论文关注的问题包括:

  1. 提高生成文本的可控性:在实际应用中,往往需要生成具有特定属性(如正面情感、正式性等)的文本,或者减少预训练语言模型的内在缺陷(如毒性、重复性等)。
  2. 解决现有方法的局限性:现有的基于强化学习(RL)的可控文本生成方法通常使用粗粒度(句子/段落级别)的反馈,这可能导致性能次优和收敛速度慢,因为句子内的语义往往随着句子的进展而发生变化
  3. 提出新的算法:为了解决上述问题,论文提出了一种新的强化学习算法,名为TOLE(Token-level Rewards for Controllable Text Generation),该算法通过在token级别提供反馈来指导语言模型,以实现更精细的控制。
  4. 增强算法的鲁棒性:通过引入“先量化后加噪”(First quantize-then-noise)的探索框架,提高算法的鲁棒性,避免模型过度拟合评分器的固定评分模式。
  5. 扩展到多属性控制:论文还探讨了如何将单属性的强化学习算法扩展到多属性控制场景,这在现有的研究中尚未得到充分探索。

总的来说,论文旨在通过更细粒度的反馈和鲁棒的算法设计,提高可控文本生成的性能,同时减少训练步骤和计算开销,使其更适用于实际应用场景。

Q2: 有哪些相关研究?

A:这篇论文中提到的相关研究主要围绕可控文本生成(CTG)的三个主要方法:重训练(Retraining)、微调(Fine-tuning)、后处理(Post-processing),以及如何将强化学习(RL)应用于CTG任务。下面是这些方法的具体相关研究:

  1. 重训练方法
    • Keskar et al. (2019) 和 Chan et al. (2021) 研究了如何通过在特定属性的数据集上训练模型来增强生成文本的特定属性。
  2. 微调方法
    • Huang et al. (2023); Yang et al. (2023a); Zhang and Song (2022) 探讨了如何通过微调语言模型来控制文本生成的特定方面,例如通过使用连续提示(prefix-tuning)或其他参数高效训练策略。
  3. 后处理方法
    • Krause et al. (2021); Yang and Klein (2021); Liu et al. (2021) 利用小型判别器来调整token分布,从而在不重新训练整个模型的情况下控制文本的属性。
  4. 强化学习在CTG中的应用
    • Li et al. (2022); Gu et al. (2022b, 2023) 引入了除RL之外的其他算法骨干,例如扩散模型、归一化流等,但这些方法通常在训练期间计算成本较高,推理时间较长,难以在实际应用中部署。
  5. 多属性可控文本生成
    • Lin and Riedl (2021); Kumar et al. (2021) 等研究了如何结合多个属性判别器来聚合控制能力,但这些方法也继承了后处理方法的缺点,因为它们直接通过分布调节来实现。
  6. Token级反馈的RL研究
    • Chen et al. (2021); Janner et al. (2021); Zheng et al. (2022); Xu et al. (2023) 等研究尝试将RL技术融入变换器结构中,尝试将粗粒度的奖励分解到token级别以进行序列建模。
  7. RL算法的改进
    • Wu et al. (2023); Yang et al. (2023b) 等研究了如何处理粗粒度反馈的问题,特别是在大型语言模型对齐(LLM alignment)的RLHF(reinforcement learning from human feedback)算法中。

这些相关研究表明,尽管已有多种方法尝试解决可控文本生成的问题,但仍存在效率低下、容易过拟合、文本质量下降等问题。论文提出的TOLE算法旨在通过token级别的精细反馈和鲁棒的算法设计来克服这些挑战。

Q3: 论文如何解决这个问题?

A:论文提出了一种名为TOLE(Token-level Rewards for Controllable Text Generation)的新型强化学习算法来解决可控文本生成的问题。TOLE算法的关键特点和解决策略如下:

  1. Token-level RewardsTOLE算法通过在token级别提供奖励来指导语言模型,这种细粒度的反馈可以更精确地引导模型生成符合特定属性要求的文本。与传统的基于句子或段落级别的反馈相比,token级别的奖励能够更好地捕捉句子内部的语义变化
  2. 先量化后加噪(First Quantize-then-Noise):为了增强算法的鲁棒性,TOLE采用了一种探索框架,首先对奖励进行量化处理,然后在量化的基础上加入噪声。这种方法旨在避免模型过度拟合评分器的固定评分模式,同时保持对目标属性的引导。
  3. 多属性控制TOLE算法可以灵活地扩展到多属性控制任务,通过引入一个小型的“weigher”模块来平衡不同属性判别器的奖励。这种方法允许算法同时考虑多个属性,而不会出现属性之间的矛盾。
  4. 算法概述
    • 初始化(Initialization):设置策略模型、参考模型、属性评分器和数据池。
    • 探索(Exploration):基于当前策略模型生成文本,并计算每个生成token的奖励。
    • 量化与加噪(Quantize & Noise):对数据池中的奖励进行量化,并加入噪声以避免过度拟合。
    • 学习(Learning):使用量化和加噪后的奖励来更新模型,同时通过最大熵梯度和KL散度惩罚来保持模型的多样性和与原始模型的一致性。
  5. 实验验证:论文通过在单属性(如情感控制和去毒化)和多属性控制任务上的实验,证明了TOLE算法在提高属性正确性、生成文本质量以及减少训练步骤方面的有效性。

总体而言,TOLE算法通过引入token级别的精细反馈和鲁棒的算法设计,有效地提高了可控文本生成的性能,并减少了计算成本,使其更适用于实际应用场景。

Q4: 论文做了哪些实验?

A:论文中进行了一系列实验来验证TOLE算法在可控文本生成任务中的有效性。以下是实验的主要内容:

  1. 情感控制(Sentiment Control)
    • 使用OpenWebText Corpus中的自然发生的提示作为实验数据集,分为中性、负面和正面情感的提示。
    • 使用GPT2-large作为基础语言模型,并采用提示技术而不是微调整个模型。
    • 通过一个基于GPT2-base的训练有素的情感分类器来评估生成文本的情感极性。
    • 与多种基线方法进行比较,包括后处理方法(PPLM、GEDI、FUDGE)和微调方法(Prompt-tuning、DisCup)以及RL方法(PPO、QUARK)。
    • 通过自动评估(如生成质量、多样性等指标)和人工评估(情感正确性、主题相关性、流畅性)来评估模型性能。
  2. 去毒化(Detoxification)
    • 使用Toxicity Classification Kaggle挑战数据集训练分类器,并使用REALTOXICITYPROMPTS数据集作为实验语料。
    • 使用GPT2-large模型,并采用与情感控制实验相同的提示技术。
    • 通过Perspective API评估生成文本的毒性,并使用困惑度(PPL)和平均独特性(dist-3)来衡量文本质量。
    • 同样与多种基线方法进行比较,并进行人工评估。
  3. 多属性控制(Multiple Attribute Controlling)
    • 使用Yelp数据集进行实验,该数据集包含带有情感(正面和负面)和主题(美国、墨西哥、亚洲)标签的餐厅评论。
    • 引入时间(过去和现在)作为第三个属性,并使用RoBERTa-based分类器进行评估。
    • 报告生成文本的困惑度(PPL)和平均独特性(dist-3)以展示文本的流畅性和多样性。
    • 与包括GEDI、DIST. LENS、TAILOR、PROMPT-GATING在内的多种基线方法进行比较,并进行人工评估。
  4. 进一步研究
    • 分析了“量化”和“加噪”对模型性能的影响。
    • 探讨了在多属性控制中不使用“weigher”模块而采用平均奖励的影响。
    • 比较了token级反馈与句子级反馈在训练步骤上的收敛速度。
    • 研究了量化中q-quantile的数量对性能的影响。
    • 考察了KL散度和熵项的超参数系数α和β对性能的影响。

这些实验不仅展示了TOLE算法在不同任务上的性能,还通过与多种先进方法的比较,证明了其在可控文本生成领域的优越性和实用性。

Q5: 有什么可以进一步探索的点?

A:尽管论文提出的TOLE算法在可控文本生成方面取得了显著的成果,但仍有一些方面可以进行进一步的探索:

  1. 算法泛化能力:虽然TOLE在特定数据集和任务上表现良好,但其在不同类型的语言模型或其他NLP任务上的泛化能力尚需进一步验证。
  2. 奖励设计:论文中提到了奖励黑客(reward hacking)的问题,即模型可能会找到评分器的无意捷径。探索更复杂的奖励设计或正则化技术以防止模型利用这些捷径,是一个重要的研究方向。
  3. 多语言和跨领域应用:研究TOLE算法在不同语言和跨领域文本生成任务中的应用,以及如何适应不同的文化和领域特定语境。
  4. 实时应用和可扩展性:论文中的实验是在受控的实验环境中进行的。研究如何将TOLE算法部署到实时系统中,并确保其在大规模应用中的可扩展性和效率。
  5. 长期训练的影响:探索长期训练对模型性能和稳定性的影响,以及如何平衡短期和长期奖励以实现更好的控制。
  6. 用户交互和个性化:研究如何将TOLE算法与用户交互相结合,以实现更个性化的文本生成,满足不同用户的特定需求。
  7. 伦理和社会影响:由于大型语言模型可能生成有争议的内容,研究如何确保TOLE算法的使用符合伦理标准,并减少对社会的潜在负面影响。
  8. 模型解释性:提高模型的可解释性,帮助研究人员和用户理解模型的决策过程,以及每个生成步骤如何贡献于最终的文本属性。
  9. 数据效率和样本效率:研究如何提高TOLE算法的数据效率和样本效率,减少训练过程中所需的数据量和计算资源。
  10. 集成学习和社会学习:探索集成学习方法,例如通过结合多个专家模型来提高控制文本生成的性能。同时,研究社会学习方法,允许模型从人类反馈中学习并自我改进。

这些潜在的研究方向可以帮助进一步提升可控文本生成技术的性能和实用性,同时解决与算法相关的伦理和社会问题。

Q6: 总结一下论文的主要内容?

A:这篇论文的主要内容可以总结如下:

  • 标题: Reinforcement Learning with Token-level Feedback for Controllable Text Generation
  • 作者: Wendi Li, Wei Wei, Kaihe Xu, Wenfeng Xie, Dangyang Chen, Yu Cheng
  • 机构: 华中科技大学、平安产险研究院、香港中文大学
  • 摘要: 论文提出了一种新的强化学习算法TOLE,用于可控文本生成。TOLE通过token级别的奖励来提供更精细的控制,采用“先量化后加噪”的策略来增强算法的鲁棒性,并能灵活扩展到多属性控制任务。
  • 引言: 介绍了大型语言模型(LLMs)在实际应用中控制生成文本的需求,以及现有方法(如重训练、微调、后处理)的局限性。指出了现有RL方法通常使用粗粒度反馈,导致性能次优和收敛缓慢。
  • 相关工作: 回顾了可控文本生成的相关工作,包括基于不同框架的方法和多属性控制的研究。
  • 方法:
    • 标记级奖励: 提出了一种基于贝叶斯分解的替代视角,将token级奖励定义为属性分类器概率变化。
    • RL算法: 介绍了TOLE算法的训练过程,包括初始化、探索、量化与加噪、学习等步骤。
    • 多属性扩展: 描述了如何通过训练一个小型的“weigher”模块来结合多个属性评分器的奖励,以实现多属性控制。
  • 实验: 在情感控制和去毒化任务上进行了单属性控制实验。在Yelp数据集上进行了双属性和三属性控制实验。与多种基线方法进行了比较,并进行了自动评估和人工评估。
  • 结果: TOLE算法在单属性和多属性控制任务上均取得了优越的性能,特别是在属性正确性和文本质量方面。
  • 讨论: 论文讨论了算法的局限性,如无法达到100%的属性控制准确性,以及可能的应用场景限制。
  • 伦理声明: 论文强调了生成的文本不代表作者观点,并指出算法可以帮助减少LLMs生成的有毒文本。
  • 致谢: 感谢支持研究的机构和匿名审稿人。
  • 参考文献: 列出了相关研究和工作的参考文献。

整体而言,这篇论文提出了一个创新的RL算法,通过token级别的精细控制和鲁棒的探索策略,显著提高了可控文本生成的性能,并在多个实验任务中验证了其有效性。

以上内容均由KimiChat生成,深入了解论文内容仍需精读论文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每日论文速递 | TeaMs-RL: 通过强化学习让LLM自己学会更好的指令
摘要:大语言模型(LLM)的开发经常面临挑战,这些挑战源于强化学习与人类反馈(RLHF)框架中对人类注释者的严重依赖,或与自我指导范式相关的频繁而昂贵的外部查询。在这项工作中,我们转向了强化学习(RL)--但有一个转折。与典型的 RLHF(在指令数据训练后完善 LLM)不同,我们使用 RL 直接生成基础指令数据集,仅此数据集就足以进行微调。我们的方法 TeaMs-RL 使用一套文本操作和规则,优先考虑训练数据集的多样化。它有助于生成高质量数据,而无需过度依赖外部高级模型,从而为单一微调步骤铺平了道路,并消除了对后续 RLHF 阶段的需求。我们的研究结果凸显了我们的方法的主要优势:减少了对人工参与的需求,减少了模型查询次数(仅为WizardLM总查询次数的5.73美元/%$),同时,与强大的基线相比,LLM在制作和理解复杂指令方面的能力得到了增强,模型隐私保护也得到了大幅改善。
zenRRan
2024/03/25
8290
每日论文速递 | TeaMs-RL: 通过强化学习让LLM自己学会更好的指令
ACL2020 | 使用强化学习为机器翻译生成对抗样本
本文介绍的是 ACL 2020 论文《A Reinforced Generation of Adversarial Examples for Neural Machine Translation》,论文作者来自南京大学、腾讯。
AI科技评论
2020/07/15
1.2K0
ACL2020 | 使用强化学习为机器翻译生成对抗样本
强化学习在生成式预训练语言模型中的研究现状简单调研
本文旨在深入探讨强化学习在生成式预训练语言模型中的应用,特别是在对齐优化、提示词优化和经验记忆增强提示词等方面的具体实践。通过对现有研究的综述,我们将揭示强化学习在提高生成式语言模型性能和人类对话交互的关键作用。虽然这些应用展示了巨大的潜力,但也将讨论现有方法的挑战和可能的未来发展方向。
Ranlychan
2024/01/10
5200
每日论文速递 | ALARM:通过分级Reward对齐LLM
摘要:我们介绍了 ALaRM,它是第一个在人类反馈强化学习(RLHF)中模拟分层奖励的框架,旨在增强大语言模型(LLM)与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励整合在一起,解决了当前对齐方法的局限性,这些方法往往难以应对人类监督信号的不一致性和稀缺性。这种整合能更精确、更一致地指导语言模型实现预期结果,尤其是在复杂、开放的文本生成任务中。通过采用一种基于一致性过滤和组合多种奖励的方法,该框架提供了一种可靠的机制来改善模型的一致性。我们在长式问题解答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较,验证了我们的方法,并展示了与现有基线相比的改进。我们的工作强调了分层奖励建模在改进 LLM 训练过程以改善人类偏好对齐方面的有效性。
zenRRan
2024/03/25
3050
每日论文速递 | ALARM:通过分级Reward对齐LLM
每日论文速递 | [NeurIPS'23 Oral] DPO:Language Model 是一个 Reward Model
摘要:虽然大规模无监督语言模型(LMs)可以学习广泛的世界知识和一些推理技能,但由于其训练完全不受监督,因此很难实现对其行为的精确控制。获得这种可控性的现有方法通常是通过人类反馈强化学习(RLHF),收集人类对各代模型相对质量的标签,并根据这些偏好对无监督语言模型进行微调。然而,RLHF 是一个复杂且经常不稳定的过程,首先要拟合一个反映人类偏好的奖励模型,然后利用强化学习对大型无监督 LM 进行微调,以最大限度地提高估计奖励,同时不会偏离原始模型太远。在本文中,我们介绍了 RLHF 中奖励模型的一种新参数化方法,它能以封闭形式提取相应的最优策略,使我们只需简单的分类损失就能解决标准的 RLHF 问题。由此产生的算法我们称之为直接偏好优化(DPO),它稳定、性能好、计算量小,在微调过程中无需从 LM 中采样,也无需进行大量的超参数调整。我们的实验表明,DPO 可以对 LM 进行微调,使其与人类偏好保持一致,甚至优于现有方法。值得注意的是,使用 DPO 进行的微调在控制代际情感的能力上超过了基于 PPO 的 RLHF,并且在总结和单轮对话中达到或提高了响应质量,同时在实现和训练方面也要简单得多。
zenRRan
2024/03/25
1.1K0
每日论文速递 | [NeurIPS'23 Oral] DPO:Language Model 是一个 Reward Model
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。
机器之心
2024/06/27
5200
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
4460
推理大模型的后训练增强技术-强化学习篇
每日论文速递 | 使用对比Reward改进RLHF
摘要:来自人类反馈的强化学习(RLHF)是将大语言模型(LLM)与人类偏好相匹配的主流范式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖励模型对各种来源的噪声(如人类标签错误)很脆弱、很敏感,从而使管道变得脆弱。在这项工作中,我们通过在奖励上引入惩罚项来提高奖励模型的有效性,该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤:(1) 离线采样步骤,获取对提示的回应,作为计算基线;(2) 使用基线回应计算对比奖励,并将其用于近端策略优化 (PPO) 步骤。我们的研究表明,对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估,我们的实证结果表明,对比性奖励可以大幅提高 RLHF,而且我们的方法始终优于强基线。
zenRRan
2024/03/25
6750
每日论文速递 | 使用对比Reward改进RLHF
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战,我们提出了一个新颖的框架:从反思反馈中强化学习Reinforcement Learning from Reflective Feedback (RLRF),它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应,然后通过 RL 算法对模型进行微调,同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明,RLRF 的功效和变革潜力超出了表面的调整。
zenRRan
2024/04/11
5630
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
近来,在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而,这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的,其中一些目标和技能设定未必希望被模仿。
机器之心
2023/08/04
5220
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
强化学习之原理与应用
强化学习特别是深度强化学习近年来取得了令人瞩目的成就,除了应用于模拟器和游戏领域,在工业领域也正取得长足的进步。百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识,强化学习在百度的应用,以及百度近期发布的基于PaddlePaddle深度学习框架的强化学习工具PARL。
用户1386409
2019/03/07
1.4K0
强化学习之原理与应用
每日论文速递 | DeepMind提出在线偏好对齐新方法:IPO-MD
摘要:确保语言模型的输出与人类偏好相一致,对于保证有用、安全和愉快的用户体验至关重要。因此,近来人们对人类对齐问题进行了广泛研究,并出现了一些方法,如人类反馈强化学习(RLHF)、直接策略优化(DPO)和序列似然校准(SLiC)。在本文中,我们有两方面的贡献。首先,我们展示了最近出现的两种配准方法,即身份策略优化(IPO)和纳什镜像下降(Nash-MD)之间的等价性。其次,我们引入了 IPO 的概括,命名为 IPO-MD,它利用了 Nash-MD 提出的正则化采样方法。这种等价性乍看起来可能令人惊讶,因为 IPO 是一种离线方法,而 Nash-MD 是一种使用偏好模型的在线方法。然而,如果我们考虑 IPO 的在线版本,即两代人都由在线策略采样并由训练有素的偏好模型注释,就可以证明这种等价性。利用这样的数据流优化 IPO 损失,就等同于通过自我博弈找到偏好模型的纳什均衡。基于这种等效性,我们引入了 IPO-MD 算法,该算法与一般的纳什-MD 算法类似,使用混合策略(介于在线策略和参考策略之间)生成数据。我们将在线 IPO 和 IPO-MD 与现有偏好数据损失的不同在线版本(如 DPO 和 SLiC)在总结任务上进行了比较。
zenRRan
2024/03/25
4610
每日论文速递 | DeepMind提出在线偏好对齐新方法:IPO-MD
Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架
最近的工作表明,使用具有质量奖励的强化学习(RL)可以提高文本到图像(T2I)生成中生成图像的质量。然而,多个奖励的简单聚合可能会导致某些指标的过度优化和其他指标的退化,并且手动找到最佳权重具有挑战性。所以非常需要一种有效的策略来联合优化 RL 中的多种奖励以生成 T2I。
用户1324186
2024/03/26
4650
Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架
【干货】ICML2018:63篇强化学习论文精华解读!
【新智元导读】机器学习顶会ICML 2018从2473份提交论文中接收了621篇,其中有63余篇强化学习相关论文,作者将这些论文分成了多个类别,并对每篇文章的核心贡献做了精炼的总结,这些文章也是追踪强化学习最前沿技术的绝佳材料,精炼的总结也也便于我们快速查找与自己研究相关的文章。
新智元
2018/08/01
1.1K0
【干货】ICML2018:63篇强化学习论文精华解读!
「Next-Token」范式改变!刚刚,强化学习预训练来了
在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」
机器之心
2025/06/12
1000
「Next-Token」范式改变!刚刚,强化学习预训练来了
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
9400
【强化学习】Reward Model(奖励模型)详细介绍
突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架
本论文由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者合作完成。
机器之心
2025/02/14
1580
突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
强化学习(RL)是当今 AI 领域最热门的词汇之一。近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。
机器之心
2025/05/08
1400
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
83篇文献-万字总结 || 强化学习之路
深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文,本文将阐述深度强化学习的发展现状,并对未来进行展望。
深度强化学习实验室
2020/02/25
1.5K0
83篇文献-万字总结  ||  强化学习之路
推荐阅读
相关推荐
每日论文速递 | TeaMs-RL: 通过强化学习让LLM自己学会更好的指令
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档