首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >使用BroRL扩展探索突破强化学习训练瓶颈

使用BroRL扩展探索突破强化学习训练瓶颈

原创
作者头像
用户11764306
发布2026-01-23 14:19:22
发布2026-01-23 14:19:22
1120
举报

使用BroRL的扩展探索突破强化学习训练瓶颈

在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL)表明,在延长训练期间增加更多强化学习步骤可以扩展LLMs的推理边界。

但最终,团队遇到了瓶颈。经过数千步训练后,性能提升减弱,模型的改进停滞,甚至开始退化。关于此的更多细节,请参阅《使用ProRL v2通过延长训练来扩展LLM强化学习》。

这引发了一个关键问题:这个瓶颈是RL的根本限制,还是执行扩展方式导致的假象?

今天,我们很高兴介绍扩展强化学习(BroRL),这是一个探索互补且强大的扩展维度:路径扩展的新范式。BroRL不是仅仅训练更多步骤,而是将每个提示的探索性路径数量大幅增加到数百的量级。这种方法突破了其他方法停滞的性能上限,并被证明在数据和计算效率上显著更高。我们将发布使用BroRL训练的最先进的15亿参数模型。

本文深入探讨了相关的核心理论见解、新的实证结果,以及为什么扩展路径是解锁LLMs下一层级推理能力的关键。

BroRL如何实现持续学习?

大多数RL扩展工作侧重于训练长度。这通常导致学习信号不稳定,模型难以摆脱其现有的知识库。RL的感知限制通常只是其探索策略的限制。

BroRL通过专注于在每个更新步骤进行路径扩展来探索,从而挑战这一范式。其目标是通过从根本上稳定RL过程,实现在先前停滞处的持续学习,超越渐进式收益。

表1. 步骤扩展(ProRL)与路径扩展(BroRL)的核心比较

特性

步骤扩展(例如ProRL)

路径扩展(BroRL)

扩展方式

增加更多训练步骤(3000+)

增加每个提示的路径数量(N=512)

性能趋势

遇到性能瓶颈;收益递减

突破瓶颈;稳健、持续改进

学习信号

可能不稳定且嘈杂

来自详尽探索的稳定、高质量更新

效率

在饱和点效率低下

计算和数据效率更高

路径扩展如何控制RL的不稳定性?

如《BroRL:通过扩展探索来扩展强化学习》中详细所述,我们的理论分析(第2节)揭示,RL更新过程受两种竞争力量支配:已采样的路径和未采样的空间。

可以做一个类比:想象探索一片广阔、浓雾笼罩的景观以找到最高峰。你实际走过的路径(已采样的路径)提供了可靠、积极的反馈,帮助你提升高度。然而,你没有走的无数条路径(未采样的空间)产生了不确定性和噪声。这种噪声就像引力,把你拖下山坡。当你只派出少数侦察兵(ProRL中N=16)时,他们的报告是嘈杂的,这种向下的拉力可能强大到足以阻止你上升,让你困在高原上。

BroRL的解决方案简单而强大:派出整支侦察大军(N=512)。通过绘制景观的绝大部分,来自未探索迷雾的随机噪声被平均化,并变得极其微弱。所有成功路径带来的“向上信号”变得极其强大。

在我们的形式化分析中,这意味着当N很大时,模型性能的净变化变为正(ΔJ > 0)。这提供了一个稳定、高质量的学习信号,使模型能够攀升越过瓶颈。

突破RL性能瓶颈

我们将BroRL方案应用于一个在3000个训练步骤后已经达到瓶颈的强大ProRLv2模型。结果是决定性的。

图1 讲述了一个有力的故事。继续使用ProRL方案(蓝线)会导致停滞和最终的退化,而BroRL(橙线)则使模型恢复活力,实现了稳健且持续的绩效提升,突破了先前的上限。

图1. BroRL (N=512) 在数学基准测试上展示了持续的绩效提升,而ProRL (N=16) 则达到瓶颈并随着延长训练而退化

BroRL综合结果

我们使用64个某中心H100 GPU,继续使用原始方案(N=16)和新的BroRL方案(N=512)训练3000步的ProRLv2检查点。分歧是明显的:ProRL停滞不前,而BroRL在更短的时间内带来了稳定、显著的提升。

表2. BroRL与ProRL在关键推理基准测试上的综合性能比较

方法

N

RL 步骤

总时间 (小时)

数学分数

代码分数

Reasoning Gym 分数

Baseline

16

2,000

60.14

51.43

59.06

Baseline

16

3,000

61.69

52.00

61.29

ProRL

16

3,000+225

+56.3

62.08

52.26

62.10

ProRL

16

3,000+535

+133.8

62.02 (停滞)

52.74

61.45 (退化)

BroRL

512

3,000+107

+98.1

62.62

53.31

62.71

BroRL

512

3,000+134

+122.8

62.85

53.48

62.82

BroRL

512

3,000+419

+393.9

63.66

56.64

63.40

仅用98.1小时后,BroRL已经在所有指标上决定性地超越了ProRL方法的最终性能,完成时间大约少了35小时。这证实了,对于推动饱和模型的边界,扩展路径规模是一个更有效且计算效率更高的策略。

BroRL为15亿参数的推理模型设定了最先进的水平,在数学(63.66)、代码(56.64)和推理健身房(63.40)基准测试中取得了最高分。

卓越的计算效率

BroRL不仅更好,而且在使用计算方面更快、更智能。

  • 算法效率:大量N的路径产生了更多样化的候选样本集。用于过滤无信息轨迹的动态采样通过率从41%跃升至62%,意味着浪费的计算更少。
  • 硬件效率:BroRL将生成过程从内存限制转变为计算限制,并提高了前缀缓存命中率。因此,GPU可以充分利用其并行处理能力,在我们的硬件设置中,吞吐量从36.5样本/秒几乎翻倍至72.4样本/秒。

表3. BroRL与ProRL的计算效率指标(采样通过率和吞吐量)

方法 (N)

动态采样通过率

生成吞吐量 (样本/秒)

ProRL (16)

41%

36.5

BroRL (512)

62%

72.4

更高的令牌效率

BroRL在数学和代码基准测试上都以更少的输出令牌实现了更高的准确性,表明具有更好的“分数-每-令牌”效率和更紧凑、冗余更少的推理。

大量N的路径探索(N=512)为每个提示展示了众多简洁、高收益的轨迹,这既提高了采样紧凑正确链条的机会,又减少了对冗长、低信号推理的依赖。这在步骤扩展通常会导致令牌膨胀的情况下,将质量与响应长度解耦。

表4. BroRL与ProRL在数学和代码任务上的令牌效率比较

任务

ProRL 分数

BroRL 分数

分数差异

ProRL 令牌数

BroRL 令牌数

令牌差异

数学

62.02

63.66

+1.64

16,506

15,760

-745

代码

52.74

56.64

+3.90

26,808

26,090

-717

开始使用BroRL

我们的研究结果确立了路径规模不仅是超参数,而且是扩展强化学习的关键且高效的维度。步骤扩展方法遇到的性能瓶颈并非RL的根本限制,而是探索不足的假象。关键的见解和要点包括:

  1. 路径扩展是RL一个新的、至关重要的扩展维度。它在仅靠深度扩展会失败的地方提供了稳定的学习信号。
  2. 性能瓶颈并非死胡同。可以通过扩展路径规模以生成更高质量的策略更新来克服。
  3. BroRL计算效率更高,使硬件吞吐量翻倍并提高了算法样本效率。
  4. BroRL令牌效率更高,用更少的资源实现更多。
  5. 新的BroRL训练检查点为15亿参数的推理模型设定了最先进水平。

对于那些希望用RL最大化其模型潜力的人来说,BroRL提供了一条有原则的前进道路:当你遇到瓶颈时,不要只是向前推进——要拓宽探索。

要开始使用,请通过Hugging Face探索和评估BroRL模型。

致谢

感谢Yejin Choi、Fang Wu、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz和Jun Yang对本文的贡献。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用BroRL的扩展探索突破强化学习训练瓶颈
    • BroRL如何实现持续学习?
    • 路径扩展如何控制RL的不稳定性?
    • 突破RL性能瓶颈
    • BroRL综合结果
    • 卓越的计算效率
    • 更高的令牌效率
    • 开始使用BroRL
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档