强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
在智能系统中,应用范围涵盖自主机器人到预测性维护问题。要控制这些系统,需要模型来捕捉其核心要素。当为这些模型设计控制器时,我们几乎总是面临同一个挑战:不确定性。...
LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(Re...
强化学习训练过程涉及模型多,数据流转复杂,经典的“串行”训练框架,存在资源闲置,训练效率低的情况。 verl 通过自动映射算法进行计算资源的智能规划,通过混合编...
随着模型参数规模扩大、生成序列变长以及混合专家(MoE)等稀疏结构的应用,RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一...
直接偏好优化(Direct Preference Optimization DPO)的核心理论突破在于通过数学变换,将 “奖励建模 + 策略优化” 的 RLHF...
广义相对策略优化 GRPO(Generalized Relative Policy Optimization)通过消除额外价值函数带来的内存和计算开销,降低了 ...
近端策略优化PPO(Proximal Policy Optimization)针对策略梯度PG(Policy Gradient)中 “策略更新幅度过大导致不稳定...
策略梯度 PG(Policy Gradient)是强化学习中直接优化策略的最基础方法,是后续所有策略梯度类算法的 “源头”。通过计算 “策略的梯度”,即策略参数...
强化学习(Reinforcement Learning)是大模型后训练的重要一环,其主要是研究智能体和环境的交互问题,其中涉及多种强化学习策略和优化方案。本节围...
step 1:仅通过强化学习RL,获得推理能力涌现,借此得到大量高质量Cot微调数据。
2024 年底,硅谷和北京的茶水间里都在讨论同一个令人不安的话题:Scaling Law 似乎正在撞墙。
GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。
智能体强化学习: 通过强化学习信号直接优化 DR 智能体在多步决策过程中的行为策略,无需复杂人工标注。主要细分为两种做法:
这篇论文提出了一种名为IRPO的强化学习框架,通过将Bradley-Terry模型集成到Group Relative Policy Optimization中,...
当然,预训练、微调、强化学习本质上都是在计算梯度以更新参数。如果有合适的海量数据和 Loss 函数,未来在预训练阶段采用 SFT(监督微调)或特殊的强化学习方法...
期刊: Chemical Science 链接: https://doi.org/10.1039/d4sc07642g 代码: https://github.c...
在药物研发领域,如何高效发现兼具高活性与新颖性的小分子配体始终是核心挑战。近日,《Nature Communications》 发表的研究《Identifica...
期刊: arXiv 链接: https://arxiv.org/abs/2505.00530v1
在浩瀚如烟的化学宇宙中寻找那颗满足成药性多重标准的“明星分子”,是新药研发领域的核心挑战之一。传统方法往往耗时耗力,而近年来,人工智能(AI),特别是深度学习和...
期刊: bioRxiv preprint 链接: https://doi.org/10.1101/2025.03.17.643626