首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

在多环境部分可观测场景中学习鲁棒控制器

用户11764306

在智能系统中,应用范围涵盖自主机器人到预测性维护问题。要控制这些系统,需要模型来捕捉其核心要素。当为这些模型设计控制器时,我们几乎总是面临同一个挑战:不确定性。...

5510

网民票选AI王者,LMArena一夜变17亿美元独角兽!

新智元

LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(Re...

13810

强化学习|训练框架verl介绍

AI老马

强化学习训练过程涉及模型多,数据流转复杂,经典的“串行”训练框架,存在资源闲置,训练效率低的情况。 verl 通过自动映射算法进行计算资源的智能规划,通过混合编...

12910

强化学习|GRPO GSPO SAPO 演进

AI老马

随着模型参数规模扩大、生成序列变长以及混合专家(MoE)等稀疏结构的应用,RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一...

15110

强化学习|直接偏好优化 DPO 介绍

AI老马

直接偏好优化(Direct Preference Optimization DPO)的核心理论突破在于通过数学变换,将 “奖励建模 + 策略优化” 的 RLHF...

13810

强化学习|广义相对策略优化GRPO

AI老马

广义相对策略优化 GRPO(Generalized Relative Policy Optimization)通过消除额外价值函数带来的内存和计算开销,降低了 ...

9510

强化学习|近端策略优化 PPO

AI老马

近端策略优化PPO(Proximal Policy Optimization)针对策略梯度PG(Policy Gradient)中 “策略更新幅度过大导致不稳定...

28210

强化学习|策略梯度算法介绍

AI老马

策略梯度 PG(Policy Gradient)是强化学习中直接优化策略的最基础方法,是后续所有策略梯度类算法的 “源头”。通过计算 “策略的梯度”,即策略参数...

11310

强化学习 | 优化策略 Roadmap 介绍

AI老马

强化学习(Reinforcement Learning)是大模型后训练的重要一环,其主要是研究智能体和环境的交互问题,其中涉及多种强化学习策略和优化方案。本节围...

13210

Deepseek-R1 训练过程,两步四阶段,一图搞定!

AI老马

step 1:仅通过强化学习RL,获得推理能力涌现,借此得到大量高质量Cot微调数据。

22610

2026年,大模型训练的下半场属于「强化学习云」

机器之心

2024 年底,硅谷和北京的茶水间里都在讨论同一个令人不安的话题:Scaling Law 似乎正在撞墙。

20010

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

机器之心

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。

9710

系统学习Deep Research,这一篇综述就够了

机器之心

智能体强化学习: 通过强化学习信号直接优化 DR 智能体在多步决策过程中的行为策略,无需复杂人工标注。主要细分为两种做法:

28910

Paramind AI 每日精选 · 2026-01-06 • 腾讯推出youtu 2b小模型

AgenticAI

这篇论文提出了一种名为IRPO的强化学习框架,通过将Bradley-Terry模型集成到Group Relative Policy Optimization中,...

13210

NUS尤洋教授深度探讨智能增长的瓶颈:或许我们将这样实现AGI?

机器之心

当然,预训练、微调、强化学习本质上都是在计算梯度以更新参数。如果有合适的海量数据和 Loss 函数,未来在预训练阶段采用 SFT(监督微调)或特殊的强化学习方法...

11510

Chem. Sci. | PepINVENT:基于生成式 AI 的天然与非天然氨基酸肽设计新框架

MindDance

期刊: Chemical Science 链接: https://doi.org/10.1039/d4sc07642g 代码: https://github.c...

8210

Nat. Commun. | 基于强化学习与结构药物设计发现纳米级腺苷 A₂ₐ受体配体:技术突破与应用前景

MindDance

在药物研发领域,如何高效发现兼具高活性与新颖性的小分子配体始终是核心挑战。近日,《Nature Communications》 发表的研究《Identifica...

6510

AI+Drug 文献速递 | PSV-PPO 算法:通过实时 SMILES 验证提升强化学习在药物设计中的分子生成有效性与多样性

MindDance

期刊: arXiv 链接: https://arxiv.org/abs/2505.00530v1

9810

浅析REINVENT: AI驱动的分子从头设计利器

MindDance

在浩瀚如烟的化学宇宙中寻找那颗满足成药性多重标准的“明星分子”,是新药研发领域的核心挑战之一。传统方法往往耗时耗力,而近年来,人工智能(AI),特别是深度学习和...

13610

AI+Drug 文献速递 | 当强化学习遇上结构预测,HighPlay 如何重塑环状肽设计?

MindDance

期刊: bioRxiv preprint 链接: https://doi.org/10.1101/2025.03.17.643626

10610
领券