首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

机器人快速适应新任务的元强化学习技术

用户11764306

强化学习是一种人工智能代理与环境交互并根据获得的奖励学习策略的技术。虽然强化学习在Atari等游戏中已展现人类水平的表现,但将其应用于现实场景(如装配线机器人或...

4910

强化学习中慢速网络学习更快

用户11764306

在强化学习(RL)中,较慢的网络反而能够更快地学习——当在深度强化学习中优化新解决方案时,如果优化器倾向于先前的解决方案,则会有所帮助。

8610

学习率调度算法的强化学习优化

用户11764306

基于此,研究采用强化学习(RL)框架自动生成学习率调度策略。在NMF任务中,RL生成的调度程序优于步进衰减等启发式方法,证明了元学习调度在简化领域的可行性。

10310

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

机器之心

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自 Unsloth 团队的文章。

31210

打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner

机器之心

人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有...

16010

Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品

机器之心

现存最先进的 Agentic Deep Research 系统往往基于由可验证结果奖励指导的强化学习训练,尽管该训练范式带来了显著的性能收益,但仍存在以下核心问...

11210

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

机器之心

自 OpenAI o1 系列模型问世以来,基于「可验证奖励」的强化学习(RLVR)已成为提升大模型推理能力的主流。通过海量的数学题、代码题进行训练,AI 在客观...

10610

生成式AI购物助手技术架构解析

用户11764306

与大多数基于通用数据集训练后再进行领域定制的大语言模型不同,该项目从初始阶段就专注于使用购物数据进行训练。训练数据涵盖整个商品目录、用户评论以及社区问答内容,科...

9810

GRPO强化学习算法,究竟如何让AI从‘模仿’走向‘思考’?如何让AI具备真正的推理能力,而不仅仅是模仿?

三桥君

本文三桥君将深入探讨GRPO强化学习算法的核心原理、应用场景及其优势,帮助你理解AI如何从 “模仿” 迈向 “思考”,并为AI产品经理提供实践指导。

12110

【三桥君】如何让AI从简单的记忆型模型进化为具备深度推理能力的‘学霸’?—— 解析提升AI推理能力的四大核心技术

三桥君

通过推理时间扩展、纯强化学习、标注数据 + 强化学习、知识蒸馏四大核心技术,AI的推理能力得到了显著提升。未来,三桥君认为AI将不再是简单的工具,而是能够与人类...

12310

强化学习在广告推荐中的技术应用

用户11764306

某中心商店如何确定向客户展示哪些产品和优惠?部分答案涉及强化学习——这是一种机器学习方法,智能体通过逐步学习策略集以实现奖励最大化。某中心广告部门的高级首席应用...

13810

强化学习前沿:多智能体RL的博弈均衡求解与算法探索

用户6320865

传统强化学习研究主要聚焦于单个智能体在孤立环境中的决策问题,其核心是马尔可夫决策过程(MDP)框架下的最优策略求解。然而随着人工智能应用场景的复杂化,2020年...

48510

强化学习前沿探索:元强化学习的MAML框架、任务分布的二阶梯度优化与上下文编码的注意力机制

用户6320865

强化学习作为机器学习领域的重要分支,其核心思想是通过智能体与环境的交互学习最优策略。2025年的今天,这一技术已从最初的游戏领域扩展到机器人控制、金融决策、医疗...

19910

强化学习前沿探索:逆向强化学习的最大熵模型与GAIL的生成对抗训练

用户6320865

在人工智能领域,强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,近年来取得了突破性进展。2025年的今天,强化学习已从最...

24110

深入解析分层强化学习:选项框架、子策略终止条件与MaxQ算法

用户6320865

在传统强化学习框架中,智能体通过试错学习直接与环境交互,这种“扁平化”的决策模式在面对复杂任务时往往陷入维度灾难。2023年《软件学报》的研究指出,当状态空间维...

16910

深入解析分布式强化学习中的价值分布建模与C51算法

用户6320865

在人工智能领域,强化学习(Reinforcement Learning, RL)正经历着从单一智能体向分布式系统的范式转变。2025年的最新研究显示,分布式强化...

15010

深入浅出:强化学习策略优化与高级方法——软演员-评论家(SAC)的熵正则化与温度系数自动调节

用户6320865

在人工智能领域,强化学习(Reinforcement Learning, RL)已经成为解决序列决策问题的核心范式。2025年的当下,随着计算能力的持续提升和算...

26310

深入解析强化学习中的PPO算法:Clip机制、替代目标函数与KL惩罚项的自适应调节

用户6320865

在人工智能的众多分支中,强化学习因其独特的"试错学习"机制而独树一帜。与监督学习不同,强化学习中的智能体通过与环境的持续交互来学习最优策略,这一特性使其在机器人...

24710

深入解析强化学习中的自然策略梯度:信息几何视角下的Fisher信息矩阵与KL散度约束

用户6320865

在人工智能领域,强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,近年来取得了突破性进展。与监督学习和无监督学习不同,强化...

18610
领券