首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

OpenClaw-RL: 通过对话训练任意智能体的全新框架

安全风信子

本节核心价值:理解 OpenClaw-RL 诞生的背景和解决的核心问题,把握当前智能体强化学习的关键挑战。

11710

39:超级智能决策核心:LLM+强化学习混合系统架构

安全风信子

作者: HOS(安全风信子) 日期: 2026-03-15 主要来源平台: GitHub 摘要: 本文深入探讨LLM与强化学习相结合的混合系统架构,从系统...

10010

对标DeepSeeK!MiniMax发布首款开源推理模型,训练成本仅53万美元

芯智讯

除此之外,MiniMax提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重(而非传统token更新)提升强化学习效率。在AIME 的实验中,MiniMa...

22610

黄仁勋为何与这家国产AI模型创始人单独会面两个小时?

芯智讯

除此之外,MiniMax提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重(而非传统token更新)提升强化学习效率。在AIME 的实验中,MiniMa...

13910

SeRA:通过自我审查提升RLHF性能的新方法

用户11764306

对比具有较大奖励差异的训练对可以减轻虚假相关性的影响,并将直接对齐算法的性能提升高达20%至40%。

13410

机器学习三大范式再定义:监督、无监督、强化-机器学习算法原子解构

jack.yang

在工业实践中,我们常听到“这是个监督学习问题”或“试试无监督聚类”。但当模型上线后遭遇分布偏移、奖励稀疏或标签噪声时,许多团队才发现:他们误判了问题的本质范式。...

16110

机器学习三大范式再定义:监督、无监督、强化-机器学习算法原子解构

jack.yang

在工业实践中,我们常听到“这是个监督学习问题”或“试试无监督聚类”。但当模型上线后遭遇分布偏移、奖励稀疏或标签噪声时,许多团队才发现:他们误判了问题的本质范式。...

16110

怎么理解与构建推理型大模型

山行AI

本文将介绍构建推理模型(Reasoning LLMs)的四种主要方法,即如何为大语言模型(LLMs)增强推理能力。希望这些内容能为你在快速发展的AI之路上提供一...

18110

MIT的SEAL框架:让大语言模型实现自我更新

用户11764306

麻省理工学院的研究人员揭晓了“SEAL”(Self-Adapting LLMs)框架,这是朝着能够自我改进的人工智能迈出的新一步。该框架使大型语言模型(LLMs...

18910

如何实现大模型后训练帮助AI在企业落地

春哥大魔王

从最初的RLHF(人类反馈强化学习),转向RLVR(基于可验证反馈强化学习),再转向前沿的“自然语言奖励”。

12410

通过"难度预判"机制提升小语言模型的数学推理能力

CreateAMind

Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Interv...

12210

活性物质的强化学习

CreateAMind

活性物质是指由自我驱动实体组成的系统,这些实体消耗能量以产生运动,表现出复杂的非平衡动力学,挑战了传统模型。随着机器学习的快速发展,强化学习(RL)已成为应对活...

9710

TBC-HRL:受生物启发的稳定且可解释的分层强化学习框架

CreateAMind

分层强化学习(HRL)通过分解复杂的决策过程,在长时域和稀疏奖励任务中表现出有效性,但由于层级间不稳定、子目标调度效率低下、响应延迟以及可解释性差等问题,其在现...

9110

自适应非局域可观测量的量子强化学习

CreateAMind

Quantum Reinforcement Learning by Adaptive Non-local Observables

9410

情绪的机制分析

CreateAMind

Deeply felt affect- the emergence of valence in deep active inference

10010

大型推理模型的强化学习综述(1-4章)

CreateAMind

A Survey of Reinforcement Learning for Large Reasoning Models

49420

元强化学习教程 A Tutorial on Meta-Reinforcement Learning(1-3章)

CreateAMind

元强化学习教程 A Tutorial on Meta-Reinforcement Learning

10610

强化学习在自动化优化中的应用综述

CreateAMind

A Survey of Reinforcement Learning for Optimization in Automation

9110

相似性驱动加权的终身强化学习模型

CreateAMind

Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models

10010

推理模型更容易产生幻觉吗? Are Reasoning Models More Prone to Hallucination?

CreateAMind

Are Reasoning Models More Prone to Hallucination?

12310
领券