首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

开源编程模型NousCoder-14B技术解析与未来挑战

用户11764306

NousCoder-14B的发布与许多竞争对手公告的不同之处在于其极致的开放性。Nous Research不仅发布了模型权重,还发布了完整的强化学习环境、基准测...

3110

21:Ace-Step1.5 深度解析:高效音乐生成的技术革命

安全风信子

作者: HOS(安全风信子) 日期: 2026-02-07 主要来源平台: ModelScope 摘要: Ace-Step1.5作为新一代高效音乐基础模型...

6410

强化学习:慢网络何以学得更快

用户11764306

总体而言,实证和理论结果支持这一主张:在深度强化学习中为新的解决方案进行优化时,让优化器倾向于先前的解决方案是有益的。更重要的是,我们看到深度强化学习优化中的简...

7310

内部强化学习破解AI长程推理难题

用户11764306

为了解决这个问题,该领域长期以来一直关注分层强化学习。分层强化学习试图通过将复杂问题分解为时间抽象动作的层级结构来解决问题,而不是将任务作为一串令牌来管理。

8910

强化学习研究者的成长之路与技术探索

用户11764306

在完成硕士课程后,Long 在新南威尔士大学攻读计算机科学博士学位。他希望探索如何帮助强化学习模型通过更少的交互学习,从而变得更加数据高效的挑战。成果便是论文《...

10510

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

机器之心

为此,斯坦福大学、英伟达等机构联合提出一种新方法:在测试时进行强化学习(RL),即让 LLM 在尝试解决特定测试问题的过程中持续训练自己。

8910

AI也会产生情感吗?从算法到心跳的奇幻之旅

AIprince

2016年的科幻电影《摩根》以一场突如其来的暴力开场——五岁的基因改造人摩根,在餐桌上突然对前来安慰自己的保姆凯西发起猛击。监控数据显示, 摩根的各项生理指标平...

15110

DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了

机器之心

为进一步检验:当只奖励正确答案时,大模型是否会自发强化对话式行为,为此,作者设计并实施了一项自教式强化学习(self-taught RL)实验。结果显示对话式结...

16810

大模型圈娱乐化逼疯人!OpenAI七年元老离职首发声:谷歌赢麻?不过是OpenAI失误了!

深度学习与Python

这不是离职八卦,而是在一个把技术做成剧情、把研究变成围观的行业里,扛了七年高压后的选择。

15610

每周AI论文速递(260112-260116)

叶子的技术碎碎念

[观看、推理与搜索:面向智能体视频推理的开放网络视频深度研究基准](https://arxiv.org/abs/2601.06943)

17610

多奖励场景全面领先!清华新作高熵驱动,强化学习效率飙升

新智元

近年来,扩散模型与流匹配模型等生成式 AI 技术在视觉内容创作领域取得突破性进展,从艺术设计到医疗成像,应用场景不断拓展。而强化学习从人类反馈(RLHF)技术的...

10510

生成式 AI 质量控制:幻觉抑制与 RLHF 对齐技术详解

果粒蹬

生成式人工智能(Generative AI)凭借其强大的内容生成能力,已在自然语言处理、代码生成、多模态创作等领域实现规模化应用。然而,伴随其广泛落地的是严峻的...

11210

使用BroRL扩展探索突破强化学习训练瓶颈

用户11764306

在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL...

10210

大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题

机器之心

为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了 TARS (Trajectory Alignment for Reasoning in Spee...

12910

美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?

机器之心

正如其推文总结的那样,我们先给出几个关键词:并行思考、迭代式总结、环境规模扩展(Environment Scaling)、多环境大规模强化学习(Multi-En...

14410

多智能体强化学习(MARL)核心概念与算法概览

deephub

训练单个 RL 智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。

12010

机械臂 强化学习 Demo

松灵机器人

仓库包含了PiPER RL的简单演示代码,演示了如何使用PiPER RL训练一个简单的任务: Reach Target,任务要求PiPER的夹爪中心到达指定的目...

10710

机械臂 强化学习 Demo

松灵机器人

仓库包含了PiPER RL的简单演示代码,演示了如何使用PiPER RL训练一个简单的任务: Reach Target,任务要求PiPER的夹爪中心到达指定的目...

10710

Q-Learning算法实现与迷宫求解

心疼你的一切

强化学习正在快速发展,在游戏、机器人控制、自动驾驶、推荐系统等领域都有广泛应用。掌握Q-Learning等基础算法是深入理解强化学习的重要第一步。希望本文能够为...

10310

强化学习_从Q-Learning到深度强化学习

心疼你的一切

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,专注于智能体(Agent)如何通过与环境(Environment)的交...

26210
领券