首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

给图像生成配“阅卷老师”!RubricRL拒绝黑盒瞎蒙,用细粒度量表驯服大模型,指哪改哪!

AI生成未来

本文采用自回归文生图模型验证RubricRL框架有效性,该框架同样适用于扩散模型。本节首先介绍RubricRL整体架构,随后详述基于量规的奖励设计、RL训练方法...

4110

多模态思维链如何重塑 AI 与短视频的未来

深度学习与Python

传统多模态模型在动态视频理解与复杂推理场景面临严峻挑战。快手开源的 Keye-VL 模型在多模态思维链技术实现突破,具备独特的 auto-think(自动思考决...

4210

无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题

机器之心

最新研究 VisPlay 首次提出了一个自进化强化学习框架,使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。

3010

从梯度下降到知识图谱:解构AI人才培养的全栈流水线

math chen

最后,任何强大的模型都必须经过 RLHF(基于人类反馈的强化学习) 来进行安全对齐。在AI教育中,伦理教育就是那个“人类反馈”环节。

5800

机器学习基础入门(第五篇):半监督学习与强化学习

禁默

除此之外,还有一种完全不同的学习范式——强化学习(Reinforcement Learning)。它不依赖标签,而是让智能体(Agent)在环境中不断试错,通过...

14110

智能体开发基础:从概念到实现

禁默

智能体(Agent)是人工智能中的核心概念之一,它广泛应用于游戏AI、机器人、自动驾驶、智能客服等领域。本篇博客将从智能体的基本概念、核心架构、开发工具,以及简...

27810

强化学习公式大白话:从数学符号到真实世界的翻译指南

智谷星瀚

学习强化学习时,最让人头疼的莫过于那些看起来神秘莫测的数学公式。今天,我们就用最通俗的语言,为你揭开这些公式的面纱,看看它们到底在说什么。

9120

基于强化学习的量化交易框架 TensorTrade

deephub

TensorTrade 是一个专注于利用 强化学习 (Reinforcement Learning, RL) 构建和训练交易算法的开源 Python 框架。

7600

ML-SYS 学习宝典:从 RLHF 系统到 SGLang 深入解析

qife122

Awesome-ML-SYS-Tutorial 是一个专注于机器学习系统(ML SYS)领域的学习笔记与代码仓库。它旨在为对 ML 与系统交叉领域感兴趣的研究者...

13410

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

机器之心

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

22210

八、神经网络(下)

程序员三明治

美团 | 大模型后台开发 (已认证)

就像人类通过摸索试验来学习一样(比如骑自行车),让计算机也在摸索试验的过程中自主学习,这称为强化学习(reinforcement learning)。强化学习和...

5010

【AI在内容创作】

贺公子之数据科学与艺术

理解三幕剧、英雄之旅等叙事框架,通过概率图模型或强化学习构建情节连贯性。如OpenAI的StoryGeneration项目使用层次化LSTM生成多段落故事。

10710

揭秘对话式音乐推荐系统的机器学习技术架构

用户11764306

在当今的数字生活中,推荐系统无处不在,从在线购物到流媒体音乐,它们利用我们过往的选择来预测我们可能喜欢的下一个内容citation:10。然而,音乐推荐系统长期...

10010

RLHF三大挑战与突围之路:如何让大模型更懂人类偏好?

智谷星瀚

•RLHF:在训练instructGPT时,首先使用有人类生成的示例对模型进行预训练。然后,通过与人类评估者进行交互,收集评估结果,以创建一个用于强化学习的数据...

23121

从拓扑稠密到团队共振:一场AI for Science赛事的协作启示

math chen

在学术与产业的交叉领域里,始终流传着一个朴素的共识:牛逼的人在一个领域内必有另一个牛逼的人。这并非简单的人脉叠加,而是拓扑学意义上的“稠密性”——当我们将领域内...

16910

具身智能关键模型技术演化路线图

一点人工一点智能

横跨2012–2025年,把计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)、大语言/多模态模型(LLMs/MLLMs)以及世界模型(WMs)五条技...

9610

KLEIYN:一种具有主动腰部关节的四足机器人,用于运动与爬墙

一点人工一点智能

摘要:本论文提出了一种名为KLEIYN的新型四足机器人,其具备主动腰部关节,能够在复杂地形中进行运动并实现垂直墙面的攀爬。研究背景源于当前四足机器人在动态运动和...

16810
领券