强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

AAAI 2026 Oral｜LENS：基于统一强化推理的分割大模型

机器之心 1天前2025-12-31 13:04:59

文本提示图像分割（Text-prompted image segmentation）是实现精细化视觉理解的关键技术，在人机交互、具身智能及机器人等前沿领域具有重...

3900

告别「单线程」思维：通研院提出NPR框架，让智能体进化出原生的并行推理大脑

机器之心 1天前2025-12-31 13:01:59

近年来，大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇...

2300

具身分步实现机器人的操作

索旭东 1天前2025-12-30 21:01:14

ref：A Survey of Embodied Learning for Object-centric Robotic Manipulation

7310

强化学习人类反馈新训练法：SeRA算法详解

用户11764306 6天前2025-12-25 21:25:37

强化学习人类反馈已成为将大型语言模型与人类偏好对齐的标准方法。近期，直接偏好优化成为最流行的RLHF方法之一，其中LLM在两个输出选项中进行选择，其中一个被人类...

9410

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

AI生成未来 8天前2025-12-24 15:51:37

本文采用自回归文生图模型验证RubricRL框架有效性，该框架同样适用于扩散模型。本节首先介绍RubricRL整体架构，随后详述基于量规的奖励设计、RL训练方法...

12010

多模态思维链如何重塑 AI 与短视频的未来

深度学习与Python 8天前2025-12-24 13:22:52

传统多模态模型在动态视频理解与复杂推理场景面临严峻挑战。快手开源的 Keye-VL 模型在多模态思维链技术实现突破，具备独特的 auto-think（自动思考决...

17010

无需标注图像，VLM也能「自我进化」！RL自我进化框架VisPlay突破视觉推理难题

机器之心 8天前2025-12-24 12:20:29

最新研究 VisPlay 首次提出了一个自进化强化学习框架，使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。

10510

从梯度下降到知识图谱：解构AI人才培养的全栈流水线

math chen 8天前2025-12-23 22:45:44

最后，任何强大的模型都必须经过 RLHF（基于人类反馈的强化学习）来进行安全对齐。在AI教育中，伦理教育就是那个“人类反馈”环节。

24200

机器学习基础入门（第五篇）：半监督学习与强化学习

禁默 11天前2025-12-21 10:05:22

除此之外，还有一种完全不同的学习范式——强化学习（Reinforcement Learning）。它不依赖标签，而是让智能体（Agent）在环境中不断试错，通过...

18810

智能体开发基础：从概念到实现

禁默 11天前2025-12-20 19:23:08

智能体（Agent）是人工智能中的核心概念之一，它广泛应用于游戏AI、机器人、自动驾驶、智能客服等领域。本篇博客将从智能体的基本概念、核心架构、开发工具，以及简...

50210

强化学习公式大白话：从数学符号到真实世界的翻译指南

智谷星瀚 11天前2025-12-20 16:37:52

学习强化学习时，最让人头疼的莫过于那些看起来神秘莫测的数学公式。今天，我们就用最通俗的语言，为你揭开这些公式的面纱，看看它们到底在说什么。

9920

基于强化学习的量化交易框架 TensorTrade

deephub 12天前2025-12-19 19:46:31

TensorTrade 是一个专注于利用强化学习 (Reinforcement Learning, RL) 构建和训练交易算法的开源 Python 框架。

10200

ML-SYS 学习宝典：从 RLHF 系统到 SGLang 深入解析

qife122 12天前2025-12-19 19:42:54

Awesome-ML-SYS-Tutorial 是一个专注于机器学习系统（ML SYS）领域的学习笔记与代码仓库。它旨在为对 ML 与系统交叉领域感兴趣的研究者...

17310

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

机器之心 13天前2025-12-18 21:08:21

在 Physical Intelligence 最新的成果 π0.6 论文里，他们介绍了 π0.6 迭代式强化学习的思路来源：

25710

八、神经网络（下）

程序员三明治

美团｜大模型后台开发 (已认证)

13天前2025-12-18 20:33:55

就像人类通过摸索试验来学习一样（比如骑自行车），让计算机也在摸索试验的过程中自主学习，这称为强化学习（reinforcement learning）。强化学习和...

5610

【AI在内容创作】

贺公子之数据科学与艺术 14天前2025-12-18 08:45:50

理解三幕剧、英雄之旅等叙事框架，通过概率图模型或强化学习构建情节连贯性。如OpenAI的StoryGeneration项目使用层次化LSTM生成多段落故事。

13510

揭秘对话式音乐推荐系统的机器学习技术架构

用户11764306 14天前2025-12-17 16:41:06

在当今的数字生活中，推荐系统无处不在，从在线购物到流媒体音乐，它们利用我们过往的选择来预测我们可能喜欢的下一个内容citation:10。然而，音乐推荐系统长期...

11810

#强化学习

AAAI 2026 Oral｜LENS：基于统一强化推理的分割大模型

告别「单线程」思维：通研院提出NPR框架，让智能体进化出原生的并行推理大脑

具身分步实现机器人的操作

强化学习人类反馈新训练法：SeRA算法详解

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

多模态思维链如何重塑 AI 与短视频的未来

无需标注图像，VLM也能「自我进化」！RL自我进化框架VisPlay突破视觉推理难题

从梯度下降到知识图谱：解构AI人才培养的全栈流水线

机器学习基础入门（第五篇）：半监督学习与强化学习

智能体开发基础：从概念到实现

强化学习公式大白话：从数学符号到真实世界的翻译指南

基于强化学习的量化交易框架 TensorTrade

ML-SYS 学习宝典：从 RLHF 系统到 SGLang 深入解析

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

八、神经网络（下）

【AI在内容创作】

揭秘对话式音乐推荐系统的机器学习技术架构

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐