强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重...
近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇...
ref:A Survey of Embodied Learning for Object-centric Robotic Manipulation
强化学习人类反馈已成为将大型语言模型与人类偏好对齐的标准方法。近期,直接偏好优化成为最流行的RLHF方法之一,其中LLM在两个输出选项中进行选择,其中一个被人类...
本文采用自回归文生图模型验证RubricRL框架有效性,该框架同样适用于扩散模型。本节首先介绍RubricRL整体架构,随后详述基于量规的奖励设计、RL训练方法...
传统多模态模型在动态视频理解与复杂推理场景面临严峻挑战。快手开源的 Keye-VL 模型在多模态思维链技术实现突破,具备独特的 auto-think(自动思考决...
最新研究 VisPlay 首次提出了一个自进化强化学习框架,使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。
最后,任何强大的模型都必须经过 RLHF(基于人类反馈的强化学习) 来进行安全对齐。在AI教育中,伦理教育就是那个“人类反馈”环节。
除此之外,还有一种完全不同的学习范式——强化学习(Reinforcement Learning)。它不依赖标签,而是让智能体(Agent)在环境中不断试错,通过...
智能体(Agent)是人工智能中的核心概念之一,它广泛应用于游戏AI、机器人、自动驾驶、智能客服等领域。本篇博客将从智能体的基本概念、核心架构、开发工具,以及简...
学习强化学习时,最让人头疼的莫过于那些看起来神秘莫测的数学公式。今天,我们就用最通俗的语言,为你揭开这些公式的面纱,看看它们到底在说什么。
TensorTrade 是一个专注于利用 强化学习 (Reinforcement Learning, RL) 构建和训练交易算法的开源 Python 框架。
Awesome-ML-SYS-Tutorial 是一个专注于机器学习系统(ML SYS)领域的学习笔记与代码仓库。它旨在为对 ML 与系统交叉领域感兴趣的研究者...
在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:
美团 | 大模型后台开发 (已认证)
就像人类通过摸索试验来学习一样(比如骑自行车),让计算机也在摸索试验的过程中自主学习,这称为强化学习(reinforcement learning)。强化学习和...
理解三幕剧、英雄之旅等叙事框架,通过概率图模型或强化学习构建情节连贯性。如OpenAI的StoryGeneration项目使用层次化LSTM生成多段落故事。
在当今的数字生活中,推荐系统无处不在,从在线购物到流媒体音乐,它们利用我们过往的选择来预测我们可能喜欢的下一个内容citation:10。然而,音乐推荐系统长期...