首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?

CoovallyAIHub

近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这...

100

强化学习探索策略的经验对比:从启发式到概率建模

一键难忘

腾讯云TDP | KOL (已认证)

在强化学习(Reinforcement Learning, RL)中,智能体(Agent)通过与环境的交互学习最优策略,其目标是在长期内最大化累积回报。然而,在...

8710

NeurIPS强化学习挑战赛冠军揭晓

用户11764306

竞赛是年度NeurIPS会议计划的重要组成部分。今年接受的16个竞赛中,有四分之一专注于推动深度强化学习的科学进展。近年来,强化学习在游戏、自动驾驶、电网管理等...

8210

在AI技术唾手可得的时代,挖掘新需求成为制胜关键——某知名AI智能体训练框架需求洞察

qife122

(1)需求1:用户希望提供更详细的Text2SQL基准测试评估分数,包括在Spider-dev、Spider-test集和BIRD基准上的执行准确率等详细指标对...

10410

基于结构信息原则的分层决策框架解析

用户11764306

分层强化学习(HRL)是一种有前景的方法,用于管理多个抽象层次上的任务复杂性并加速长视野智能体探索。然而,分层策略的有效性严重依赖于关于技能定义和任务分解的先验...

6010

计算机视觉遇见手绘图表,如何教会机器理解流程图?

CoovallyAIHub

本文讲解了将原始的手绘图表(比如白板照片、流程图、线框图)转换成结构化的、机器可读的 JSON。这事儿听起来简单,实践起来却复杂得惊人。本文将通过我的技术实践历...

7210

【强化学习】区分理解: 时序差分(TD)、蒙特卡洛(MC)、动态规划(DP)

不去幼儿园

在强化学习中,智能体需要通过与环境交互,逐步学习如何最大化长期回报。常见的两类方法是:

15210

AAAI 2022斯坦福AI实验室研究成果精选

用户11764306

第36届人工智能大会(AAAI 2022)于2月22日至3月1日以线上形式举行。我们很高兴展示斯坦福AI实验室在此次会议上发表的所有研究成果,以下提供论文、视频...

6810

深度学习进阶(五)——强化学习与决策智能:让模型学会行动

海棠未眠

在深度学习的发展历程中,卷积网络学会了「看」,Transformer 学会了「读」,而生成模型学会了「写」。 但智能的终极形态,不仅是理解与表达,还包括「行动...

34510

MIT推出SEAL框架:实现AI自我迭代新突破

用户11764306

自我编辑的生成通过强化学习实现。当生成的自我编辑应用后能提高目标任务性能时,模型会获得奖励。因此,SEAL可被概念化为具有两个嵌套循环的算法:外层的强化学习循环...

19210

机器人技术新前沿:自动驾驶路径规划算法解析

用户11764306

某中心子公司Zoox首席软件工程师Olivier Toupet致力于开发自动驾驶电动机器人出租车技术。他在某中心子公司Zoox的工作重点是为自动驾驶车辆开发尖端...

17210

结合MORL与约束螺栓学习规范行为

用户11764306

在NRBs的基础上,我们引入了有序规范约束螺栓,这是一个指导强化学习智能体遵守社会、法律和伦理规范的框架,同时解决了NRBs的局限性。在这种方法中,每个规范都被...

9710

Traffic-R1:让红绿灯也会“思考”的通用信控大模型

时空探索之旅

论文标题:Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Co...

17110

从零开始训练大模型的 4 个阶段,清晰讲解(含可视化)

Ai学习的老章

你问它“什么是 LLM?”,得到的却是像“try peter hand and hello 448Sn”这样的胡言乱语。

80820

强化学习人类反馈训练新方法解析

用户11764306

在今年的国际学习表征会议(ICLR)上,我们提出了一种限制伪相关性的方法,称为SeRA(自审查与对齐)。首先,在人类标注数据上进行第一轮RLHF后,我们使用大语...

9010

机器人快速适应新任务的元强化学习技术

用户11764306

强化学习是一种人工智能代理与环境交互并根据获得的奖励学习策略的技术。虽然强化学习在Atari等游戏中已展现人类水平的表现,但将其应用于现实场景(如装配线机器人或...

13610

强化学习中慢速网络学习更快

用户11764306

在强化学习(RL)中,较慢的网络反而能够更快地学习——当在深度强化学习中优化新解决方案时,如果优化器倾向于先前的解决方案,则会有所帮助。

13310

学习率调度算法的强化学习优化

用户11764306

基于此,研究采用强化学习(RL)框架自动生成学习率调度策略。在NMF任务中,RL生成的调度程序优于步进衰减等启发式方法,证明了元学习调度在简化领域的可行性。

12410

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

机器之心

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自 Unsloth 团队的文章。

58010
领券