前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度强化学习智能交通 (IV) : 自动驾驶、能源管理与道路控制

深度强化学习智能交通 (IV) : 自动驾驶、能源管理与道路控制

作者头像
数据科学人工智能
发布于 2022-03-31 13:27:21
发布于 2022-03-31 13:27:21
1.7K0
举报

这是arxiv上最新发表的一篇前沿交叉综述报告。主要讨论了如何使用深度强化学习方法解决智能交通系统问题,特别是智能信号灯控制问题。本公众号将分4次发布本综述报告的翻译,仅供大家参考学习。

系列报告

在 ITS 的其他应用中引入了几种有用的 deep RL 机制。智能交通系统中 AI 的一个主要应用领域是自动驾驶,其中深度强化学习在该领域起到了非常关键的作用。Deep RL 方法能够应用到自主控制问题的多个方面,包括匝道计量、车道变换、速度加减速和交叉口通行等(见表四)。

A 自动驾驶

最初的论文提出的基于 deep RL 的自主车辆控制在 TORCS 游戏环境下进行模型实验[151]。Sallab 等人提出的控制框架。[111]使用了两种类型的深度RL方法:离散行动集的带 RNN 的 DQN 方法和连续行动集的基于 actor critic 的 DDPG 方法。作者在 TORCS 上进行了不使用经验回放的算法实验,结果表明收敛速度更快。Xia 等人[112]提出一种称为带过滤经验的深度 Q-learning(DQFE)的控制策略,用于教授自主车辆如何驾驶。在 TORCS 游戏模拟器上,该方法的学习性能优于神经拟合的 Q-learning 方法。

文献[113]提出的连续控制策略将连续行动的 DDPG 算法与安全控制策略结合起来。这种组合是必要的,因为仅仅依靠过去的经验不能提供一个安全的自动车辆控制。Hoel 等人[115]引入了一个自主驾驶模型,包括使用蒙特卡罗树搜索和 deep RL 进行规划和学习。驾驶规划是通过蒙特卡罗树搜索完成的,学习如何驾驶是通过使用 AlphaGO Zero 算法的 deep RL 智能体完成的[152]。这个工作与 IDM/MOBIL 智能体的专家驾驶行为基准进行了比较[153,154]。

[120]在 VISSIM 上使用 DDDP 方法研究了自主车辆的跟车和换道行为。Makantasis 等人提出了另一种基于 RL 的自动驾驶策略。[121]在混合自治场景中使用具有优先体验回放的 DDQN。在不同的交通密度下,在 SUMO 上对基于 deep RL 的驾驶策略与基于 DP 的最优策略进行了比较。Deep RL 自主驾驶研究通常是在混合自主环境或完全自主环境中寻找最佳驾驶策略的单个智能体。文献[122]提出了一种具有动态协调图的多智能体 deep RL 方法。在这项研究中,自主车辆协同学习如何在高速公路场景中表现。研究了基于身份的动态协调和基于位置的动态协调两种不同的协调图模型。Qian 等人[123]从不同的角度描述了使用双延迟 DDPG 的自动驾驶[155]。他们提出了一个两级策略来填补自主汽车决策和未来规划之间的空白。Zhou 等人提出了在信号交叉口采用 DDPG 方法的自主驾驶[124]。在最近的一项自主驾驶研究[125]中,使用从摄像机采集的 RGB 图像输入,在交通模拟器 CARLA [156]上分析了 RL 方法。作者在[127]中使用一种称为 IPG 汽车制造商的人在回路动态模拟器,对基于 DDPG 的自动驾驶进行了不同的训练和测试策略的试验。当驾驶者在这个软件上控制车辆时,DDPG 智能体学习如何在两种不同的情况下驾驶,向前驾驶和停车。

在交通研究中,利用自主车辆控制停行波是一种新的方法,[130]提出了一种基于 deep RL 的解决方案。为了增加交通流量,作者实现了多个由独立的 deep RL 智能体控制的自主车辆。Isele 等人[128]使用 DQN 方法研究了一种特殊情况下的自动驾驶车辆,即当驾驶员对交叉口有部分了解时,在交叉口进行通行。文中测试了三种行动选择模式。第一个模式是停止或前进,第二个模式是连续行动、加速、减速或保持恒定速度,最后一个模式是前两个行动模式的组合,等待、缓慢移动或前进。三种行动模式都在 5 种不同的情况下进行了测试。

文献[116]提出了一种采用 double DQN 的有包围车辆的自动货车挂车的速度和车道变换框架。为了推广该算法,文中考虑了高速公路交通和双向超车两种交通情况。Sharifzadeh 等人使用逆 deep RL 方法[114]提出了一种在具有连续轨迹的自编程交通模拟器上实现无碰撞换道的驾驶模型。模型包含两个独立的智能体。一个智能体只控制无速度调整的换道,另一个智能体控制有加速度的换道动作。文献[118]中给出了考虑 DQN 和二次 Q 函数近似的自主车辆换道应用。将分层控制技术实现为离散域的变道模块和连续域的间隙调整模块,并分别采用 deep RL 智能体。与其他文献类似,[119]提出了一种基于规则的 DQN 方法来解决自主车辆的换道问题。

大多数基于学习的控制模型的测试都是在汽车自主控制、交通信号控制、交通流控制等模拟器上进行的。Chalaki 等人研究了从模拟器到真实世界实验的第一个学习策略迁移[132]。本研究的实验平台是美国特拉华大学的城市地图,利用 deep RL 控制技术,对环形交叉口内多辆自主车辆的行为进行观测。为了有效地传递策略,在状态空间和行动空间中注入对抗噪声。文献[133]研究了具有高斯噪声的单智能体的初步结果。

B 能源管理

能源管理系统是未来交通运输的重要组成部分。电动汽车有不同的资源分配方案。动力消耗在不同的车辆单元中不同,这会对电池的性能产生很大影响。Chaoui等人提出了一种基于 deep RL 能量管理解决方案,以提高并联电池的生命周期[136]。[138]提出了一个使用 DQN 模式的混合动力汽车能耗优化模型。提出的自适应学习模型通过基于 deep RL 的能量管理方案提供了更好的燃料消耗。吴等人[137]提出了一种基于 actor-critic 的 DDPG 算法的混合动力公交车能量管理解决方案。在考虑乘客数量和交通信息两个参数的情况下,deep RL 智能体可以通过连续控制来优化能耗。

C 道路控制

道路控制人员是智能交通系统中交通控制的重要组成部分。目前,在高速公路的限速控制、收费公路定价、匝道计量等方面都采用了 deep RL 方法,车道间的动态限速控制是交通运输中一项具有挑战性的任务。We 等人[140]研究了一种采用 actor-critic 连续控制方案的变转速限值控制的动态求解方法。文献[143]提出了基于 deep RL 的收费公路车道定价模型,以使多个出入口的总收入最大化。文献[145]提出了另一种快车道动态定价模型,利用多目标 RL 模型和多类小区传输模型来提高 deep RL 智能体的性能,并用信号匝道表来控制来自侧道的高速公路连接。为了提高主干道交通流的效率,[134]提出了一种基于离散化偏微分方程的交通模型多智能体 deep RL 技术。该控制模型在一个模拟的高速公路场景中进行了测试。吴等人[141]针对高速公路的不同路段,提出了一种基于不同智能体的 deep RL 高速公路控制模型。作者建议使用入口匝道表控制智能体、动态车道限速控制智能体和动态车道变更控制器智能体进行协调。传统道路有固定数量的进出车道。为了改善交通流,[146]研究了多智能体 deep RL 和动态图结构下的车道转向,[117]提出了基于DQN的自动制动系统,在需要立即采取行动的情况下提供了交通安全。

D 不同的 ITS 应用

最近,Schultz 提出了一种新的交通模拟器优化工具[149]。交通模拟器的输入(交通特性)和输出(交通拥挤)与使用 DQN 的自适应学习技术相关。Flow 计算接口使得 deep RL 库 RLlib [157]与 SUMO 和Aimsun 很容易集成,以解决 ITS [158]中的各种控制问题。Flow 的用户可以通过 Python 创建一个自定义网络来测试复杂的控制问题,如匝道表控制、自适应交通信号化和具有自主车辆的流量控制。[150]介绍了一种交通模拟器,它为分析自主车辆的行为提供了一种新的环境和协作多智能体学习方法。它能够测试各种流量场景。Min等人[147]提出了一种使用分位数回归 DQN 的驾驶员辅助系统,用于各种控制,如车道保持、车道变换和加速控制。

挑战与开放性研究问题

尽管在基于 deep RL 的 ITS 解决方案方面做了巨大的兴趣和努力,目前也取得了一些有希望的结果,但要产生真实世界的产品,仍有许多重大挑战需要解决。本节我们讨论 deep RL 在 ITS 方面的主要挑战和开放性研究问题。

由于现实应用对生命的威胁,所有基于 RL 的 ITS 控制的研究成果都在模拟器上进行实验。最近,文献[132]提出了一个从模拟到城市级自动驾驶测试环境的策略迁移应用程序,但这一研究仍处于起步阶段。实际部署与使用学习算法的基于模拟器的应用之间存在巨大差距。对于 TSC 和 ITS 中的其他控制应用,需要在实际中进行部署,以证明基于deep RL 的自动控制的适用性。

具体到 TSC,基于模拟的应用有两种方法:一是用人工数据模拟人工路网,二是基于真实数据集模拟路网。虽然第二个测试接近于实际测试,但它只考虑一天中不同时间的交通需求,没有实际的挑战。研究人员需要考虑的另一点是增加模拟环境的真实性,例如包括人工干预场景。为了减少人工干预 TSC,控制系统应能适应最坏情况下不稳定的交通状况。要做到这一点,应该研究具有一些可预测的极端场景的城市网络,而不是标准交通模型,以便了解 deep RL 实现的后果。我们期望在模拟环境中实现行人和公共交通将对学习性能产生很大的影响。

已有文献提出了许多用于交通灯控制的 deep RL 模型。虽然标准 RL 模型之间有相互比较以验证其建议,但 TSC 上的 deep RL 模型与现有的工作没有令人满意的比较。对于多个交叉口,研究者大多选择DQN、标准 RL 和定时控制器作为基准。然而,与文献中的其他多智能体方法,如分布式控制、协调控制等相比,应该更具代表性。另一个具有挑战性的结果是,很少有文献将它们的性能与驱动控制器进行比较,驱动控制器是现实世界中最流行的 TSC 实现方法。

状态定义是 deep RL 应用中的一个关键点。因此,研究人员关注不同硬件系统(如摄像机、环路检测器和传感器)的不同状态形式,但在基于 deep RL 的 TSC 应用中,对状态形式还没有明确的一致性。状态定义高度依赖于静态设备,因此所有这些设备都应始终正确地收集数据。一个新的研究方向可能是研究部分可观测和噪声状态定义,其中一些设备不能正常工作。当基于 RL 的自适应交通信号在交叉口上实现时,系统必须得到保护和稳定(即鲁棒性和弹性),以防此类故障。

关于自主车辆,研究人员一直在提出非常具体的子系统的解决方案,而没有考虑这些子系统之间的相互作用。对于更实际的解决方案,需要对多个组件采用统一的管理和自适应控制策略。例如,一个好的 deep RL 系统应该同时控制车道变换、中断、流量安排和能量管理组件。为不同的自主车辆子系统实现不同的学习算法可能会导致互操作性问题。

总结

考虑到世界人口的增长和城市化的趋势,研究者们一直在利用基于学习的人工智能技术对智能交通应用进行研究。交通系统的动态特性决定了我们无法对所有智能交通系统(ITS)应用使用一个清晰易用的控制机制。通过强化学习(RL)方法控制交通系统在工业界和学术界都越来越流行。近年来,针对智能交通系统中的自动控制问题,例如交通信号灯、自动驾驶、自动中断、车辆能源管理等方面的研究成果层出不穷。在 ITS 中最流行的深度强化学习应用是交叉口的自适应交通信号控制(TSC)。

本文综述了深度强化学习在 ITS 中的应用。讨论了 RL 和 deep RL 的关键概念,以及它们应用于 TSC 的配置。为便于明确比较,使用单独的表格中比较了几个类别的现有工作的特征细节。最后,我们还讨论了开放性的研究方向以及现有研究成果与实际应用的差距。研究表明,在模拟环境中 TSC 有不同的单智能体和多智能体 RL 解决方案,其性能优于标准控制方法。但是,除了针对特定场景的自动车辆应用之外,现有的工作尚未在实际环境中进行测试。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
这是arxiv上最新发表的一篇前沿交叉综述报告。主要讨论了如何使用深度强化学习方法解决智能交通系统问题,特别是智能信号灯控制问题。本公众号将分4次发布本综述报告的翻译,仅供大家参考学习。获取英文原论文请在本公众号回复关键词"强化学习智能交通"。
数据科学人工智能
2022/03/31
3.2K0
深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
到目前为止,我们已经讨论了 AI 对交通系统的重要性以及强化学习的理论背景。Deep DL 在智能交通系统中的一个主要应用领域之一为交叉口信号控制。大部分已有工作都是面向应用的,因此提出的方法在许多方面会有所不同,例如用应用 deep DL 使用不同的技术提出不同的交叉口模型来监控交通,使用不同的状态-行动-奖励表示来刻画 RL 模型,以及使用不同的神经网络结构等。因此,对不同的方法直接做性能对比通常十分困难。
数据酷客
2020/05/09
2K0
深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
到目前为止,我们已经讨论了 AI 对交通系统的重要性以及强化学习的理论背景。Deep DL 在智能交通系统中的一个主要应用领域之一为交叉口信号控制。大部分已有工作都是面向应用的,因此提出的方法在许多方面会有所不同,例如用应用 deep DL 使用不同的技术提出不同的交叉口模型来监控交通,使用不同的状态-行动-奖励表示来刻画 RL 模型,以及使用不同的神经网络结构等。因此,对不同的方法直接做性能对比通常十分困难。
数据科学人工智能
2022/03/31
1.8K0
深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
剑桥大学研究人员首次使用强化学习训练AI自动驾驶
剑桥大学工程师们用15到20分钟教会了AI有关驾驶的基本知识,而这个过程可能会让人类花费几十个小时。
AiTechYun
2018/07/27
3680
剑桥大学研究人员首次使用强化学习训练AI自动驾驶
强化学习20分钟,剑桥博士教汽车学会自动驾驶!
【新智元导读】剑桥大学两位博士创办的公司使用强化学习算法,无需密集标注的3D地图,无需人工设计的规则,让汽车在短短20分钟内学会了自动驾驶。公司成立不到50天,已经拿到了优步首席科学家的投资。
新智元
2018/07/31
5970
强化学习20分钟,剑桥博士教汽车学会自动驾驶!
​[机器学习|理论&实践] 强化学习在自动驾驶中的应用与部署过程
自动驾驶技术的崛起为未来的交通系统带来了革命性的变化。强化学习作为一种以试错学习为基础的智能算法,在自动驾驶中发挥着越来越重要的作用。本文将深入研究强化学习在自动驾驶中的应用,包括理论基础、数据处理、模型训练、部署过程等方面。通过结合实例演示,我们将详细探讨如何使用强化学习实现自动驾驶,并提供相关代码的解释。
数字扫地僧
2023/12/15
4690
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自动车辆控制、交通流控制等是研究的重点。
数据科学人工智能
2022/03/31
1.8K0
深度强化学习智能交通 (I) :深度强化学习概述
讲真?一天就学会了自动驾驶——强化学习在自动驾驶的应用
编译 | 婉清 编辑 | 姗姗 出品 | 人工智能头条 (公众号ID:AI_Thinker) 【导读】制造真正的自动驾驶汽车(即能够在任何要求的环境中安全驾驶)的关键是更加重视关于其软件的自学能力。换句话说,自动驾驶汽车首先是人工智能问题,需要一个非常具体的机器学习开发技能。而强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决决策(decision making)问题,即自动进行决策,并且可以做连续决策。今天人工智能头条给大家介绍强化学习在自动驾驶的一个应用案例,无需 3D 地图
用户1737318
2018/07/20
8580
方法 || 深度强化学习解决交通控制问题
作者在现有研究方法的基础上提出了使用深度强化学习解决交通控制的方法,整体结构图如下:
深度强化学习实验室
2020/01/14
1.5K0
方法 || 深度强化学习解决交通控制问题
强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程
机器之心报道 编辑:陈萍、小舟 引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。 过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级
机器之心
2023/03/29
4680
强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程
论文精读 | 2024 [arXiv] LLMLight:大语言模型作为交通信号灯控制智能体
最近LLM-based Agent成为了LLM一个重要的应用方向,本文是LLM在交通信号控制任务中的应用。
时空探索之旅
2024/11/19
2530
论文精读 | 2024 [arXiv] LLMLight:大语言模型作为交通信号灯控制智能体
解读 | 如何使用深度强化学习帮助自动驾驶汽车通过交叉路口?
机器之心原创 作者:Shixin Gu 参与:Hao、Panda 交叉路口是自动驾驶系统所面临的难点之一。今年五月,来自宾夕法尼亚大学、本田研究院和乔治亚理工学院的研究者提出了一种使用深度强化学习帮助自动驾驶汽车通过交叉路口的方法。机器之心技术分析师 Shixin Gu 对这项研究进行了解读,论文原文可访问:https://arxiv.org/abs/1705.01196 对无人汽车的研究已经不再仅仅局限于识别交通灯或交通标志的简单过程,而已经扩展到了多个生活场景中。用于衡量自动汽车的一个关键标准是看自动汽
机器之心
2018/05/09
1.2K0
解读 | 如何使用深度强化学习帮助自动驾驶汽车通过交叉路口?
【机器学习】自动驾驶——智能交通与无人驾驶技术的未来
自动驾驶的概念源自20世纪60年代,但真正的突破发生在2000年代初期,谷歌、特斯拉等公司开始投入大量资源研发相关技术。如今,全球多家科技公司和汽车厂商都在积极布局这一领域,力求实现无人驾驶的未来。
2的n次方
2024/10/15
3780
【机器学习】自动驾驶——智能交通与无人驾驶技术的未来
自动驾驶的“大脑”-控制工程篇(二)
点击上方“专知”关注获取专业AI知识! 自动驾驶的“大脑”——控制工程篇(二) 中国人工智能系列白皮书 -智能驾驶2017 中国人工智能系列白皮书 --智能交通2017(附报告pdf下载) 一文带你看懂自动驾驶 给自动驾驶一双"通天眼"——环境感知器篇 自动驾驶的“大脑”——决策规划篇 ▌自动驾驶控制技术方案 ---- 根据从行驶环境到驾驶动作的映射过程,自动驾驶控制技术可以分为间接控制和直接控制两种不同方案。 基于规划-跟踪的间接控制方法 ---- 自动驾驶间接控制是一类基于规划-跟踪的主流智能驾驶车辆
WZEARW
2018/04/10
1.5K0
自动驾驶的“大脑”-控制工程篇(二)
大模型引导的深度强化学习在自动驾驶决策中的应用
项目地址:https://bitmobility.github.io/LGDRL/
一点人工一点智能
2024/12/31
2240
大模型引导的深度强化学习在自动驾驶决策中的应用
机器学习——强化学习与深度强化学习
近年来,强化学习(Reinforcement Learning, RL)在多个领域取得了巨大的进展。从早期简单的迷宫导航问题到今天 AlphaGo 击败围棋世界冠军,强化学习的潜力得到了充分展现。而随着深度学习的引入,深度强化学习(Deep Reinforcement Learning, DRL)更是将这一技术推向了前所未有的高度。本篇文章将深入探讨强化学习与深度强化学习的基本原理、常见算法以及应用场景,旨在为读者提供一个详尽的学习路线图。
hope kc
2024/10/09
2.1K0
北京四环堵车引发的智能交通大构想
‍‍‍‍‍这是作者关于智能交通协议(Intelligent Transport Protocol)的构想,欢迎留言讨论。
AI科技大本营
2020/04/15
1.4K0
北京四环堵车引发的智能交通大构想
2024【综述】图神经网络在智能交通系统中的应用
论文标题:A Survey on Graph Neural Networks in Intelligent Transportation Systems 链接:https://arxiv.org/abs/2401.00713 作者:Hourun Li, Yusheng Zhao, Zhengyang Mao, Yifang Qin, Zhiping Xiao, Jiaqi Feng, Yiyang Gu, Wei Ju, Xiao Luo, Ming Zhang 2024第一篇时空领域的综述(GNN4ITS),来自北京大学张铭老师团队。声明:本文算个论文尝鲜,借助苏剑林(苏神)的Cool Papers网站进行了个论文速读,具体论文细节还需各位阅读原文(点击文末阅读原文跳转本文arXiv链接)。Cool Paper论文链接:https://papers.cool/arxiv/2401.00713
时空探索之旅
2024/11/19
2190
2024【综述】图神经网络在智能交通系统中的应用
TensorFlow 强化学习:6~10
到目前为止,我们已经涵盖了大多数重要主题,例如马尔可夫决策过程,值迭代,Q 学习,策略梯度,深度 Q 网络和参与者批评算法。 这些构成了强化学习算法的核心。 在本章中,我们将继续从演员评论家算法中停止的地方继续搜索,并深入研究用于深度强化学习的高级异步方法及其最著名的变体异步优势演员评论家算法,通常称为 A3C 算法。
ApacheCN_飞龙
2023/04/27
5640
无人驾驶时间到来,地面交通发展的未来50年预判 | 深度
一路无灯、处处畅通,必将在未来的50年中成为人工智能、自动化、控制理论、智能交通、智能汽车等多个领域的交叉研究热点。 镁客注 交通拥堵、出行安全、方式便捷等,都是当前地面交通面临的几大难题之一。 从
镁客网
2018/06/20
6910
推荐阅读
相关推荐
深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档