文章前言部分引用的一些论文不错,可以按图索骥~
1、文章信息
《Deep Reinforcement Learning for Dynamic Urban Transportation Problems》。
这是2018年6月美国乔治梅森大学系统工程和运筹学系的学者发在arXiv上的一篇文章。
2、摘要
许多交通系统分析任务被表述为优化问题,如智能交通系统的最优控制问题和长期城市规划。通常用于表示动态交通系统的模型涉及具有复杂的输入-输出的大型数据集,很难在优化环境中使用。本文探讨了深度学习和深度强化学习在交通优化问题中的应用。使用深度学习元模型可以产生这些关系的低维表示,并允许以有效的方式实现优化和强化学习算法。特别地,我们开发了用于校准交通仿真simulator和强化学习的深度学习模型来解决网络上旅客的最优调度问题。
3、简介
许多现代交通系统分析问题,如车队管理、智能系统运营、长期城市规划等,都会导致高维、高非线性的优化问题。使用数学规划、或守恒定律的分析公式通常存在前提假设,但却依赖于高层次的抽象特征,如OD矩阵。或者,复杂的仿真模型提供了一种灵活的方法来表示大规模多式联运系统中的交通和需求模式,这些模型通过基于Agent的建模来模拟单个旅行者。然而计算成本常常令人望而却步,因此有人提出了基于元模型的方法。
在本文中,我们提出了一种解决大型运输系统优化问题的替代方法。我们的方法依赖于深层学习近似器deep learning approximators,这是一种潜在的变量模型Latent Variable Model (LVM)技术,能够在高维输入-输出关系中提取潜在的低维模式。事实证明,深度学习者结合强化和主动学习来识别这些潜在的模式是非常有效的。我们的方法建立在基于仿真优化,深度学习,以及强化学习技术上最近提出的交通应用。本文的两个主要贡献是:
(1)创新性地开发了一种用于降低搜索空间维度的深度学习体系结构,并对交通仿真的输入(出行行为参数、交通网络特征)和输出(移动模式、交通拥堵)之间的关系进行建模。
(2)开发了基于深度学习近似器的强化学习技术,以解决动态交通系统的优化问题。
我们使用两个应用程序来演示我们的方法。
首先,我们解决了校准一个复杂的、随机的交通仿真器以与实际数据进行精确匹配的问题,使其对短期的运营决策和长期的城市规划都有用。利用之前提出的方法,将问题视为优化问题,我们的方法对仿真器的形式以及输入和输出的类型不做任何假设。进一步,我们证明深度学习模型比单纯的贝叶斯技术或传统的降维方法更具有样本效率。我们通过进一步探索降维用于更有效的输入参数空间搜索建立了本文的校准框架。更具体地,我们介绍了组合神经网络方法的公式和分析,并与以往使用主动子空间方法的工作进行了比较。
第二个应用建立在深度学习到强化学习(RL)方法的最新进展上。在的众多应用中取得了令人印象深刻的成果,通过状态作用函数的神经网络近似,RL模拟了人类通过反复尝试学习新任务和行为策略的方式。大多数的RL研究一直专注于机器学习领域和经典人工智能(AI)问题,如机器人、语言翻译和供应链管理问题,然而,一些经典的交通控制问题之前已经用RL解决了。此外,深RL最近被应用于交通流控制,并取得了成功。
本文的其余部分组织如下:第二部分简要介绍了神经网络体系结构的特点;第II-C节描述了一种新的深度学习体系结构,它能在仿真器的输入-输出关系中发现低维模式,并将深度学习器应用于模型校准问题。第三部分描述了深度强化学习在交通系统优化中的应用。最后,第四部分展示了进一步的研究方向。