首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

加拿大滑铁卢大学刘腾博士:平行增强学习及其无人驾驶应用

平行增强学习

基于美国、欧盟和中国的自动驾驶技术路线图,以及从AlphaGo和AlphaGo Zero的成功上吸取的一些经验,我们发现深度学习或者机器学习在人工智能领域可以得到很好的应用。同时启发我们,可以把深度学习和机器学习应用到无人驾驶的感知、决策和控制等领域。这是我们提出平行增强学习的初衷。

1.现有的机器学习特点

机器学习的核心问题是数据获取和行动选择。目前面临一些挑战,如获取新的数据和寻求最优解之前需要协调;有时数据杂乱无序,难以学习;已有的理论框架对数据获取和行动选择的限制较多。

2. 平行增强学习的理论框架

传统的增强学习包含一系列的状态、控制以及状态之间的转移函数,状态转移的规律就是对数据的某种标记。增强学习还会有一个优化目标,针对不同的研究问题提出的优化目标是不一样的。增强学习包含三方面的特点:第一,增强学习属于主动学习的一种,可以选取特定的行动兼顾优化目标函数和探索数据集合。第二,增强学习不需要传统意义上的标签数据。第三,增强学习需要跟环境进行大量的交互从而获得反馈用以更新模型。

平行学习框架这篇文章指出基于平行理论,可以构建人工场景来模拟和表示复杂系统的特定场景。并将选取的特定“小数据”在平行系统中演化和迭代,以受控的形式产生更多因果关系明确、数据格式规整、便于探索利用的大数据。在大数据的基础上,基于计算实验的预测学习和集成学习,得到特定场景或者特定工况的小知识。最后将这些小知识应用于修正人工模型或者指导真实系统,这就是平行学习的理论。

3. 结合平行学习和增强学习的平行增强学习框架

平行增强学习的理论思路是通过一个真实系统和一个人工系统产生综合的大数据集合,利用预测学习、转移学习或深度学习对数据进行训练,得到特定的工况或者场景下的小知识,同时通过反馈控制的形式对人工系统进行修正,通过平行控制的形式对真实系统进行指导。

4. 平行增强学习的理论基础

平行增强学习是基于中科院王飞跃教授提出ACP方法,A是指人工社会:用机器给真实环境建模;C是指计算实验,用转移学习、预测学习、深度学习对平行系统输出的综合数据进行处理,得到应用于某些特定场景或任务的小知识。P是平行执行,用平行控制或平行决策引导特定的知识在人工或真实系统中进行应用。

平行增强学习在新能源车辆中的应用

目前新能源车辆或者混合动力车辆在上路测试的时候,其最优控制或者说能量管理遇到的一个最大难点是实时性或者说适应性问题。比如我们从熟悉的驾驶环境突然开到一个陌生环境,这时我们车上的控制器应该及时地对控制策略进行修改以适应当前的工况环境。在真实开车的时候,有可能控制器对当前的工况环境比较陌生,而且能获取的工况数据比较少,这时候可以利用转移学习的方式,将历史工况数据转移成与当前的工况数据一致的数据,基于此再来求解最优控制或能量管理策略。

针对两种不同的情况,图1给出转移前后的工况对比,左图两条曲线贴的比较近,说明历史的数据跟当前的工况数据差距不大,可以用历史的一些控制策略应用于当前的场景。而右图给出的转移前和转移后的工况差异比较大,这时候就需要改变车上的一些控制策略以适应当前的工况。

图1 两条不同当前工况下的工况转移情况

图2给出了两种不同情况下的优化结果和控制策略更新次数。右图水平虚线与柱状图的一次交点代表控制策略发生了一次更新。选取两种不同的更新临界值,分别为0.1和0.3,对工况A来说,两种临界值对应的交点个数是不相同的,导致左边两种情况对应的SOC曲线也是不同的。而对工况B而言,两种情况下的交点是相同的,说明控制策略的更新次数是相同的,因此左边SOC曲线的变化情况也是基本相同的。

图2 不同控制策略次数和其对于的SOC变化曲线

平行增强学习在平行驾驶中的应用

如图3所示,平行驾驶包含一个物理的智能车,针对物理智能车在平行控制中心构建一个虚拟车,它包括人/车/路的交互、环境系统模型和智能车模型等。主要的思路是基于真实物理车所采集的一些数据,对虚拟车的模型进行修正,同时虚拟车通过计算实验得到的不同工况环境下的大量控制,也对真实的物理车进行指导。

图3 平行驾驶概念框图

本文思路是利用深度神经网络+增强学习,对混合动力履带车的能量管理和最优控制进行研究。履带车跟传统的车辆不同,需要在越野的场景下面测试,相对来说能获取的工况数据比较少。因此构建一个平行传动系统的模型,如图4所示,由此得到大量的综合数据,再通过深度神经网络对数据进行处理,最后利用增强学习求得最优控制。

图4 平行传动系统示意图

图5的左边展示的是履带车实车实验的情况。右边是是利用真实的数据在人工场景里面生成的一些人工数据。图6是平行增强学习方法与传统增强学习和传统的深度增强学习比较的结果,包括两个状态变量:电池SOC和发电机的转速,以及三种方法的收敛速度和燃油消耗情况。从结果可以看出,平行增强学习对应的优化结果要优于两种传统的方法,在收敛速度和燃油经济性上都有较大提升。

图5 混合动力履带车实车实验和生成的人工数据

图6 平行增强学习与传统的增强学习优化控制结果比较

(本文根据作者在2017中国智能车大会暨国家智能车发展论坛上所作报告录音整理而成)

来源:学会秘书处

刘腾博士

刘腾,加拿大滑铁卢大学机械与机电工程系博士后研究员,2017年3月博士毕业于北京理工大学车辆工程专业,曾任北京理工大学电动车辆国家工程实验室暨北京电动车辆协同创新中心研究助理,本科毕业于北京理工大学数学系。研究方向为新能源汽车动力学建模及能量管理,无人驾驶/智能网联汽车决策与规划,平行增强学习理论及应用研究。基于相关研究成果,发表学术论文20余篇,其中以第一/通讯作者身份在IEEE/ASME Trans. Mechatronics, IEEE Trans. Industrial Electronics, IEEE Transactions on Industrial Informatics,Applied Energy, Energy等新能源车辆领域内顶级期刊上发表SCI论文15余篇,参与编写和翻译专著2部,获软件著作权4项。近5 年作为技术负责人、科研骨干,参与了国家自然科学基金、国防基础科研重点项目、美国能源基金会项目、国家863 计划、中国-瑞士国际合作项目等十余项课题的研究。曾获北京理工大学徐特立奖学金(校级最高荣誉)、北京市三好学生、SCI期刊杰出审稿人、3次博士生国家奖学金等个人荣誉。目前担任IEEE Trans. Industrial Electronics, IEEE Trans. on Intelligent Vehicles, IEEE Trans. Intelligent Transportation Systems, IEEE Transactions on Systems, Man and Cybernetics: Systems, IEEE Transactions on Industrial Informatics, Advances in Mechanical Engineering等多个国际SCI期刊的审稿人。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171226G0QXWM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券