移动机器人中的强化学习
打开一切科学的钥匙都毫无异议地是问号,我们大部分的伟大发现都应当归功于如何?而生活的智慧大概就在于逢事都问个为什么?
——巴尔扎克
随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少, 移动机器人的运动规划能力受到了严峻的挑战. 研究移动机器人高效自主的运动规划理论与方法, 使其在长期任务中始终保持良好的的复杂环境适应能力, 对保障工作安全和提升任务效率有重要意义.
一
在现代科技飞速发展的今天,智能移动机器人以其小巧灵活,操纵简单,功能多样等特点,始终处于科学研究的前沿,一直引领着高新技术发展的重要方向。它们通过搭载各类传感设备去代替人们去执行繁杂而危险的任务,在城市救援,生命探测,安全巡防等方面发挥着举足轻重的作用,同时也被广泛应用在工业、农林、医疗教育等行业。随着人工智能和计算机大数据时代的到来,人类总是期望移动机器人能够具有更加强大的自主化能力,以代替我们在更多的领域完成更加复杂危险的探索操作任务。为了实现这一目标,核心要求之一就是需要移动机器人必须具备优良的运动规划能力,使机器人在无人干预的条件下也可以在未知环境中有目的地、准确高效地完成任务。
二
目前,被广泛应用的运动规划算法方法主要是基于环境模型的A* 算法、D* 算法, 基于搜索的随机路径图法(PRM)和快速探索随机树法(RRT)基于策略的模糊逻辑法、动态窗口法等,以及仿生规划算法遗传算法、蚁群算法、蜂群算法等。一般地,在地图已知、障碍静态、环境简单的条件下,这些运动规划算法可以通过环境建模或者概率搜索等方式来完成简单的任务。但是传统规划方法多为定制型算法,还存在程序体积庞大,通用性差,功耗高等诸多难题。设计具有自主决策能力的智能化机器人运动规划方法,进而弥补传统运动规划方法的缺陷,提高移动机器人运动规划方法的鲁棒性和泛化能力,是移动机器人目前亟待解决的问题之一。
三
近年来,借助于强化学习的快速发展,强化学习技术以强大的学习能力迅速应用于机器人领域,成为了研究者关注的热点, 为移动机器人复杂环境中运动规划问题提供了新的思路和方向。基于强化学习的运动规划方法可以将任务环境的状态空间与自身运动参数相关联,通过与环境的持续交互进行试错迭代获取奖励或惩罚,从而优化运动策略。另外强化学习不需依赖环境模型以及任何先验知识,仅需通过自主学习和试错训练就可以完成策略的升级,对解决移动机器人在非结构环境中的路径规划,提高移动机器人未知环境的自适应性的问题有着重要作用。众多研究机构和知名大学均对强化学习的运动规划方法投入了大量精力,并且已经取得了较好的效果。
四
基于强化学习的运动规划是一种基于数据的非监督式机器学习方法,集成了感知、规划于一体,通过策略学习实现端到端的运动规划。其借鉴人类试错的思想,利用机器人与动态环境的反复交互,以获得最大奖励的为目标不断优化机器人的动作选择,从而规划得到最优策略,完成在未知环境中的自主运动规划。由于其不依赖完备的环境先验知识,能够通过自主学习提升自身的运动规划策略,尤其是在地图残缺或环境未知的任务中,比常规方法更为有效。基于强化学习的机器人运动规划通过强化学习方法构建传感器端到动作执行端的模型网络,实现环境感知到机器人动作的直接映射,从而使得环境响应速度得以加快。
具体而言,在策略执行过程中,移动机器人运动规划策略可以分为两个部分:策略执行和策略优化。在策略执行阶段,机器人根据当前状态st 获得奖励rt,然后根据策略π 规划出下一步的执行动作at,如直行、旋转、加减速等,从而获得奖赏值rt+1 并转移至新的状态st+1。同时,机器人在此过程中不断采集运动样本,送入策略优化部分,通过最优化移动机器人动作选择策略,制定机器人动作选择规则;获取最优策略的方式包括两种,一种是通过最大化价值函数Q(st; at) 来间接优化策略π,另外一种方式是通过策略搜索的方式,直接进行优化动作选择策略π,无需中间过程。机器人得到最优策略则标志着机器人动作选择规划的完成,接下来移动机器人只需执行最优策略去完成目标任务。
—— E N D ——
文字| 编辑:王博士
领取专属 10元无门槛券
私享最新 技术干货