📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏: 【强化学习】- 【单智能体强化学习】(1)---《单智能体强化学习《纲要》》
强化学习(Reinforcement Learning,简称 RL)是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程,目的是让机器或智能体能够在复杂的环境中选择最优的行为,从而获得最大的奖励。
想象一下你是一个小孩,在一个游乐场里,你需要做出一些选择:玩蹦床、滑滑梯,还是去玩旋转木马上?每次你做出选择后,游乐场会给你一些奖励,比如玩蹦床后你感觉非常开心(给你奖励),滑滑梯后你感到害怕(没有奖励)。你不知道这些奖励会如何,但随着时间的推移,你学会了什么行为能带来更好的感觉。
这个过程类似于强化学习中的“学习过程”。智能体(你)通过尝试不同的行为(选择玩不同的设施)来获得奖励,然后根据这些奖励来调整自己的行为,最终找出最好的选择。
在强化学习中,系统主要包括以下几个部分:
强化学习的核心是“试错学习”。智能体通过与环境的互动,不断做出决策并获得反馈。通过这种方式,智能体学会了哪些行为会带来更多的奖励,哪些行为是无效的。
假设你是一个游戏玩家,游戏中的目标是找到宝藏。游戏中的每个步骤都充满了未知。你可以走左边、走右边、爬山、挖洞等。你不知道哪个动作能带来宝藏,但你可以尝试:
通过这些尝试,智能体逐渐知道走左边会更有可能获得奖励,最后学会了最佳的路径。
我们从强化学习的研究出发,最开始便是针对单智能体强化学习开展研究,然后再过渡到多智能体强化学习。单智能体强化学习(Single-Agent Reinforcement Learning,SARL)是强化学习的基础研究。
单智能体强化学习涉及一个智能体在环境中学习和决策,目标是最大化该智能体的回报。与多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)相比,单智能体强化学习(Single-Agent Reinforcement Learning, SARL)的主要区别在于:
SARL系列主要针对单智能体强化学习相关算法进行介绍,并给出相关Python代码和可移植程序,SARL系列文章纲要如下:(持续更新中)
强化学习不仅仅适用于游戏,它已经被广泛应用于很多现实世界的问题中,以下是一些经典的例子:
强化学习最著名的一个应用例子是 AlphaGo。AlphaGo是由DeepMind开发的人工智能,它通过强化学习击败了围棋世界冠军李世石。它的训练过程就是通过与自己对弈,不断调整自己的策略,最终掌握了围棋的高超技巧。
自动驾驶汽车也是强化学习的一大应用领域。在自动驾驶中,智能体(即汽车)通过在真实世界或模拟环境中进行试验和错误,学习如何做出正确的决策——比如如何加速、减速、变道,甚至如何避免碰撞。通过不断试错,汽车能够学会在各种不同的路况中选择最安全、最合适的操作。
在机器人领域,强化学习也得到了广泛的应用。例如,一个机器人可能需要学会如何抓取物体,如何移动或走路。通过不断地“试”抓不同的物体,机器人的“抓取策略”会不断改进,最终学会了如何以最有效的方式抓取物体。
强化学习就是让智能体通过与环境的互动,不断学习、调整自己的行为,以获得更多的奖励。它像是一个不断“试错”的过程,智能体通过尝试各种动作,从失败和成功中学习,最终找到最优的行为策略。