科普强化学习

文章来源：企鹅号 - 雷小信

BI、WeData新客仅9.9元！新客首单1折起！

强化学习（reinforcement learning），是机器学习的一个重要分支，也是当下机器学习最火热的研究领域。强化学习的本质是解决决策问题，针对一个具体问题得到一个最优的策略，使得在该策略下获得的奖励最大。

当前的机器学习算法可以分为3种：有监督的学习（Supervised Learning）、无监督的学习（Unsupervised Learning）和强化学习（Reinforcement Learning），结构图如下所示：

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习主要包含四个元素，agent，环境状态，行动，奖励, 强化学习的目标就是获得最多的累计奖励。

小孩强化学习实验

小孩想要走路，但在这之前，他需要先站起来，站起来之后还要保持平衡，接下来还要先迈出一条腿，是左腿还是右腿，迈出一步后还要迈出下一步。

小孩就是 agent，他试图通过采取行动（即行走）来操纵环境（行走的表面），并且从一个状态转变到另一个状态（即他走的每一步），当他完成任务的子任务（即走了几步）时，孩子得到奖励（给巧克力吃），并且当他不能走路时，就不会给巧克力。

以上信息整理来自于网络，信息若有遗漏，欢迎随时补充~

Hello，Radarer

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货