相关文章:
【一】飞桨paddle【GPU、CPU】安装以及环境配置+python入门教学
监督学习是认知:学习到这个是什么,【样本独立的】
强化学习是决策【样本之间有关系】
Reinforcement learning
,简称RL
)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。agent
在环境environment
中学习,根据环境的状态state
(或观测到的observation
),执行动作action
,并根据环境的反馈 reward
(奖励)来指导更好的动作。注意:从环境中获取的状态,有时候叫state
,有时候叫observation
,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。
value-based
)、基于策略(policy-based
)大致分类:
交互环境常用Gym中:
一般控制场景分为:离散控制场景【上下左右有限个】、连续控制场景【0-360°角度,连续的变量】
GYM
是强化学习中经典的环境库,下节课我们会用到里面的CliffWalkingWapper
和FrozenLake
环境,为了使得环境可视化更有趣一些,直播课视频中演示的Demo对环境的渲染做了封装,感兴趣的同学可以在PARL
代码库中的examples/tutorials/lesson1
中下载gridworld.py
使用。PARL
__开源库地址:https://github.com/PaddlePaddle/PARL然后从github下载程序,可参考:
https://blog.csdn.net/sinat_39620217/article/details/114935394
https://blog.csdn.net/sinat_39620217/article/details/114935069
下载完PARL打开对应example
只需要红框对应代码,多集群。(多线程代码)
只需要拷贝一份代码到learner master机器上, 当集群存在别的机器会自动拷贝代码到其余机器上。
这里采用1.8 paddle------------考虑到目前开源程序采用的都是1.8版本及之前的 所以安装2.0运行代码调试问题比较大,迁移工具也无法完全改进成功