前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[深度学习工具]·百度PaddlePaddle深度强化学习框架PARL

[深度学习工具]·百度PaddlePaddle深度强化学习框架PARL

作者头像
小宋是呢
发布2019-06-27 14:33:38
9980
发布2019-06-27 14:33:38
举报
文章被收录于专栏:深度应用

PARL快速入门示例

PaddlePaddle PARL 的名字来源于 PAddlepaddle Reinfocement Learning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PaddlePaddle PARL 凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比,PaddlePaddle PARL 具有更高的可扩展性、可复现性和可复用性,强大的大规模并行化和稀疏特征的支持能力,以及工业级应用案例的验证

基于PARL,训练代理人在几分钟内使用策略梯度算法玩CartPole游戏。

如何使用

依赖关系:(在Ubuntu安装测试成功,Windows失败)

开始培训:

代码语言:javascript
复制
# Install dependencies
pip install paddlepaddle  
# Or use Cuda: pip install paddlepaddle-gpu

pip install gym
git clone https://github.com/PaddlePaddle/PARL.git
cd PARL
pip install .

# Train model
cd examples/QuickStart/
python train.py  
# Or visualize when evaluating: python train.py --eval_vis
代码语言:javascript
复制
。。。
[01-19 00:04:20 MainThread @train.py:71] Episode 995, Reward Sum 198.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 996, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 997, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 998, Reward Sum 150.0.
[01-19 00:04:21 MainThread @train.py:71] Episode 999, Reward Sum 200.0.
[01-19 00:04:21 MainThread @train.py:80] Test reward: 200.0

结果

训练结束后,您将看到代理获得最高分(200分)。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年01月19日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • PARL快速入门示例
  • 如何使用
    • 依赖关系:(在Ubuntu安装测试成功,Windows失败)
      • 开始培训:
        • 结果
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档