前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【资料总结】| Deep Reinforcement Learning 深度强化学习

【资料总结】| Deep Reinforcement Learning 深度强化学习

作者头像
Charlotte77
发布2019-05-25 15:59:50
6690
发布2019-05-25 15:59:50
举报

  在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习。有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准。如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略。简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食的时候吃零食,而不是在不合适的时间吃零食。同样,曾经风靡过一段时间的Flappy bird,很多玩家在短时间内达到了高分,是怎么做到的呢?除了非常厉害的玩家是真的自己手动玩的高分,其实很多高分是通过我们用强化学习的方法来训练一个模型,让小鸟自己学习如何不碰到障碍物一直往前飞,获得最高分。此外,大家熟知的Alpha Go,其实也是强化学习训练的模型,不过是深度强化学习。

  2013年DeepMind发表了一篇Playing Atari with Deep Reinforcement Learning 文章之后,深度强化学习便慢慢走入人们的视野。后来,在2015年,DeepMind又发表了一篇Human Level Control through Deep Reinforcement Learning,使得深度强化学习得到了广泛的关注,当年涌现了很多学术成果。我们熟知深度强化学习应该在16~17年的时候,尤其是Alpha Go出现后,很多公司和研究人员开始大量关注深度强化学习,并尝试将其应用在各个不同的应用场景。

  关于深度强化学习,我整理了一些资料,如果感兴趣的可以学习一下(部分链接需要***):

【论文】

【博客】

【文章】

【课程】

【学习网站】

【Github】

【会议】

  欢迎大家收藏和补充~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-01-23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档