首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

    离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。 如图 7.1 所示,离散动作和连续动作有几个例子。在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上、下、左、右4个动作。在雅达利的 Pong 游戏中,游戏有 6 个按键的动作可以输出。但在实际情况中,我们经常会遇到连续动作空间的情况,也就是输出的动作是不可数的。比如:推小车推力的大小、选择下一时刻方向盘转动的具体角度、给四轴飞行器的4个螺旋桨给的电压的大小。

    03

    深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3

    虽然每年 RL 方向的 paper 满天飞,但真正具有普遍实用价值的突破性工作实在不多,大多数还是在经典框架基础上的改进和扩展。DRL 常规武器库里的存货主要还是老三样:DQN,DDPG 和 A3C,它们是深度学习时代最成熟、最能体现智慧结晶的三个 DRL 框架,你可以在 GitHub 上找到无数相关代码,有 OpenAI,DeepMind 和 Nvidia 这些大公司的,也有个人爱好者的。对于 DRL 初学者,它们是最佳的敲门砖;对于算法研究者,它们是最厚实的 “巨人肩膀”;对于算法工程师,它们是最顺手的试金石。你完全可以把三个框架都放到项目模拟器上跑一跑,看哪个效果好就用哪个。当然,这三个算法框架都有各自的特点和适用 domain,结合对项目的分析,是可以提前评估最合适的算法的。

    03

    【Copy攻城狮日志】强化学习7天打卡营学习笔记

    ↑开局一张图,故事全靠编。我常常会扪心自问,一个连本行工作都干不好的人,还有时间去捣鼓别的领域,去“学习”别的领域的新知识?然鹅,自诩为“Copy攻城狮”的我,膨胀到像 学一波AI,不求结果,为了兴趣愿意去尝试,哪怕到头来竹篮打水一场空。于是,机缘巧合通过齐老师了解到Baidu的AIStuio以及此次飞浆的实战入门课。国际惯例,免费的午餐实际上并非真正的面试,如同HuaweiCloud的AI训练营推广ModelArts,这次的课也是为了推广飞浆。当然,对于AI小白来说,这些 都是非常不错的工具,里面的学习资源也非常丰富,废话不多说,马上开启Copy之路!

    03
    领券