首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    深度强化学习落地方法论训练篇:PPO、DQN、DDPG、学习率、折扣因子等

    为了保证 DRL 算法能够顺利收敛,policy 性能达标并具有实用价值,结果有说服力且能复现,需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得 GANs 刚火起来的时候,因为训练难度高,有人在 GitHub 上专门开了 repository,总结来自学术界和工业界的最新训练经验,各种经过或未经验证的 tricks 被堆砌在一起,吸引了全世界 AI 爱好者的热烈讨论,可谓盛况空前。在玄学方面,DRL 算法训练有得一拼。但毕竟在科研领域没有人真的喜欢玄学,只有久经考验的一般化规律才能凝结成知识被更多的人接受和推广。本篇接下来的内容融合了许多个人经验和各种参考资料,算是在 DRL 训练 “去玄学” 化上做出的一点微不足道的努力。

    05
    领券