腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
强化学习系列
强化学习系列
专栏成员
举报
12
文章
26262
阅读量
11
订阅数
订阅专栏
申请加入专栏
全部文章(12)
强化学习(9)
腾讯技术创作特训营S10(3)
编程算法(2)
网络安全(2)
https(2)
深度学习(1)
人工智能(1)
serverless(1)
深度强化学习(1)
腾讯技术创作特训营S6(1)
搜索文章
搜索
搜索
关闭
强化学习系列(十一)--探索蒙特卡洛树搜索(MCTS)及其在大语言模型中的应用
强化学习
腾讯技术创作特训营S10
人工智能
文章从环境搭建、代码实现到数据展示与分析,完整实现了一个微博热搜爬取项目。项目不仅可以作为学习爬虫的入门案例,还可扩展为更复杂的热点分析系统。
languageX
2024-12-06
2.1K
0
强化学习系列(十)--基于大语言模型的RLHF
深度强化学习
腾讯技术创作特训营S10
推荐文章:《Linux本地部署开源项目OpenHands基于AI的软件开发代理平台及公网访问》
languageX
2024-11-27
386
0
AI helps AI -- 强化学习从入门到入门
腾讯技术创作特训营S10
深度学习
强化学习
推荐文章:《使用Python实现深度学习模型:智能食品配送优化》,作者:【Echo_Wish】。
languageX
2024-11-17
504
0
强化学习系列(九)--A3C
强化学习
腾讯技术创作特训营S6
好久没有更新强化学习这个系列了,今天继续更新下强化学习系列的A3C技术,后面会结合当前最火大模型强化学习训练持续更新此系列。
languageX
2024-05-09
262
0
强化学习系列(八)--PPO
强化学习
回顾上文中的DDPG,DDPG是源于DQN,它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作,他的目标是输出一个动作,这个动作输入到Critic后,能过获得最大的Q值。和DQN一样,更新的时候如果更新目标在不断变化会使学习过程困难,所以需要固定目标网络,求target的网络更新后再赋值参数,所以需要四个网络。
languageX
2022-04-01
4.3K
0
强化学习系列(七)--DDPG
强化学习
DDPG(deep deterministic policy gradient),深度确定性策略梯度算法。
languageX
2022-04-01
6.3K
0
强化学习系列(六)--Actor-Critic实例二
serverless
编程算法
网络安全
https
在上文中我们介绍了Acort-Critic的一种实现方式,本文主要介绍AC网络的一些优化算法。
languageX
2022-03-01
1.6K
0
强化学习系列(五)--Actor-Critic实例
编程算法
网络安全
https
在基于价值算法中,是根据值函数对策略进行改进,对比基于策略的方法,他的决策更为肯定就是选择价值最高的;而基于策略方法,是直接对策略进行迭代让累计回报最大。
languageX
2022-03-01
1.8K
0
强化学习系列(四)-PolicyGradient实例
强化学习
上文我们介绍了使用简单的Random Guessing Algorithm & Hill Climbing 算法来解决CartPole问题,主要在决策动作这个步骤进行了修改,但是上文介绍的方法都是随机改变权重,针对简单问题参数量比较少的问题可能会得到比较好的效果,但是如果问题复杂,需要参数量多的话,这种方法就不太理想。本文主要介绍基于PolicyGradient方案如何解决CartPole问题。
languageX
2022-02-06
894
0
强化学习系列(三)-gym介绍和实例
强化学习
gym是openAI下的一个开发和对比强化学习算法的工具包,内部提供了强化学习需要的环境。
languageX
2022-02-06
5.1K
0
强化学习系列(二)--算法概念
强化学习
上文我们已经理解强化学习的基础概念以及其目标是找到一个策略 最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分类为model-based和model-free,value-based和policy-based,其中value-base的学习方法又分为off-policy和on-policy。本文主要介绍这些方法的区别和概念。
languageX
2022-01-10
1.6K
0
强化学习系列(一)--基础概念
强化学习
最近了解了强化学习方面的知识,准备进行下整理和总结。本文先介绍强化学习中一些基础概念。
languageX
2022-01-05
1.4K
1
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档