腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(153)
视频
沙龙
1
回答
openai
spinningup
中
的
RL
PPO
动作
空间
裁剪
、
、
我现在使用
的
是
openai
开发
的
"
spinningup
“。在
spinningup
中
,实现了
PPO
和其他
RL
算法。但是,只有DDPG、SAC和TD3才有名为"action_limit“变量。我现在正在使用
PPO
,我还需要剪辑(给下限和上限)
动作
,因为我
的
机器人只在0,200.0范围内工作。是否因为
PPO
算法不需要与DDPG、SAC、TD3不同action_limi
浏览 97
提问于2021-04-13
得票数 1
1
回答
用于连续
动作
空间
的
PPO
,A2C,数学和代码
、
、
我实现了剪裁
的
目标
PPO
-剪辑,如下所述:https://
spinningup
.
openai
.com/en/latest/algorithms/
ppo
.htmlratio = new_aprob / old_aprob # sca
浏览 0
提问于2019-04-20
得票数 2
回答已采纳
1
回答
如何获得连续
动作
空间
PPO
强化学习
的
整数作为输出?
、
我有一个庞大
的
离散
动作
空间
,学习稳定性不好。我想要移动到连续
的
操作
空间
,但是任务
的
唯一输出可以是正整数(假设在0到999之间)。如何强制DNN输出正整数?
浏览 6
提问于2022-08-03
得票数 -1
1
回答
在某些连续
空间
的
RL
库
中
,可以通过舍入来实现离散
空间
的
强化学习算法吗?
、
对于离散
的
动作
空间
环境,
RL
算法可以通过简单地映射(或舍入)agent在连续
空间
范围(健身房环境)
中
的
动作
到
openai
健身房环境
中
的
离散
动作
来实现
RL
算法吗?
浏览 3
提问于2022-01-21
得票数 0
1
回答
一个更大
的
动作
空间
是否需要更长
的
时间来训练一个
RL
特工?
、
我正在与
openai
健身房玩,试图更好地理解强化学习。您可以修改
的
一个代理参数是
动作
空间
,即代理可以在每个状态下在环境
中
采取
的
特定操作。“左”、“右”、“上”或“下”如果环境是一个有四个离散
动作
的
游戏。 在我
的
研究
中
,我没有发现有任何地方明确指出,如果操作
空间
更大,
RL
模型,特别是
PPO
2,将需要更长
的
时间来训练。同样
的
All,
浏览 0
提问于2019-07-24
得票数 1
回答已采纳
1
回答
在Cart极示例
中
,SAC可以代替
PPO
吗?
我正在用示例代码学习AzureML
RL
。 有人
浏览 8
提问于2020-09-07
得票数 2
2
回答
理解稳定基线
中
的
行动
空间
、
、
我研究了不同
的
模型API (比如多酚氧化酶),它们实际上不允许我们指定操作
空间
。相反,
动作
空间
是在环境中指定。使用
的
动作
类型(离散/连续)将从环境
动作
空间
中自动推导出来。因此,“模型”似乎从环境
中
推导出行动
空间
。Q2。另外,我
的
agent(observations)方法应该如何返回操作?通过返回model.predict()返回
的</
浏览 0
提问于2021-03-12
得票数 0
2
回答
没有名为spinup.run
的
模块
、
、
今天,我试着在
openai
的
深层
RL
中
安装旋转装置。当我在Anaconda复制python -m spinup.run
ppo
--env CartPole-v1 --exp_name hello_world时,它表明 没有名为spinup.run
的
模块这样我就可以成功地在深层
RL
中
安装纺纱了吗?谢谢!
浏览 0
提问于2018-11-13
得票数 1
1
回答
Python强化学习-元组观察
空间
、
、
、
、
我创建了一个自定义
的
openai
健身房环境,它有一个离散
的
动作
空间
和一个有点复杂
的
状态
空间
。状态
空间
被定义为元组,因为它结合了一些连续
的
维度和其他离散
的
维度: import gym def我很幸运地使用keras-
rl
训练了一个代理,特别是DQNAgent,但是keras-
rl</em
浏览 73
提问于2019-10-09
得票数 4
回答已采纳
1
回答
多个“连续行动”
的
深度强化学习
、
、
下面是一个高层次
的
图表,我
的
代理人应该如何看起来,以便能够与一个定制
的
健身房环境,我所做
的
。该环境有三种状态( s1、s2、s3 )和6个
动作
( a1、a2、a3、a4、a5、a6状态和
动作
)可以是0到1之间
的
任意值。哪种算法适合我
的
问题?我知道有些算法擅长处理连续
的
操作
空间
,如DDPG、
PPO
等。但是,我看不出它们在每个时间步骤输出多个操作时会如何操作。最后,是否有
浏览 2
提问于2021-03-01
得票数 2
回答已采纳
2
回答
具有奖励功能
的
棋类游戏
的
健身房
动作
空间
、
、
我试图设计一个
openai
健身房环境,它可以玩一个非常简单
的
棋盘游戏,每个玩家有16个棋子,在移动方式上是完全相同
的
。它们可以向这个方向移动,就像线上
的
块一样多,包括移动
的
部分。所以,如果我想往左走,我会数我左边和右边
的
所有部分,为我自己加上1,然后把那么多
的
字段移到左边。该字段可能被阻塞,但在这种情况下,移动是不可能
的
。 所以我
的
问题是:我如何实现一个行动
空间
呢?是否与(董事会
的
sice)*(多少
浏览 0
提问于2019-01-26
得票数 0
回答已采纳
1
回答
Openai
健身箱
动作
空间
不包围
动作
、
、
我使用Keras
RL
2在一个定制
的
openai
健身环境
中
训练DDPG代理。对于
动作
空间
,我使用
的
是行它完全忽略了训练时
的
低值和高值我怎么才能阻止这一切
的
发生?
浏览 8
提问于2022-07-29
得票数 0
1
回答
OpenAi
基线实施
中
的
PPO
更新计划
、
、
、
我试图通读
OpenAi
的
Baselines of
RL
algorithms ()
中
的
PPO
1代码,以便更好地理解
PPO
是如何工作
的
,如何去实现它,等等。我对输入到“optim_batchsize()”函数
中
的
“learn”和"timesteps_per_actorbatch“参数之间
的
区别感到困惑。这些超参数是什么?在"make_atari“函数
中
,它使用了&
浏览 2
提问于2018-04-13
得票数 0
1
回答
使用强化学习
的
数学测验应用程序
、
我想开发一个使用强化学习
的
数学测验程序。假设我们手头有1000个问题,每个测验要问25个问题。程序必须从用户回答和提出下一个问题
的
方式中学习,而不是随机提问。 测验程序应该是一种强化学习智能体。示例: BoT:什么是机器人1:用户:3(错误答案) 5+:问了一个简单
的
问题,或者正确答案问了一个困难
的
问题。
浏览 0
提问于2018-12-31
得票数 0
1
回答
如何保证演员选择正确
的
动作
?
在深层确定性策略梯度(DDPG)算法
的
训练阶段,
动作
选择将是简单
的
。其中state是当前环境
的
状态,actor是一种深度神经网络。我不明白如何保证返回
的
action属于所考虑
的
环境
的
操作
空间
。 例如,state可以是4大小
的
向量,
动作
空间
可以是实数
的
区间[-1,1]或[-1,1]x[-2,2]
的
笛卡尔积。为什么在执行a
浏览 2
提问于2021-01-04
得票数 1
回答已采纳
1
回答
竞赛策略发展
的
观察
空间
-强化学习
、
、
直到现在,我一直没有寻求帮助,但随着我
的
论文截止日期越来越近,而且我不认识在
RL
方面有经验
的
任何人,我正在这里尝试我
的
运气。专题简介经过训练
的
RL
代理可以自行决定何时进行停站,以
浏览 5
提问于2021-08-24
得票数 0
2
回答
稳定基3
PPO
模型加载但不工作
、
、
、
、
我试图做一个人工智能代理发挥
OpenAI
健身房CarRacing环境,我有困难加载保存
的
模型。我训练他们,他们工作,我拯救他们,装载他们,突然汽车甚至不动。我在使用gym==0.21.0
的
一个木星笔记本上
的
VS代码
中
的
Ubuntu20.04,稳定-baselines3 3==1.6.0,python==3.7.0。= os.path.join('Training', 'Saved Models', '
PPO
_Car_Te
浏览 22
提问于2022-09-15
得票数 1
回答已采纳
1
回答
RL
适用于完全随机
的
环境吗?
、
关于强化学习(
RL
)在我们试图解决
的
问题上
的
适用性,我有一个基本
的
问题。我们正在尝试使用
RL
进行库存管理--在这种情况下,需求是完全随机
的
(在现实生活
中
,它可能有一个模式,但现在让我们假设我们被迫被视为纯粹
的
随机)。据我所知,
RL
可以帮助学习如何玩游戏(比如下棋),也可以帮助机器人学会走路。但是所有的游戏都有规则,“推车杆”(
OpenAI
Gym)也有规则 对于我们
的
问题,没有规则-环境变化随机(
浏览 0
提问于2018-10-11
得票数 2
回答已采纳
1
回答
为什么keras-
rl
示例总是在输出层选择线性激活?
、
、
我完全是强化学习
的
新手。我有一个关于keras-
rl
代理
的
输出层
的
激活函数
的
选择
的
问题。在keras-
rl
()提供
的
所有示例
中
,在输出层选择线性激活函数。为什么会这样呢?如果我使用不同
的
激活函数,我们会有什么效果?例如,如果我使用离散操作
空间
为5
的
OpenAI
环境,我是否也应该考虑在代理
的
输出层中使用softmax?提前谢谢你。
浏览 17
提问于2017-08-04
得票数 4
回答已采纳
2
回答
强化学习是否适用于随机环境?
、
我有一个关于强化学习(
RL
)在我们试图解决
的
问题上
的
适用性
的
基本问题。我们正在尝试使用
RL
进行库存管理--在这种情况下,需求完全是随机(它可能在现实生活中有一种模式,但现在让我们假设我们被迫被视为纯粹
的
随机)。据我所知,
RL
可以帮助学习如何玩游戏(比如下棋),也可以帮助机器人学会走路。但是所有的游戏都有规则,还有“购物车杆”(
OpenAI
Gym) --有一些“物理”规则控制着推车杆什么时候会翻倒。对于我们
的
问题,没有规则-环境变化
浏览 2
提问于2018-10-10
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
OpenAI开课了!深度强化学习最全课程包,教程、代码、习题、文档一网打尽
从Zero到Hero,OpenAI重磅发布深度强化学习资源
OpenAI开课了!深度强化学习最全课程包,教程代码一网打尽
硬核解析|ChatGPT的深层原理
机器学习:Github上排名前19个强化学习 (RL)项目【附带源代码网址】
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券