腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6120)
视频
沙龙
1
回答
Tensorboard
日志
中
的
峰值
-
PPO2
稳定
基线
、
、
、
Python3.7 - Tensorflow 1.14.0 我使用MlpLstmPolicy作为策略,使用stable baseline
PPO2
model运行一个自定义健身房环境。在训练模型之后,我看了一下
Tensorboard
日志
。在“输入”和“损失”选项卡上,您可以清楚地看到所有图表
的
峰值
。 ? ? 这是一个特写 ? 有人知道为什么会发生这种情况吗?我知道这是一个非常广泛
的
问题,希望有人能帮助我… 如果我能提供更具体
的
信息,请告诉我
浏览 42
提问于2020-01-19
得票数 0
1
回答
调整自定义环境
的
稳定
基线
代理
、
我做了一个游戏,我正在努力让它在
稳定
的
基线
下工作。我尝试了不同
的
算法,我尝试阅读
稳定
基线
文档,但我不知道从哪里开始调优。我
的
游戏在这里:https://github.com/AbdullahGheith/BlockPuzzleGym 这是我用来训练它
的
代码: import gym en
浏览 16
提问于2020-09-10
得票数 0
1
回答
稳定
的
基线
保存PPO模型并重新训练
、
、
、
你好,我正在使用
稳定
基线
软件包(https://stable-baselines.readthedocs.io/),特别是我正在使用
PPO2
,我不确定如何正确保存我
的
模型……我对它进行了6天
的
虚拟训练,并获得了大约300
的
平均回报,然后我决定这对我来说还不够,所以我又训练了6天。但当我查看训练统计数据时,每集
的
第二次训练回报开始于30左右。这表明它没有保存所有参数。下面是我使用包进行保存
的
方法: def make_env_
浏览 93
提问于2020-02-02
得票数 1
1
回答
稳定
基线
作用空间
、
、
如何在
稳定
的
基线
中有多个动作空间。我
的
行动空间是一个离散和盒子
的
组合。我使用
的
是来自
PPO2
的
sb3
浏览 4
提问于2022-02-26
得票数 0
1
回答
如何将经过训练
的
稳定
基线
/TensorFlow神经网络输出到MATLAB?
、
、
、
、
我想把一个经过
PPO2
2训练
的
神经网络导出到MATLAB
中
。它被保存为一个zip文件我可以装载我
的
模型由于找不到直接导出MATLAB
的
方法,所以我考虑使用开放式神经网络交换(ONNX)作为中间格式。
浏览 9
提问于2022-06-22
得票数 2
1
回答
为什么
稳定
的
基线
评估助手需要环境?
稳定
基线
中
的
模型在创建时需要一个环境。例如:model =
PPO2
(MlpPolicy, env)mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100) 如果评估助手已经在模型中指定了环境,那么它
的
目的是什么
浏览 11
提问于2020-07-09
得票数 1
1
回答
连续动作空间(人形-v2)增强
的
实现?
、
、
、
、
我已经看到了用于具有离散动作空间
的
强化学习任务
的
强化策略算法
的
多个实现。是否有针对连续动作空间
的
算法(或其他策略梯度算法)
的
实现?更具体地说,有没有可能从OpenAI健身房实现两足动物运动
的
增强-“人形-v2”? 谢谢。
浏览 1
提问于2018-04-13
得票数 2
1
回答
Tensorboard
在具有
稳定
基线
的
学习过程
中
停止在Google
中
更新
、
、
我正在使用PPO
稳定
的
基线
在谷歌Colab与
Tensorboard
激活跟踪培训进度,但在大约100-200 K
的
时间步骤,张力板停止更新,即使模型仍然在训练(学习),还有谁有这个问题,并知道它
的
解决办法
浏览 4
提问于2022-05-12
得票数 0
回答已采纳
1
回答
为什么经过训练
的
RL代理仍然在测试数据上显示随机
的
“探索性”行为?
我正在使用
稳定
的
基线
训练
PPO2
RL模型。我发现
的
一件事是,经过训练
的
代理仍然会在测试数据上显示一些随机行为,如predict方法
PPO2
所示;deterministic标志应该设置为True,以查看确定性(非随机)行为。我理解,在训练一个RL代理时,需要进行一定数量
的
随机探索,以便agent能够学习最优
的
值策略网络。然而,我认为,一旦对一个代理进行了训练,并用于对新
的
测试数据进行操作(预测),将使用模型参数,而不
浏览 0
提问于2019-07-24
得票数 4
回答已采纳
1
回答
在OPENAI
基线
中保存模型
、
、
、
Openai
基线
使用以下命令保存经过训练
的
模型,但保存下来
的
训练模型不是以,.ckpt.indexcheckpoint 在早期版本
中
是这样
的
浏览 1
提问于2019-05-27
得票数 2
1
回答
如何使用Openai
稳定
基线
RL算法
的
自定义Openai健身房环境?
、
、
、
、
我一直试图使用自定义openai健身房环境固定翼无人机从通过测试它与openai
稳定
基线
算法,但我已经遇到了几天
的
问题。我
的
基线
是CartPole示例多处理:从释放
的
向量化环境
的
能力,因为我需要提供参数,我正在尝试使用多处理,我相信这个例子就是我所需要
的
。我已将
基线
示例修改如下:import numpy as np from stable_baselines.common.policies import Ml
浏览 5
提问于2019-11-19
得票数 2
回答已采纳
1
回答
对于R
中
不断增长
的
数据输入,如何根据“
峰值
时间”和“回到
基线
的
时间”计算两个时间长度?
、
、
将不断变化
的
数据源(如)连接到R
中
, 注:“偏离
基线
范围”(除非有更好
的
数学方法)定义为至少最近
的
5种价格均高于最新200种价格
的
平均值
的
3种标准差。
浏览 1
提问于2015-09-11
得票数 0
1
回答
樱桃采摘时
的
问题-最大限度
的
策略优化
、
、
、
、
我正在使用
PPO2
在
稳定
基线
(OpenAI
的
基线
叉)
中
的
实现来解决强化学习问题。 我
的
观察空间是9x9x191,我
的
动作空间是144。在一个国家,只有一些行动是“合法
的
”。我不改变操作
的
潜在概率,所以在计算动作
的
否定
日志
时,它们将是真正
的
否定
日志
。总
的
趋势是新
的
和旧
的
否定行为
浏览 0
提问于2019-02-21
得票数 2
2
回答
稳定
baselines3模型
中
基于LSTM
的
策略
、
我正在尝试使用
稳定
的
baselines3 3库来建立一个PPO模型。我想使用一个包含LSTM层
的
策略网络。然而,我在图书馆
的
网站上找不到这样
的
可能性,尽管它存在于以前版本
的
稳定
基线
( )
中
。这种可能性是否存在于
稳定
基线
3(不是
稳定
基线
)?如果没有,我还能做些什么吗?谢谢。
浏览 36
提问于2021-12-27
得票数 4
2
回答
TensorBoard
没有显示所有的数据点
、
我进行了一次很长
的
训练(强化学习有20M步),每10k步写一次总结。在步骤4M到6M之间,我在我
的
TensorBoard
标量图中看到了两个
峰值
,然后我让它运行并进入睡眠状态。早上,它
的
运行速度约为12米,但我早些时候看到
的
4米到6米之间
的
山峰从图表上消失了。我试着放大,发现
TensorBoard
(随机?)跳过了一些数据点。我还试图导出数据,但导出
的
.csv
中
也缺少一些数据点,包括
峰值
。我在Tens
浏览 4
提问于2017-04-30
得票数 31
2
回答
SubprocVecEnv不使用自定义Env (
稳定
基线
- Gym)
、
、
、
但是,如果我试图使用SubprocVecEnv来加速使用我
的
所有24个CPU核心
的
学习过程,我就会收到这样
的
消息: ValueError:未能广播输入数组从形状( 24 ,24)到形状(24,1)。PS:我
的
自定义env非常简单,基本上我使用
的
是一个有567行和4列
的
数据集,代理同时访问一行,并从这个观察
中
预测两个值。.]), dtype=np.float64) 我正在使用
PPO2
从
稳定
的
基线
<em
浏览 10
提问于2021-01-14
得票数 1
1
回答
稳定
-
基线
3对数奖励
、
、
、
、
如何使用自定义环境在
稳定
的
Baselines3
中
为
tensorboard
登录添加奖励?( learning_rate=1e-4, verbose=1,
tensorboard
_log/
tensorboard
/")
浏览 42
提问于2021-09-14
得票数 1
1
回答
和声在音乐样本
中
的
计数
、
、
、
、
为了确定一个声音
的
丰富性,我想确定一个音乐样本
中
的
和弦数。为此,我使用了处理和Minim库,它给了我一个FFT
的
全谱。我想知道如何计数由FFT产生
的
频谱
中
的
所有峰,我甚至对基频不感兴趣。
浏览 0
提问于2011-11-06
得票数 6
回答已采纳
1
回答
如何接近
峰值
采摘范围广泛
的
峰值
形状,大小,不同
的
噪音水平,偶尔移动
基线
?
、
、
、
📷
基线
减去(说明不同
的
基线
信号)我叠加了所有光谱
的
候选峰数据(高斯平滑后
的
局部极小值),并在一维(y轴;2个簇;100个光谱;3000故障区域:Y
中
的
1到3之间(不能区分浅峰和无峰
的
光谱)。 如何处理这个问题,使
峰值
检测足够敏感,但仍然可以判断是否存在
峰值
?
浏览 0
提问于2018-06-11
得票数 1
3
回答
AttributeError:模块“”tensorflow“”没有特性“”io“”
、
、
、
我
的
问题是当我试图运行这段代码时if log_to_
tensorboard
226 227 # Create default bins for histograms, see generate_testdata.py in tensorflow/
tensorboard
/anaconda3/lib/
浏览 3
提问于2020-02-10
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Tensorboard 详解
浅入浅出TensorFlow 5—可视化工具TensorBoard
机器学习100天-Day2103 Tensorflow模型保存读取&可视化
奇虎360开源深度学习调度平台XLearning
云帮手V2.0.5.5新版发布:安全巡检全新改版;增加PHP7.3版本
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券