Tensorboard日志中的峰值- PPO2稳定基线

、、、

Python3.7 - Tensorflow 1.14.0 我使用MlpLstmPolicy作为策略，使用stable baseline PPO2 model运行一个自定义健身房环境。在训练模型之后，我看了一下Tensorboard日志。在“输入”和“损失”选项卡上，您可以清楚地看到所有图表的峰值。 ? ? 这是一个特写 ? 有人知道为什么会发生这种情况吗?我知道这是一个非常广泛的问题，希望有人能帮助我… 如果我能提供更具体的信息，请告诉我

浏览 42提问于2020-01-19得票数 0

1回答

调整自定义环境的稳定基线代理

、

我做了一个游戏，我正在努力让它在稳定的基线下工作。我尝试了不同的算法，我尝试阅读稳定基线文档，但我不知道从哪里开始调优。我的游戏在这里：https://github.com/AbdullahGheith/BlockPuzzleGym 这是我用来训练它的代码： import gym en

浏览 16提问于2020-09-10得票数 0

1回答

稳定的基线保存PPO模型并重新训练

、、、

你好，我正在使用稳定基线软件包(https://stable-baselines.readthedocs.io/)，特别是我正在使用PPO2，我不确定如何正确保存我的模型……我对它进行了6天的虚拟训练，并获得了大约300的平均回报，然后我决定这对我来说还不够，所以我又训练了6天。但当我查看训练统计数据时，每集的第二次训练回报开始于30左右。这表明它没有保存所有参数。下面是我使用包进行保存的方法： def make_env_

浏览 93提问于2020-02-02得票数 1

1回答

稳定基线作用空间

、、

如何在稳定的基线中有多个动作空间。我的行动空间是一个离散和盒子的组合。我使用的是来自PPO2的sb3

浏览 4提问于2022-02-26得票数 0

1回答

如何将经过训练的稳定基线/TensorFlow神经网络输出到MATLAB？

、、、、

我想把一个经过PPO2 2训练的神经网络导出到MATLAB中。它被保存为一个zip文件我可以装载我的模型由于找不到直接导出MATLAB的方法，所以我考虑使用开放式神经网络交换(ONNX)作为中间格式。

浏览 9提问于2022-06-22得票数 2

1回答

为什么稳定的基线评估助手需要环境？

稳定基线中的模型在创建时需要一个环境。例如：model = PPO2(MlpPolicy, env)mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100) 如果评估助手已经在模型中指定了环境，那么它的目的是什么

浏览 11提问于2020-07-09得票数 1

1回答

连续动作空间(人形-v2)增强的实现？

、、、、

我已经看到了用于具有离散动作空间的强化学习任务的强化策略算法的多个实现。是否有针对连续动作空间的算法(或其他策略梯度算法)的实现？更具体地说，有没有可能从OpenAI健身房实现两足动物运动的增强-“人形-v2”？谢谢。

浏览 1提问于2018-04-13得票数 2

1回答

Tensorboard在具有稳定基线的学习过程中停止在Google中更新

、、

我正在使用PPO稳定的基线在谷歌Colab与Tensorboard激活跟踪培训进度，但在大约100-200 K的时间步骤，张力板停止更新，即使模型仍然在训练(学习)，还有谁有这个问题，并知道它的解决办法

浏览 4提问于2022-05-12得票数 0

回答已采纳

1回答

为什么经过训练的RL代理仍然在测试数据上显示随机的“探索性”行为？

我正在使用稳定的基线训练PPO2 RL模型。我发现的一件事是，经过训练的代理仍然会在测试数据上显示一些随机行为，如predict方法PPO2所示；deterministic标志应该设置为True，以查看确定性(非随机)行为。我理解，在训练一个RL代理时，需要进行一定数量的随机探索，以便agent能够学习最优的值策略网络。然而，我认为，一旦对一个代理进行了训练，并用于对新的测试数据进行操作(预测)，将使用模型参数，而不

浏览 0提问于2019-07-24得票数 4

回答已采纳

1回答

在OPENAI基线中保存模型

、、、

Openai基线使用以下命令保存经过训练的模型，但保存下来的训练模型不是以，.ckpt.indexcheckpoint 在早期版本中是这样的

浏览 1提问于2019-05-27得票数 2

1回答

如何使用Openai稳定基线RL算法的自定义Openai健身房环境？

、、、、

我一直试图使用自定义openai健身房环境固定翼无人机从通过测试它与openai稳定基线算法，但我已经遇到了几天的问题。我的基线是CartPole示例多处理:从释放的向量化环境的能力，因为我需要提供参数，我正在尝试使用多处理，我相信这个例子就是我所需要的。我已将基线示例修改如下：import numpy as np from stable_baselines.common.policies import Ml

浏览 5提问于2019-11-19得票数 2

回答已采纳

1回答

对于R中不断增长的数据输入，如何根据“峰值时间”和“回到基线的时间”计算两个时间长度？

、、

将不断变化的数据源(如)连接到R中，注：“偏离基线范围”(除非有更好的数学方法)定义为至少最近的5种价格均高于最新200种价格的平均值的3种标准差。

浏览 1提问于2015-09-11得票数 0

1回答

樱桃采摘时的问题-最大限度的策略优化

、、、、

我正在使用PPO2在稳定基线(OpenAI的基线叉)中的实现来解决强化学习问题。我的观察空间是9x9x191，我的动作空间是144。在一个国家，只有一些行动是“合法的”。我不改变操作的潜在概率，所以在计算动作的否定日志时，它们将是真正的否定日志。总的趋势是新的和旧的否定行为

浏览 0提问于2019-02-21得票数 2

2回答

稳定baselines3模型中基于LSTM的策略

、

我正在尝试使用稳定的baselines3 3库来建立一个PPO模型。我想使用一个包含LSTM层的策略网络。然而，我在图书馆的网站上找不到这样的可能性，尽管它存在于以前版本的稳定基线( )中。这种可能性是否存在于稳定基线3(不是稳定基线)？如果没有，我还能做些什么吗？谢谢。

浏览 36提问于2021-12-27得票数 4

2回答

TensorBoard没有显示所有的数据点

、

我进行了一次很长的训练(强化学习有20M步)，每10k步写一次总结。在步骤4M到6M之间，我在我的TensorBoard标量图中看到了两个峰值，然后我让它运行并进入睡眠状态。早上，它的运行速度约为12米，但我早些时候看到的4米到6米之间的山峰从图表上消失了。我试着放大，发现TensorBoard (随机？)跳过了一些数据点。我还试图导出数据，但导出的.csv中也缺少一些数据点，包括峰值。我在Tens

浏览 4提问于2017-04-30得票数 31

2回答

SubprocVecEnv不使用自定义Env (稳定基线- Gym)

、、、

但是，如果我试图使用SubprocVecEnv来加速使用我的所有24个CPU核心的学习过程，我就会收到这样的消息: ValueError:未能广播输入数组从形状( 24 ,24)到形状(24,1)。PS:我的自定义env非常简单，基本上我使用的是一个有567行和4列的数据集，代理同时访问一行，并从这个观察中预测两个值。.]), dtype=np.float64) 我正在使用PPO2从稳定的基线<em

浏览 10提问于2021-01-14得票数 1

1回答

稳定-基线3对数奖励

、、、、

如何使用自定义环境在稳定的Baselines3中为tensorboard登录添加奖励？( learning_rate=1e-4, verbose=1, tensorboard_log/tensorboard/")

浏览 42提问于2021-09-14得票数 1

1回答

和声在音乐样本中的计数

、、、、

为了确定一个声音的丰富性，我想确定一个音乐样本中的和弦数。为此，我使用了处理和Minim库，它给了我一个FFT的全谱。我想知道如何计数由FFT产生的频谱中的所有峰，我甚至对基频不感兴趣。

浏览 0提问于2011-11-06得票数 6

回答已采纳

1回答

如何接近峰值采摘范围广泛的峰值形状，大小，不同的噪音水平，偶尔移动基线？

、、、

📷基线减去(说明不同的基线信号)我叠加了所有光谱的候选峰数据(高斯平滑后的局部极小值)，并在一维(y轴；2个簇；100个光谱；3000故障区域:Y中的1到3之间(不能区分浅峰和无峰的光谱)。如何处理这个问题，使峰值检测足够敏感，但仍然可以判断是否存在峰值？

浏览 0提问于2018-06-11得票数 1

3回答

AttributeError:模块“”tensorflow“”没有特性“”io“”

、、、

我的问题是当我试图运行这段代码时if log_to_tensorboard226 227 # Create default bins for histograms, see generate_testdata.py in tensorflow/tensorboard/anaconda3/lib/

浏览 3提问于2020-02-10得票数 2

点击加载更多