PyTorch DQN代码不能解决OpenAI CartPole

PyTorch DQN是使用PyTorch框架实现的一种深度强化学习算法，用于解决强化学习问题。DQN代表深度Q网络，是一种基于神经网络的强化学习算法。

OpenAI CartPole是一个经典的强化学习问题，目标是通过控制一个杆子的平衡来保持小车在轨道上的平衡。这个问题通常用于测试强化学习算法的性能。

如果PyTorch DQN代码不能解决OpenAI CartPole问题，可能有以下几个原因：

算法实现错误：检查代码中是否有错误，例如网络结构、损失函数、优化器等方面的问题。可以参考PyTorch官方文档和示例代码来确保正确实现了DQN算法。
超参数选择不当：DQN算法有许多超参数需要调整，例如学习率、批大小、经验回放缓冲区大小、目标网络更新频率等。尝试调整这些超参数，以找到更好的性能。
环境模型不准确：OpenAI CartPole环境模型可能存在问题，导致算法无法正确学习。可以尝试使用其他强化学习问题或环境来验证算法的正确性。
训练不充分：DQN算法通常需要较长的训练时间才能收敛到最优解。尝试增加训练的迭代次数或增加每个迭代的训练步数，以提高算法的性能。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云强化学习平台：https://cloud.tencent.com/product/rl
腾讯云GPU云服务器：https://cloud.tencent.com/product/cvm/gpu
腾讯云容器服务：https://cloud.tencent.com/product/ccs
腾讯云机器学习平台：https://cloud.tencent.com/product/tiia
腾讯云数据万象：https://cloud.tencent.com/product/ci

PyTorch DQN代码不能解决OpenAI CartPole

、、、

代码来自DeepLizard教程；它表明，在重置下一集之前，代理只能实现80-120秒的100集移动平均。OpenAI健身房认为195平均正在解决这个问题。eps_decay = 0.001memory_size = 50000num_episodes = 1000 def __init__(self, device): self.dev

浏览 21提问于2020-02-07得票数 1

1回答

模型和权重不从检查点加载

、、

我正在使用OpenAI健身房的cartpole环境训练强化学习模型。这是我的全部代码- ## Slightly modified from the following repository - https://github.com/gsurma/cartpole dqn_solver.model = model.load_

浏览 21提问于2020-08-25得票数 1

回答已采纳

3回答

OpenAI健身房:安装Atari依赖项时出现问题(Mac )

、

我刚来OpenAI健身房。我已经成功地在我的Mac (High Sierra 10.13.3)笔记本电脑上安装了OpenAI健身房，并为CartPole游戏创建了一个OpenAI。但是当我运行代码时，我得到了：import atari_py File "dqn.py", line 9, in <module> impor

浏览 1提问于2018-04-21得票数 1

1回答

TensorFlow模型拟合与train_on_batch的区别

、、、、

我正在构建一个香草DQN模型来玩OpenAI健身房Cartpole游戏。如果需要更多上下文信息来回答这个问题，完整的代码在这里：https://github.com/ultronify/cartpole-tf

浏览 56提问于2020-06-29得票数 2

回答已采纳

1回答

为了创建自己的环境并使用github的一些代码，我需要查看gym.make('env')内部发生了什么，例如gym.make('carpole0') 在健身房里的github，我能找到它吗？我找到了https://github.com/openai/gym/blob/master/gym/envs/classic_control/cartpole.py，但它没有做吗？如何编写“为DQN

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

使用cnn Q-近似构建深度强化学习

、、、

从这段代码https://github.com/jaromiru/cwcf开始，我想用CNN替换用于Q函数近似的MLP，但我不知道该怎么做。有人能帮我吗？谢谢

浏览 19提问于2020-04-01得票数 1

回答已采纳

1回答

如何确定在DQN模型中使用正奖励还是负奖励？

、、、

我刚接触深度强化学习，DQN模型。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。:https://gist.github.com/floodsung/0c64d10cab5298c63cd0fc004a94ba1f的代码。对于CartPole-v0，奖励是+1和0。每一集都有300个时间步长，代理试图尽可能多地获得总奖励。源代码如下：https://github.com/<em

浏览 98提问于2020-07-21得票数 0

1回答

ValueError:检查输入时出错:期望flatten_input具有形状.但得到了这个形状

、、、

在openai-健身房环境下，尝试用Tensorflow/Keras实现DQN时，我遇到了以下错误：#importing al the relevant libraries...env = gym.make('CartPole-v1', render_mode='human') states = env.observation_spac

浏览 13提问于2022-10-07得票数 0

1回答

RLlib `rollout.py`用于评估吗？

、、、、

我正在尝试使用Ray RLlib的DQN在定制的模拟器上训练、保存和评估神经网络。为此，我一直在用OpenAI Gym的CartPol-V0环境对工作流进行原型化。我知道情况并非如此，因为在rollout.py模块中没有培训代码。但我不得不说，这看起来真的像是训练。否则，如何才能随着更多的插曲的发生而逐渐增加呢？我使用的代码如下： "DQN", st

浏览 4提问于2021-01-19得票数 0

1回答

强化学习中探索/利用的最佳实践

、

我的问题是在我对PyTorch DQN教程中的代码进行检查后提出的，但随后又提到了强化学习:强化学习中最佳探索/利用的最佳实践是什么？在DQN教程中，steps_done变量是一个全局变量，EPS_DECAY = 200。这可能适用于本教程中介绍的CartPole问题-早期的片段可能非常短，任务相当简单-但对于需要更多探索的更复杂的问题呢？

浏览 22提问于2019-02-04得票数 0

回答已采纳

1回答

深度Q网络不能解决OpenAI CartPole

、、、、

我是强化学习的初学者，正在尝试实现一个DQN来解决OpenAI健身房的CartPole-v0任务。不幸的是，我的实现的性能似乎并没有提高。下面是我的损失函数代码： one_hot_mask = self.one_hot_actions下面是我的完整代码：import numpy as npimport sys import r

浏览 0提问于2018-05-02得票数 0

2回答

TypeError:对于符号张量，len不是很好的定义。(激活_3/标识:0)请调用`x.shape`而不是“`len(X)”以获取形状信息

、、、、

我正在尝试在openAI健身房的一个游戏中实现一个DQL模型。但这给我带来了跟随错误。 ENV_NAME = 'CartPole-v0' np.random.seed(123)nb_actions'))model.add(Activation('linear')) print(model.su

浏览 4提问于2020-01-10得票数 14

回答已采纳

4回答

OpenAI健身房:如何在CartPol-V0中获取像素

、、

我想在不打开渲染窗口的情况下访问OpenAI健身房CartPole-v0环境中的原始像素。我该怎么做？示例代码：env = gym.make("CartPole-v0")img = env.render(mode='rgb_array', close=True我很难为OpenAI健身房找到好的文档。是只有我，还是根本不存在？编辑：我不需要打开渲染视频。

浏览 2提问于2017-04-21得票数 8

1回答

ImportError: sys.meta_path为None，Python可能会在Python OpenAI CartPole中关闭

、、

我刚刚开始学习OpenAI。我写了我的第一个OpenAI代码，我想让CartPole AI。但是发生了一些事情。以下是我的代码 import gym env = gym.make('CartPole-v0') obs = env.reset() action = 1 action = 0 obs,reward,done,info = e

浏览 341提问于2020-07-27得票数 1

回答已采纳

1回答

Pytorch模型不更新权重

、

我试图用pytorch解决CartPole问题，但是在几次迭代之后，参数没有更新。 out = self.relu(out) return out class cartpoledevice = torch.device('cpu' if torch.cuda.is_available() else 'cpu

浏览 3提问于2019-10-10得票数 0

1回答

OpenAI和ChatGPT使用Scikit学习吗？

、、、、

OpenAI及其产品ChatGPT是否使用或依赖Scikit来学习它的后端？如果没有，他们会用什么？

浏览 0提问于2023-02-09得票数 3

5回答

如何设置openai-健身房环境，从特定的状态开始，而不是`env.reset()`？

、、

今天，当我试图在openai-健身房环境下实现一个rl代理时，我发现了一个问题，似乎所有的代理都是从最初始的状态训练出来的：env.reset()，即initial_observation = env.reset() # <-- Note action就像这样： env = gym.make("CartPole-v0"

浏览 0提问于2019-09-08得票数 7

回答已采纳

1回答

OpenAI健身房环境'CartPole-v0‘与'CartPole-v1’的差异

、、

我找不到OpenAI健身房环境'CartPole-v0‘和'CartPole-v1’之间的差异的确切描述。这两个环境都有独立的官方网站(请参阅和)，尽管我在gym github存储库中只能找到一个没有版本标识的代码(请参阅)。CartPole-v0的值为200/195.0，CartPole-v1的值为500/475.0。其余的乍一看似乎都是一样的。import gym env = gym.make("CartPole-

浏览 236提问于2019-07-05得票数 18

回答已采纳

1回答

Keras强化学习:如何将奖励传递给模型

、、、

DQNAgentfrom rl.memory import SequentialMemory np.random.seed(123)nb_actions = env.action_space.n # After training is done, we save the

浏览 8提问于2018-06-12得票数 1

1回答

如何让调试器遍历整个程序？

、

import gymenv.reset() env.render() env.step(env.action_space.sample()) # take a random action 这是OpenAI gym中的一个示例。在所有的PyTorch示例中也有一个绘图问题，现在这个例子中，窗口在运行后冻结，这与异步处理有关。因为我想使用Python来实现它的交互性，所以我想研究一下这一点。如何做到这一点

浏览 8提问于2019-01-12得票数 1

点击加载更多