深度强化学习实验室报道
来源于:UC Berkeley博客
编辑:DeepRL
【导读】从视觉观察中学习是强化学习(RL)中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀,但当前的方法仍在两个方面缺乏:
为此,作者提出了RAD(Reinforcement Learning with Augmented Data):使用增强数据进行强化学习,这是一个简单的即插即用模块,可以增强任何RL算法。经过证明,随机裁剪,颜色抖动,色块切除和随机卷积等数据增强可以使简单的RL算法在数据效率,泛化性,通用性,和wall-clock速度。在DeepMind Control Suite上,RAD在15个环境中的数据效率和性能方面都是最先进的。最后,与竞争的RL技术相比,作者提出的定制数据增强模块可实现更快的wall-clock 速度。
方法
在论文中,作者展示了数据增强如何在策略内和策略外提高标准RL算法的性能和泛化能力。同时将数据增强于
结果
为什么如此有效?
所有依赖项都在conda_env.yml文件中。它们可以手动安装,也可以使用以下命令安装:
conda env create -f conda_env.yml
要从基于图像的观察结果中训练RAD智能体进行大刀阔斧的任务,请从此目录的根目录运行bash script / run.sh。run.sh文件包含以下命令,可以对其进行修改以尝试不同的环境/扩充/超参数。
CUDA_VISIBLE_DEVICES=0 python train.py \
--domain_name cartpole \
--task_name swingup \
--encoder_type pixel --work_dir ./tmp/cartpole \
--action_repeat 8 --num_eval_episodes 10 \
--pre_transform_image_size 100 --image_size 84 \
--agent rad_sac --frame_stack 3 --data_augs flip \
--seed 23 --critic_lr 1e-3 --actor_lr 1e-3 --eval_freq 10000 --batch_size 128 --num_train_steps 200000 &
【HomePage】https://mishalaskin.github.io/rad/
【Arxiv】 https://arxiv.org/pdf/2004.14990.pdf
【Github】 https://github.com/MishaLaskin/rad