近日,英才实验学院2014级本科生刘豪在美国德克萨斯大学奥斯汀分校进行海外科研实习期间,攥写的论文“Action-dependent Control Variates for Policy Optimization via Stein Identity”成功入选机器学习领域顶级会议之一的International Conference on Learning Representations(ICLR,国际学习表征会议)。刘豪为该论文共同第一作者,电子科技大学为第一作者单位。这也是我校首次在ICLR会议发表论文。
策略梯度方法在解决强化学习问题方面取得了显著成功,但是在策略梯度估计方面仍存在较大的方差问题,导致训练样本效率较差。该论文提出了一种控制变量方法来有效地减少策略梯度方法的方差,通过引入更一般的依赖于动作的基线函数,扩展了以前只基于状态的控制变量和优势估计,并揭示了之前的一系列方法是该方法的特殊情况。实证研究表明,该方法显著提高了最先进的策略梯度方法的样本效率。
领取专属 10元无门槛券
私享最新 技术干货