Nesterov 加速梯度算法是一种对 Momentum 动量法的改进。
第 t 次迭代时:
其中,\boldsymbol{W} 为需要更新的参数,L 为损失函数,\frac{\partial L}{\partial \hat{\boldsymbol{W}}} 为 L 关于 \hat{\boldsymbol{W}} 的梯度,\eta 为学习率,\alpha 为动量因子,通常设为 0.9 。
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!