在此之前,我们已经简单的了解了一下梯度下降,不妨复习一下:
以下是3个和梯度下降有关的技巧:
Tuning your learning rates
Stochastic Gradient Descent
Feature Scaling
Tuning your learning rates
有时候Learning Rate 可能会给你造成问题,举例来说:
如果你的Learning Rate大小合适的话,那么就会顺着红色的箭头慢慢到达最低点;如果你的Learning Rate太小的话,它会顺着蓝色箭头花很长时间到达最低点;如果你的Learning Rate太大的话,它的步伐太大了,可能没办法到达最低点。
最流行也是最简单的做法就是:在每一轮都通过一些因子来减小learning rate。
最开始时,我们距离最低点很远,所以我们用较大的步长。
经过几轮后,我们接近了最低点,所以我们减少learning rate。
比如: 1/t 衰减:
learning rate 不能从一而终
要给不同的参数设置不同的learning rate。
为了达到此目的,有很多种方法,Adagrad就是其中一种:
具体来说,就是
Stochastic Gradient Descent
让Trainning变得更快!
Feature Scaling
让特征值具有相同的缩放程度。
那该怎么做呢?一种常见的做法是
以上。
领取专属 10元无门槛券
私享最新 技术干货