我很难理解这个关于德尔塔规则的概念。据我所知,在学习网络的过程中,增量规则用于更新权重。假设我有这两个公式:
learning rate (eta) * gradient of loss function. 第二个公式令人困惑。上面到底写了什么?两者都应该是增量规则,但两者之间有什么区别呢?请你解释一下,下面的公式是什么?我想是这样的(但我不能完全肯定.)
change weight between neuron ij = learning rate (eta) * (I dont have a