假设:
输入层到隐含层:
隐含层到输出层:
损失函数:
①求V。
其中,
所以,
②求W。
至此,我们通过反向传播求出了需要优化的参数的梯度。
为学习率。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。