好的开始是成功的一半。 为了让你的模型跑赢在起跑线 ε=ε=ε=(~ ̄▽ ̄)~ ,请慎重对待参数初始化。
TensorFlow中自带关于参数初始化的API,具体使用见 tensorflow: variable初始化。
将网络中 所有参数 初始化为 0 。
如果所有的参数都是0,那么所有神经元的输出都将是相同的,那在back propagation的时候,gradient相同,weight update也相同。同一层内所有神经元的行为也是相同的。
这显然不可接受。
将参数值(通过高斯分布或均匀分布)随机初始化为 接近0的 一个很小的随机数(有正有负),从而使对称失效。
W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001
Note:
node_in
、 node_out
表示 输入神经元个数
、输出神经元个数
;np.random.randn(node_in, node_out)
输出 服从标准正态分布的node_in × node_out
矩阵;0.001
,保证参数期望接近0;W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in) ) * 0.001
Note:
/ np.sqrt(node_in)
,维持了 输入、输出数据分布方差的一致性,从而更快地收敛。W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in/2) ) * 0.001
Note:
/ np.sqrt(node_in/2)
,能让Relu网络更快地收敛。将 预训练模型的参数 作为新任务上的初始化参数。
根据自身任务数据集而特别定制的参数初始化方法。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有