深度学习: 参数初始化

JNingWei

发布于 2018-09-27 08:15:13

1.5K00

代码可运行

文章被收录于专栏：JNing的专栏JNing的专栏

运行总次数：0

代码可运行

Introduction

好的开始是成功的一半。为了让你的模型跑赢在起跑线 ε=ε=ε=(~￣▽￣)~ ，请慎重对待参数初始化。

API

TensorFlow中自带关于参数初始化的API，具体使用见 tensorflow: variable初始化。

全零初始化 (Zero Initialization)

将网络中 所有参数 初始化为 0 。

如果所有的参数都是0，那么所有神经元的输出都将是相同的，那在back propagation的时候，gradient相同，weight update也相同。同一层内所有神经元的行为也是相同的。

这显然不可接受。

随机初始化 (Random Initialization)

将参数值（通过高斯分布或均匀分布）随机初始化为 接近0的一个很小的随机数（有正有负），从而使对称失效。

W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001

Note：

node_in 、 node_out 表示 输入神经元个数 、输出神经元个数 ；
其中，np.random.randn(node_in, node_out) 输出服从标准正态分布的node_in × node_out矩阵；
控制因子：0.001 ，保证参数期望接近0；
一旦随机分布选择不当，就会导致网络优化陷入困境。

Xavier初始化 (Xavier Initialization)

W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in) ) * 0.001

Note：

加上了 方差规范化： / np.sqrt(node_in) ，维持了 输入、输出数据分布方差的一致性，从而更快地收敛。

He初始化 (He Initialization)

W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in/2) ) * 0.001

Note：

考虑到 非线性映射 (relu) 函数 的影响，将 方差规范化 的分母修改为 / np.sqrt(node_in/2) ，能让Relu网络更快地收敛。

迁移学习初始化 (Pre-train Initialization)

将 预训练模型的参数 作为新任务上的初始化参数。

数据敏感初始化

根据自身任务数据集而特别定制的参数初始化方法。

[1] 聊一聊深度学习的weight initialization [2] 深度学习之参数初始化策略

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017年12月18日，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

api

tensorflow

迁移学习

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论