0值初始话:初始化网络的所有权值为0,在反向传播的而过程中由于权重系数都为0导致所有的维度权重相同,此时每一层退化为只有一个神经元。
随机初始化:采用均值为1,方差为0的随机正太分布作并且很小的数据来初始化权值,这解决了网络退化为一个神经元的问题,但是另一方面,网络很深后,整个网络的梯度小时就变得特别严重。
Xavier初始化:当激活函数为tanh(x)时候的的初始化方案,解决随机初始化梯度消失的问题,当时另一方面它只适用于tanh(x)的情况,当激活函数为Relu的时候学习效率变得很低。
He初始化:当激活函数为Relu(x)时候的的初始化方案。
seq2seq模型主要应用在机器翻译等领域,在进行机器翻译时,我们都知道比如中文翻译成英文的时候,翻译之后的英文和中文一般是不相等的,这个时候用seq2seq模型就很有优势了,他是RNN的一个典型变种,R x M形状的,即我们的翻译分为两个阶段,encoder阶段,结构先将输入数据编码成一个上下文向量c:
得到c的方法有很多,最简单的方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。
比如:
得到c之后就用另一个rnn网络对c进行解码:
由于这种Encoder-Decoder结构不限制输入和输出的序列长度,因此应用的范围非常广泛,比如:
机器翻译。Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的
文本摘要。输入是一段文本序列,输出是这段文本序列的摘要序列。
阅读理解。将输入的文章和问题分别编码,再对其进行解码得到问题的答案。
语音识别。输入是语音信号序列,输出是文字序列。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。