前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >deeplearningai读书笔记(一)

deeplearningai读书笔记(一)

原创
作者头像
opprash
修改2019-09-27 09:40:43
4600
修改2019-09-27 09:40:43
举报
文章被收录于专栏:大数据和机器学习

神经网络权值初始化方案

0值初始话:初始化网络的所有权值为0,在反向传播的而过程中由于权重系数都为0导致所有的维度权重相同,此时每一层退化为只有一个神经元。

随机初始化:采用均值为1,方差为0的随机正太分布作并且很小的数据来初始化权值,这解决了网络退化为一个神经元的问题,但是另一方面,网络很深后,整个网络的梯度小时就变得特别严重。

Xavier初始化:当激活函数为tanh(x)时候的的初始化方案,解决随机初始化梯度消失的问题,当时另一方面它只适用于tanh(x)的情况,当激活函数为Relu的时候学习效率变得很低。

He初始化:当激活函数为Relu(x)时候的的初始化方案。

基于编码-解码(Encoder-Decoder)的序列到序列架构,又叫做seq2seq模型

seq2seq模型
seq2seq模型

思想:

seq2seq模型主要应用在机器翻译等领域,在进行机器翻译时,我们都知道比如中文翻译成英文的时候,翻译之后的英文和中文一般是不相等的,这个时候用seq2seq模型就很有优势了,他是RNN的一个典型变种,R x M形状的,即我们的翻译分为两个阶段,encoder阶段,结构先将输入数据编码成一个上下文向量c:

encoder
encoder

得到c的方法有很多,最简单的方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。

比如:

得到c的变换函数
得到c的变换函数

得到c之后就用另一个rnn网络对c进行解码:

decoder
decoder

应用

由于这种Encoder-Decoder结构不限制输入和输出的序列长度,因此应用的范围非常广泛,比如:

机器翻译。Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的

文本摘要。输入是一段文本序列,输出是这段文本序列的摘要序列。

阅读理解。将输入的文章和问题分别编码,再对其进行解码得到问题的答案。

语音识别。输入是语音信号序列,输出是文字序列。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 神经网络权值初始化方案
  • 基于编码-解码(Encoder-Decoder)的序列到序列架构,又叫做seq2seq模型
    • 思想:
      • 应用
      相关产品与服务
      机器翻译
      机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档