Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Sequence to Sequence Learning with Neural Networks

Sequence to Sequence Learning with Neural Networks

作者头像
种花家的奋斗兔
发布于 2020-11-13 02:42:19
发布于 2020-11-13 02:42:19
8950
举报

论文地址:https://arxiv.org/abs/1409.3215

参考译文:https://blog.csdn.net/qq_28385535/article/details/86421359

参考笔记:1.https://blog.csdn.net/qq_35647180/article/details/53576809

2.https://blog.csdn.net/u013713117/article/details/54773467

3.https://www.jianshu.com/p/f5c2cc5b661c

使用sequence-to-sequence模型,应用长短期记忆模型(LSTM),在机器翻译中产生了更好地效果。论文中为英语到法语的翻译。

在论文前面提到,虽然DNN相对灵活和有效,但是,对于神经网络的输入有一定的要求,即神经网络用于编码的输入只能是固定维度的,而在机器翻译过程中,输入的句子并不是固定维度,所以,引入了LSTM,即长短期记忆模型。

其思想是,通过使用一个LSTM来读取输入序列,为了获得最大固定维度的向量表示(即最终的隐藏态),每一时刻读取一次,然后使用另外一个LSTM从该向量中提取出输出序列(如图1)。对于第二个LSTM来说,除了它是以输入序列作为条件以外,它是一个循环神经网络语言模型。LSTM在具有长时依赖的数据上具有很好的学习能力,这使得在考虑输入及其相应输出之间的时间关系的应用中,LSTM是一种自然而然的选择。

(The idea is to use one LSTM to read the input sequence, one timestep at a time, to obtain large fixeddimensional vector representation, and then to use another LSTM to extract the output sequence from that vector (fig. 1). The second LSTM is essentially a recurrent neural network language model [28, 23, 30] except that it is conditioned on the input sequence. The LSTM’s ability to successfully learn on data with long range temporal dependencies makes it a natural choice for this application due to the considerable time lag between the inputs and their corresponding outputs (fig. 1).)

LSTM一个非常有用的属性是它能够将一个可变长度的输入句子映射成一个固定维度的向量表示。鉴于翻译倾向于对源句的释义,翻译目标鼓励LSTM找到捕捉其含义的句子表示,因为具有相似含义的句子彼此接近,而不同的句子意义将是远的。定性评估支持这种说法,表明我们的模型知道单词顺序,并且对积极和消极的语音是相当不变的。

循环神经网络(RNN)是针对序列的前向神经网络的通用模型。在给定一个输入序列(x1,...,xT)(x_1,...,x_T)(x1​,...,xT​)时,一个标准的RNN通过迭代如下的公式来计算一个输出序列(y1,...yT)(y_1,...y_T)(y1​,...yT​): ht=sigm(Whxxt+Whhht−1)h_t=sigm(W^{hx}x_t+W^{hh}h_{t-1})ht​=sigm(Whxxt​+Whhht−1​) yt=Wyhhty_t=W^{yh}h_tyt​=Wyhht​   只要提前知道输入输出之间的对齐,RNN就可以轻松地将序列映射到序列。然而,目前尚不清楚如何将RNN应用于其输入和输出序列具有不同长度且具有复杂和非单调关系的问题。   对于一个通用的序列学习来说,最简单的策略是使用RNN将输入序列映射成一个固定大小的向量,然后再使用另外一个RNN将向量映射成目标序列。尽管其在原则上能够有效,因为提供给了RNN所有相关信息,但是由于序列的长时依赖问题,RNNs是很难训练的(如图1)。然而,长短期记忆网络(LSTM)能够解决这个问题,因此一个LSTM也许能够用于这个网络结构中。 在三个不同的方面,我们实际的模型有所区别于其他的模型:   (1)我们使用了两个不同的LSTMs:一个用于输入序列,另一个用于输出序列,因为这样做在忽略计算成本的同时增加模型参数的数量,并且可以自然地同时在多个语言对上训练LSTM。   (2)其次,我们发现深层LSTM明显优于浅层LSTM,因此我们选择了一个四层LSTM。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/09/08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
seq2seq 入门
本文结构: 什么是 seq2seq? Encoder–Decoder 结构? seq2seq 结构? ---- 什么是 seq2seq? seq2seq 是一个 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。 这个结构最重要的地方在于输入序列和输出序列的长度是可变的,可以用于翻译,聊天机器人,句法分析,文本摘要等。 下面是写过的 seq2s
杨熹
2018/04/03
9460
seq2seq 入门
RNN
循环神经网络(RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。而前馈网络是一种静态网络,不具备记忆能力。
hotarugali
2022/03/09
1.4K0
RNN
深度学习:Seq2seq模型
http://blog.csdn.net/pipisorry/article/details/78258198
用户7886150
2020/12/28
7670
利用神经网络进行序列到序列转换的学习
深度神经网络是在困难的学习任务中取得卓越性能的强大模型。尽管拥有大量的标记训练集,DNN就能很好地工作,但是它们并不能用于将序列映射到序列。在本文中,我们提出了一种通用的端到端序列学习方法,它对序列结构作出最小的假设。我们的方法使用多层长短期记忆网络(LSTM)将输入序列映射到一个固定维度的向量,然后使用另一个深层LSTM从向量中解码目标序列。我们的主要结果是,在WMT 14数据集的英法翻译任务中,LSTM的翻译在整个测试集中获得了34.8分的BLEU分数,而LSTM的BLEU分数在词汇外的单词上被扣分。此外,LSTM人在长句上没有困难。相比之下,基于短语的SMT在同一数据集上的BLEU得分为33.3。当我们使用LSTM对上述系统产生的1000个假设进行重新排序时,它的BLEU分数增加到36.5,这接近于之前在这项任务中的最佳结果。LSTM还学会了对词序敏感、并且对主动语态和被动语态相对不变的有意义的短语和句子表达。最后,我们发现颠倒所有源句(而不是目标句)中单词的顺序显著提高了LSTM的表现,因为这样做在源句和目标句之间引入了许多短期依赖性,使得优化问题变得更容易。
AI研习社
2019/05/13
1.6K0
利用神经网络进行序列到序列转换的学习
Sequence to Sequence Learning with Neural Networks论文阅读
作者(三位Google大佬)一开始提出DNN的缺点,DNN不能用于将序列映射到序列。此论文以机器翻译为例,核心模型是长短期记忆神经网络(LSTM),首先通过一个多层的LSTM将输入的语言序列(下文简称源序列)转化为特定维度的向量,然后另一个深层LSTM将此向量解码成相应的另一语言序列(下文简称目标序列)。我个人理解是,假设要将中文翻译成法语,那么首先将中文作为输入,编码成英语,然后再将英语解码成法语。这种模型与基于短语的统计机器翻译(Static Machine Translation, SMT)相比,在BLUE(Bilingual Evaluation Understudy)算法的评估下有着更好的性能表现。同时,作者发现,逆转输入序列能显著提升LSTM的性能表现,因为这样做能在源序列和目标序列之间引入许多短期依赖,使得优化更加容易
mathor
2020/03/17
1.5K0
论文阅读:《Neural Machine Translation by Jointly Learning to Align and Translate》
https://blog.csdn.net/u011239443/article/details/80521026 论文地址:http://pdfs.semanticscholar.org/071b/16f25117fb6133480c6259227d54fc2a5ea0.pdf
小爷毛毛_卓寿杰
2019/02/13
1.1K0
论文阅读:《Neural Machine Translation by Jointly Learning to Align and Translate》
文本生成seq2seq框架
Seq2Seq是Sequence to Sequence的缩写,作用是将一个序列(sequence)映射成另一个序列(sequence)。文献[1]和文献[2]分别提出利用深度神经网络DNN实现端到端的Seq2Seq学习,将Seq2Seq应用于神经机器翻译(Neural Machine Translation,NMT),唯一不同的是在[1]中使用LSTM作为基础网络,而在[2]中则是使用的是RNN。在Seq2Seq框架中包含了两个模块,一个是encoder模块,另一个是decoder模块。这种同时包含encoder和decoder的结构与AutoEncoder网络相似,不同的是AutoEncoder模型是将输入通过encoder的网络生成中间的结果,并通过decoder对中间的结果还原,AutoEncoder的模型结构如下图所示:
felixzhao
2022/05/12
6750
文本生成seq2seq框架
PaddlePaddle︱开发文档中学习情感分类(CNN、LSTM、双向LSTM)、语义角色标注
PaddlePaddle出教程啦,教程一部分写的很详细,值得学习。 一期涉及新手入门、识别数字、图像分类、词向量、情感分析、语义角色标注、机器翻译、个性化推荐。 二期会有更多的图像内容。 随便,帮国产框架打广告:加入TechWriter队伍,强大国产深度学习利器。https://github.com/PaddlePaddle/Paddle/issues/787 . .
悟乙己
2019/05/26
1.2K0
《白话深度学习与Tensorflow》学习笔记(3)HMM RNN LSTM
RNN:循环神经网络 与CNN最大的不同是记忆暂存功能,可以把过去输入的内容所产生的远期影响量化后与当前时间输入内容一起反应到网络中参与训练。尤其是对时间序列、自然语言(上下文关系)的处理,具有优势。 马尔科夫链:在给定当前的知识或信息下,观测对象过去的历史状态对于将来的预测是无关的,只需要观测当前状态即可得出。 HMM:隐马尔可夫模型,隐马尔可夫链的模型相对简化,是贝叶斯信念的一个特例。 假如三个骰子,分别是正方体D6、四面体D4和八面体D8。 无序的扔这三个骰子,可能出现了一串序列,2,1,8。这就叫做
微风、掠过
2018/04/10
1.1K0
《白话深度学习与Tensorflow》学习笔记(3)HMM RNN LSTM
【进阶篇】RNN配置
编写|PaddlePaddle 排版|wangp 本教程将指导你如何在 PaddlePaddle 中配置循环神经网络(RNN)。本教程中,您将了解如何: 配置循环神经网络架构 使用学习完成的循环神经网络模型生成序列 我们将使用 vanilla 循环神经网络和 sequence to sequence 模型来指导你完成这些步骤。sequence to sequence 模型的代码可以在 book/08.machine_translation(链接:https://github.com/PaddlePaddle
用户1386409
2018/03/15
9860
【进阶篇】RNN配置
深度学习在自然语言处理中的应用
原文:Diving Into Natural Language Processing https://dzone.com/articles/natural-language-processing-adit-deshpande-cs-unde 作者:Adit Deshpande 编译:KK4SBB 欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net 自然语言处理是研究和实现人与计算机之间用自然语言进行有效通信的各种理论和方法。本文主要介绍深度学习在自然语言处理中的应用。
用户1737318
2018/06/06
1K0
重磅!!|“自然语言处理(NLP)系列08”之 Seq2Seq模型详解
参考论文下载:https://pan.baidu.com/s/1Er6Ybdh8Zn2-BZRykkD-Sg 提取码:wnni
ShuYini
2019/08/08
1K0
重磅!!|“自然语言处理(NLP)系列08”之 Seq2Seq模型详解
Recurrent Neural Networks (RNNs)
许多应用涉及时间依赖,或基于时间依赖。这表示我们当前输出不仅仅取决于当前输入,还依赖于过去的输入。 RNN存在一个关键缺陷,因为几乎不可能捕获超过8或10步的关系。这个缺陷源于“ 消失梯度 ”问题,其中信息的贡献随时间在几何上衰减。 长短期存储单元(LSTM)和门控循环单元(GRU)通过帮助我们应用具有时间依赖性的网络,为消失的梯度问题提供了解决方案。 LSTM GRU 在我们探寻循环神经网络之前,先回忆一下前馈神经网络的使用过程。
小飞侠xp
2018/10/10
5860
文本情感倾向性分析
通常来说,文本情感分析是一个三分类问题:正向、负向、其他。而且,对于一个句子来说,情感也具体到某个方面。也就是说,一句话中对某个事物的不同方面进行评价。
灯珑LoGin
2022/10/31
1K0
文本情感倾向性分析
AI技术发展示例理解:注意力机制案例——机器翻译
机器翻译是指使用计算机程序将一种语言的文本自动翻译成另一种语言的文本。这是自然语言处理领域的一个重要研究方向,也是实际应用中非常有价值的技术之一。
折枝寄北
2024/11/19
2490
【Pytorch学习笔记十二】循环神经网络(RNN)详细介绍(常用网络结构及原理)
循环神经网络的来源是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上,循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出。即:循环神经网络的隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络 。
自学气象人
2022/11/02
2.2K0
【Pytorch学习笔记十二】循环神经网络(RNN)详细介绍(常用网络结构及原理)
【综述专栏】循环神经网络RNN(含LSTM,GRU)小综述
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2021/01/13
5.1K0
【综述专栏】循环神经网络RNN(含LSTM,GRU)小综述
机器学习中的编码器-解码器结构哲学
机器学习中体现着各种工程和科学上的哲学思想,大的有集成学习,没有免费午餐,奥卡姆剃刀;小的有最大化类间差异、最小化类内差异。对于很多问题,存在着一类通行的解决思路,其中的一个典型代表就是“编码器-解码器”结构。这一看似简单的结构,背后蕴含的工程思想却非常值得我们学习和品味。
SIGAI学习与实践平台
2019/03/11
2K0
机器学习中的编码器-解码器结构哲学
深度学习基础入门篇-序列模型[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解
生活中,我们经常会遇到或者使用一些时序信号,比如自然语言语音,自然语言文本。以自然语言文本为例,完整的一句话中各个字符之间是有时序关系的,各个字符顺序的调换有可能变成语义完全不同的两句话,就像下面这个句子:
汀丶人工智能
2023/05/24
1.2K0
深度学习基础入门篇-序列模型[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解
机器学习 学习笔记(24) 序列建模:循环和递归网络
循环神经网络(recurrent nerual network)或RNN是一类用于处理序列数据的神经网络,就像卷积网络是专门用于处理网格化数据X的神经网络。循环神经网络是专门用于处理序列
2018/09/04
2K0
机器学习 学习笔记(24) 序列建模:循环和递归网络
推荐阅读
相关推荐
seq2seq 入门
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档