Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/AMS-Regular.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >束搜索与评价翻译结果

束搜索与评价翻译结果

作者头像
mathor
发布于 2020-04-10 08:49:09
发布于 2020-04-10 08:49:09
9410
举报
文章被收录于专栏:mathormathor

束搜索

在上一篇文章seq2seq与注意力机制中,我们提到编码器最终输出了一个背景向量c,该背景向量编码了输入序列x1,x2,...,xT的信息。假设训练数据中的输出序列是,输出序列的生成概率为

对于机器翻译的输出来说,如果输出语言的词汇集合的大小为,输出序列的长度,那么可能的输出序列种类是。为了找到生成概率最大的输出序列,一种方法是计算所有种可能序列的生成概率,并输出概率最大的序列。我们称该序列为最优序列。但是这种方法的计算开销过高(例如,

我们目前所介绍的解码器在每个时刻只输出生成概率最大的一个词汇。对于任一时刻,我们从个词种搜索出输出词

因此,搜索计算开销显著下降(例如,),但这并不能保证一定搜索到最优序列

束搜索(beam search)介于上面二者之间。下面看一个例子

假设输出序列的词典中只包含5个词:。束搜索的一个超参数叫束宽(beam width)。以束宽等于2为例,设输出序列长度为3。假如时刻1生成概率最大的两个词为,我们在时刻2对于所有的都分别计算,从计算出的10个概率中取最大的两个,假设为。那么,我们在时刻3对于所有的都分别计算,从计算出的10个概率中取最大的两个,假设为

接下来,我们可以在输出序列:中筛选出以特殊字符EOS结尾的候选序列。再在候选序列中取以下分数最高的序列作为最终候选序列:

其中为候选序列长度,一般可选为0.75。分母上的是为了惩罚较长序列的分中的对数相加项

评价翻译结果

2002年,IBM团队提出了一种评价翻译结果的指标,叫做BLEU(Bilingual Evaluation Understudy)

为我们希望评价的n-gram的最大长度,例如。n-gram的精度为模型输出中的n-gram匹配参考输出的数量与模型输出中的n-gram数量的比值。例如,参考输出(真实值)为ABCDEF,模型输出为ABBCD。那么。设分别为参考输出和模型输出的词数。那么BLEU的定义为

需要注意的是,随着的提高,n-gram精度的权值随着中的指数减小而提高。例如

换句话说,匹配4-gram比匹配1-gram应该得到更多的奖励。另外,模型输出越短往往越容易得到较高的n-gram精度。因此,BLEU公式里连乘项前面的系数是为了惩罚较短的输出。例如当时,参考输出为ABCDEF,而模型输出为AB,此时的,而,因此BLEU=0.135。当模型输出也为ABCDEF时,BLEU=1

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/10
5710
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
seq2seq通俗理解----编码器和解码器(TensorFlow实现)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
mantch
2019/08/31
1K0
seq2seq与Attention机制
seq2seq模型是在2014年,是由Google Brain团队和Yoshua Bengio 两个团队各自独立的提出来。
Lansonli
2021/10/09
9520
斯坦福NLP课程 | 第8讲 - 机器翻译、seq2seq与注意力机制
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/10
7200
斯坦福NLP课程 | 第8讲 - 机器翻译、seq2seq与注意力机制
NLP教程(5) - 语言模型、RNN、GRU与LSTM
本系列为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》的全套学习笔记,对应的课程视频可以在 这里 查看。
ShowMeAI
2022/05/08
7540
NLP教程(5) - 语言模型、RNN、GRU与LSTM
斯坦福NLP课程 | 第6讲 - 循环神经网络与语言模型
ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!
ShowMeAI
2022/05/08
5400
斯坦福NLP课程 | 第6讲 - 循环神经网络与语言模型
N-Gram
N-Gram(N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来评估一个句子是否合理。N-Gram的另外一个作用是用来评估两个字符串之间的差异程度,这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种Powerful的应用
mathor
2020/02/17
1K0
KDD'22|序列推荐:多行为超图增强的Transformer
本文主要针对序列推荐场景学习用户动态偏好,以往的方法更多的是关注单一交互类型,本文设计了一个多行为超图增强的 Transformer 框架 (MBHT) 来捕获短期和长期的跨类型行为依赖关系。具体来说,多尺度 Transformer 结合低秩自注意力,从细粒度和粗粒度级别联合编码行为感知序列模式。将全局多行为依赖商品合并到超图神经架构中,捕获分层的长期商品相关性。
秋枫学习笔记
2022/09/19
1.2K0
SIGIR'21 因果推断+推荐系统:利用反事实理论增强用户行为序列数据
针对用户历史行为序列数据中的稀疏性问题,本文采用因果推断中的反事实的相关理论来生成新的序列数据。要回答这样一个问题“如果用户之前购买的商品有所不同,她想购买什么?” 本文主要利用三种不同的反事实样本生成方式(启发式采样、基于数据的采样、基于模型的采样),来生成有助于模型训练的数据,从而进一步优化推荐模型。
秋枫学习笔记
2022/09/19
7540
我还不知道Attention有哪些-公式代码都带你搞定
attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?hard attention、soft attention、global attention、local attention、self-attention, 啊,这些都是啥?相似度计算的dot、general、concat都是怎么计算的?
百川AI
2021/12/31
1.4K1
我还不知道Attention有哪些-公式代码都带你搞定
Glove和fastText
本文介绍两种更新一点的词向量,它们分别是2014年由Stanford团队发表的Glove和2017年由Facebook团队发表的fastText
mathor
2020/04/10
5400
深度学习教程 | Seq2Seq序列模型和注意力机制
本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得,对应的课程视频可以在这里查看。
ShowMeAI
2022/04/15
7570
深度学习教程 | Seq2Seq序列模型和注意力机制
Seq2Seq与注意力机制
在基于词语的语言模型中,我们使用了循环神经网络。它的输入时一段不定长的序列,输入却是定长的,例如输入:They are,输出可能是watching或者sleeping。然而,很多问题的输出是不定长的序列。以机器翻译为例,输入是一段英文,输出是一段法语,输入和输出皆不定长,例如
mathor
2020/04/10
6250
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
元学习可以被定义为一种序列到序列的问题, 在现存的方法中,元学习器的瓶颈是如何去吸收同化利用过去的经验。 注意力机制可以允许在历史中精准摘取某段具体的信息。
汀丶人工智能
2023/10/11
7590
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
CIKM'21序列推荐:时间切片+图神经网络学习用户和item的动态表征
本文是图神经网络应用于序列推荐方向的文章,利用图神经网络挖掘用户和item之间的动态时序关系,主要包含以下创新点:
秋枫学习笔记
2022/09/19
7910
NLP教程(1)-词向量、SVD分解与Word2Vec
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/04/29
1.1K0
NLP教程(1)-词向量、SVD分解与Word2Vec
WWW'22「快手」序列推荐:解耦长短期兴趣
4. 最后由于长期和短期兴趣的重要性是动态变化的,通过基于注意力的网络自适应地聚合它们进行预测。
秋枫学习笔记
2022/09/19
8470
ICDE'22「华为」MISS:多兴趣自监督学习框架用于点击率预估
本文提出了一种新颖的多兴趣自我监督学习(MISS)框架,该框架通过兴趣级别的自监督信号增强了特征embedding。在两个新的基于 CNN 的多兴趣提取器的帮助下,使用两个基于CNN的兴趣提取器考虑不同兴趣表征(逐点(point)和联合(union))、兴趣依赖性(短期(short range)和长期(long range))以及兴趣相关性(商品间和商品内)。并利用对比学习增强特征的表征学习。
秋枫学习笔记
2022/09/19
4400
NeurIPS2023 | ResShift:通过残差位移实现的用于图像超分辨率的高效扩散模型
图像超分辨率(SR)是低层次视觉中的一个基本问题,旨在从低分辨率(LR)图像中恢复高分辨率(HR)图像。由于真实场景中降解模型的复杂性和未知性质,这个问题严重缺乏明确性。最近,扩散模型在图像生成方面取得了空前的成功。此外,它还展现了在解决几个下游低层次视觉任务方面的巨大潜力,包括图像编辑、图像修补、图像着色等。一种常见的方法包括将低分辨率图像插入当前扩散模型(例如DDPM)的输入,并从头开始在SR训练数据上重新训练模型。另一种流行的方法是使用一个无条件预先训练的扩散模型作为先验,并修改其逆向路径以生成预期的高分辨率图像。不幸的是,这两种策略都继承了DDPM基础的马尔可夫链,这种方式推理效率低下,通常需要数百甚至数千个采样步骤。尽管已经开发了一些加速技术来减少推理中的采样步骤,但它们不可避免地导致性能显著下降,导致图像过度平滑的结果。因此,有必要设计一个新的扩散模型用于SR,同时实现高的效率和性能。 基于上述动机,本文提出了一种高效的扩散模型,用一个较短的马尔可夫链实现在高分辨率图像和其对应的低分辨率图像之间进行过渡。马尔可夫链的初始状态收敛到高分辨率图像的近似分布,而最终状态收敛到低分辨率图像的近似分布。为实现这一点,本文精心设计了一个过渡核,逐步地移动它们之间的残差。与现有基于扩散的SR方法相比,这种方法更高效,因为残差信息可以在几十个步骤内快速传输。此外,这种设计还允许对证据下界进行解析和简洁的表达,从而简化了训练优化目标的引入。基于构建的扩散核,本文进一步开发了一个高度灵活的噪声序列,控制每一步中残差的移动速度和噪声强度。这种序列通过调整其超参数促进了恢复结果的保真度和真实性之间的权衡。
用户1324186
2023/12/11
1.6K0
NeurIPS2023 | ResShift:通过残差位移实现的用于图像超分辨率的高效扩散模型
ICCV 2023 | 在离散潜在空间中以优先级为中心的人体运动生成
由于固有的模态差异和文本与动作模态之间的复杂映射,生成高质量的动作并不是一件简单的事情。尽管目前已经取得了一些进展,但仍然存在两个主要问题未得到解决:
用户1324186
2023/09/09
5500
ICCV 2023 | 在离散潜在空间中以优先级为中心的人体运动生成
推荐阅读
相关推荐
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文