在传统的Encoder-Decoder中加入权重机制称为 Attention机制
Decoder 隐藏状态迭代可以表示成
从 function a 获得 h(t) 并且经过 softmax;然后再对每一个处理后的h(t)做加权平均,得到 Context Variable
以 GRU为例,展示其状态迭代,重置门,更新门,候选隐藏状态
Attention机制就是在语料中找出重点,分配不同权重
Tom chase Jerry,Encoder-Decoder框架逐步生成中文单词:“汤姆”,“追逐”,“杰瑞” 为例
为了突出 Jerry 对于 "杰瑞"更重要
使用 Attention机制给不同的词不同的probability, 例如(Tom,0.3)(Chase,0.2) (Jerry,0.5)
传统 Attention 中,Source和Target是不同的,比如机器翻译;
Self-Attention中,Source和Target是相同的
Self-Attention 更容易捕捉长句相互依赖的特征
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。