假如原句子为X=(a,b,c,d,e,f),目标输出为Y=(P,Q,R,S,T),则Seq2Seq模型如下:
模型的工作原理如下;
Encoder部分首先通过RNN及其变种(LSTM、GRU)等进行编码...=None, W_constraint=None, mask_zero=False))
Embedding有一个参数mask_zero,参数的含义是当输入样本的长度不一样时候,首先对数据进行padding...补0,然后引入keras的Masking层,它能自动对0值进行过滤。...所有的RNN中,包括simpleRNN, LSTM, GRU等等,输入输出数据格式如下:
例如这样一个数据,总共100条句子,每个句子20个词,每个词都由一个80维的向量表示,输入数据的大小应当是(100...2.训练和预测使用的decoder结果不同,编写循环的预测decoder。
3.前端的word2vec词向量和最新的ElMo模型的对比实验。
4.对比不同的decoder结构对模型的影响程度。