如何为可变长度序列制作掩码，然后在RNN的tensorflow2中填充这些掩码

在TensorFlow 2中，为可变长度序列制作掩码并在RNN中使用这些掩码是一种常见的操作，尤其是在处理自然语言处理（NLP）任务时。以下是详细步骤和相关概念：

基础概念

掩码（Masking）：掩码是一种用于指示哪些元素应该被忽略的技术。在处理可变长度序列时，掩码可以帮助模型忽略填充的部分，只关注实际有意义的数据。
RNN（Recurrent Neural Network）：RNN是一种递归神经网络，适用于处理序列数据。由于不同序列的长度可能不同，需要使用掩码来处理这些差异。

类型

前向掩码：在输入序列中，掩码指示哪些部分应该被忽略。
后向掩码：在输出序列中，掩码指示哪些部分应该被忽略。

应用场景

自然语言处理：如文本分类、情感分析、机器翻译等。
语音识别：处理不同长度的语音片段。
时间序列分析：处理不同长度的时间序列数据。

实现步骤

以下是一个示例代码，展示如何在TensorFlow 2中为可变长度序列制作掩码，并在RNN中使用这些掩码：

import tensorflow as tf
from tensorflow.keras.layers import Embedding, LSTM, Dense, Masking
from tensorflow.keras.models import Sequential

# 示例数据
sequences = [
    [1, 2, 3, 0, 0],  # 长度为3
    [4, 5, 0, 0, 0],  # 长度为2
    [6, 7, 8, 9, 10]  # 长度为5
]
maxlen = 5

# 填充序列
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, maxlen=maxlen, padding='post')

# 创建掩码
mask = tf.cast(tf.not_equal(padded_sequences, 0), dtype=tf.float32)

# 构建模型
model = Sequential()
model.add(Embedding(input_dim=11, output_dim=32, input_length=maxlen))
model.add(Masking(mask_value=0.0))
model.add(LSTM(64))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 打印模型摘要
model.summary()

# 训练模型
model.fit(padded_sequences, tf.keras.utils.to_categorical([1, 0, 1]), epochs=5, batch_size=3)

解释

填充序列：使用tf.keras.preprocessing.sequence.pad_sequences将不同长度的序列填充到相同的长度。
创建掩码：通过比较填充后的序列和0，创建一个掩码矩阵。
构建模型：在嵌入层后添加Masking层，并设置mask_value=0.0，这样RNN层会忽略值为0的部分。
训练模型：使用填充后的序列和掩码进行模型训练。

参考链接

通过以上步骤，你可以有效地为可变长度序列制作掩码，并在RNN中使用这些掩码来提高模型的性能和效率。

页面内容是否对你有帮助？

有帮助

没帮助

具有可变长度序列的RNN/LSTM文库，无需扣环或填充

、

我试图解决的问题是一个具有4个并行输入批次的序列的分类问题。为此，我需要4个RNN/LSTM并行合并到一个完全连接的层中。问题是，在每个并行批处理中，序列的长度是可变的。我不能使用填充到最大序列长度，因为它使用了太多的RAM。实际上，有些序列真的很长。我不能使用减少长度的填充，因为模型不能预测输出。我需要完整的序列，我不能提前知道序列中有趣的部分在哪里。我不能使用bucketing，因为如果我将一个序列拆分成一批，我将不得不以相同的方式对其他3个批中具有相同索引的每个序列执行该操作。由于并行序列不具有相同的长度，该模型将尝试将大量空序列与一个或另一个类关联。理论上，RNN/LSTM应该能

浏览 2提问于2016-11-15得票数 1

1回答

用两种不同长度的特征向量构造序列的RNN

我有一个顺序数据集，由两种不同类型的事件(例如A和b事件)组成，特征向量具有不同的大小，即所有A事件都用a维特征向量描述，而所有B事件都用b维特征向量描述，a != b。请注意，这不是关于可变大小的序列(尽管这里也是如此)，而是由可变大小的向量组成的序列。我的问题是如何在keras中建立一个RNN (LSTM)，以便从这些序列中学习？我不想将其简化为分别对A和B事件进行两个不同的RNN培训，因为我需要维护事件{A1、A2、B1、A3、B2、.}的顺序性质。这就好像我需要一个具有条件输入形状的RNN模型，如果x属于A，则为(None，a)，否则为(None，b)。我想知道backend

浏览 0提问于2019-02-01得票数 1

1回答

在tensorflow中从头创建dynamic_rnn

、、、

我正在编码rnn，类似于tensorflow提供的dynamic_rnn。我试图在GitHub上看到代码，但无法理解它们是如何实现的。我希望从零开始构建它，这样我就可以从内部自定义rnn。怎么做？目前，我的方法是将截断的时间序列看作张量，使用tf.scan()并为所有时间序列寻找新的隐藏状态。然后使用tf.map_fn查找新的堆栈隐藏变量的输出。最后，使用tf.while_loop()查找叠加输出第一维上的每个张量的误差，并利用该损失进行反向传播。我关心的是，在这样做之后，图形会是动态的吗？我的意思是说，首先我展开了5次，然后4次图形会擦除之前滚动的一个节点吗？这个能行吗？请指点。谢

浏览 4提问于2017-04-17得票数 1

回答已采纳

1回答

困惑于如何运行tensorflow LSTM

、

我看到了在tensorflow上调用lstm的两种不同的方法，我对一种方法和另一种方法的区别感到困惑。在哪种情况下使用其中一种第一种方法是创建一个lstm，然后像下面的代码那样立即调用它 lstm = rnn_cell.BasicLSTMCell(lstm_size) # Initial state of the LSTM memory. initial_state = tf.zeros([batch_size, lstm.state_size]) for i in range(num_steps): # The value of state is updated after pr

浏览 1提问于2016-06-03得票数 1

回答已采纳

1回答

TF/Keras中输入输出长度不等的RNN层

、、、、

从RNN中可以得到可变的输出长度，即input_seq_length != output_seq_length吗？下面是一个示例，显示LSTM输出形状、test_rnn_output_v1默认设置--仅返回最后一步的输出，test_rnn_output_v2返回所有步骤的输出，即我需要类似于test_rnn_output_v2的输出，但具有输出形状(None, variable_seq_length, rnn_dim)或至少是(None, max_output_seq_length, rnn_dim)。 from keras.layers import Input from keras.la

浏览 6提问于2020-04-20得票数 1

回答已采纳

2回答

TensorFlow:如何使用输入长度可变的CudnnLSTM (如dynamic_rnn)？

、、

我想加快我的LSTM网络，但由于我使用它作为OCR (其中序列有可变长度)，我不能使用简单的LSTM实现。这就是为什么我使用"tf.nn.dynamic_rnn“。基于tensorflow ()中RNN的基准测试，CUDNN实现用于一次创建所有模型(它不像其他结构一样使用"tf.nn.rnn“结构)。我假设使用可变长度的CUDNN可能是不可能的，但可能有人成功了吗？第二，这是使用"tf.nn.bidirectional_dynamic_rnn"，因为我想使用Bi的OCR。但这一点应在实施第一部分后加以解决。编辑:看起来"tf.contrib.cud

浏览 5提问于2016-10-27得票数 6

回答已采纳

1回答

在tensorflow上使用word2vec作为输入的LSTM可变句子长度

、、、

我正在构建一个使用word2vec作为输入的LSTM模型。我正在使用tensorflow框架。我已经完成了单词嵌入部分，但我被LSTM部分卡住了。这里的问题是，我有不同的句子长度，这意味着我要么做填充，要么使用dynamic_rnn指定的序列长度。我和他们两个都很纠结。垫子。填充物最让人困惑的地方是我做填充物的时候。我的模型就像 word_matrix=model.wv.syn0 X= tf.placeholder(tf.int32，shape) data = tf.placeholder(tf.float32，shape) data = tf.nn.embedding_lookup(

浏览 1提问于2018-09-27得票数 3

回答已采纳

1回答

前馈过程中如何处理填充0

、、

假设我有一个不同大小的输入列表，例如，一些是10，9，5的形状，一些是7,6,5，我必须填充0来将它们输入到相同大小的张量流中，比如10,9,5，我需要做矩阵乘法，并在向前过程中添加偏差，这将在填充的0位置引入数字。所以我必须自己创建一个掩码矩阵来掩蔽它们？或者从tensorflow有更简单的方法吗？谢谢! 顺便说一句，我既没有输入序列也没有使用rnn。所以我不能使用动态rnn

浏览 3提问于2017-10-15得票数 0

2回答

TensorFlow中的序列标记

、、

我已经成功地用tensorflow训练了一个word2vec，并且我想把这些结果输入到一个带有lstm细胞的rnn中进行序列标记。 1)对于如何将经过训练的word2vec模型用于rnn并不十分清楚。(如何提供结果？) 2)我没有找到太多关于如何实现序列标记lstm的文档。(我怎么把我的标签带进来？) 有人能为我指出如何开始这项任务的正确方向吗？

浏览 0提问于2015-12-25得票数 7

回答已采纳

1回答

用于可变尺寸输入的小型批量培训

、、、、

我有一个LongTensors列表和另一个标签列表。我是PyTorch和RNN的新手，所以我很困惑如何为我拥有的数据实现小型批量培训。有更多的这些数据，但我想保持简单，所以我只能理解如何实现小批量培训部分。我正在进行多类分类，基于LSTM/GRU在可变长度输入上训练的最终隐藏状态。我设法使它与批处理大小1(基本上是SGD)工作，但我正在努力实现小型批。我是否必须将序列压缩到最大大小，并创建一个包含所有元素的更大尺寸的新张量矩阵？我是说像这样： inputs = pad(sequences) train = DataLoader(inputs, batch_size=batch_size, s

浏览 3提问于2018-02-14得票数 7

回答已采纳

1回答

如何在TensorFlow中重用RNN

、、

我想实现一个像DSSM (深度语义相似模型)这样的模型。我要训练一个RNN模型，用该模型得到三个不同输入的隐向量，并利用这些隐向量计算损失函数。我尝试用reuse=None在变量范围内编写代码，例如： gru_cell = tf.nn.rnn_cell.GRUCell(size) gru_cell = tf.nn.rnn_cell.DropoutWrapper(gru_cell,output_keep_prob=0.5) cell = tf.nn.rnn_cell.MultiRNNCell([gru_cell] * 2, state_is_tuple=True) embedding =

浏览 4提问于2016-11-17得票数 5

2回答

什么是TensorFlow中的动态RNN？

、

我对什么是动态RNN (即dynamic_rnn)感到困惑。它返回输出和TensorFlow中的状态。这些状态和输出是什么？在动态神经网络中，在TensorFlow中什么是动态的？

浏览 3提问于2017-03-29得票数 12

2回答

Keras变量输入

、

我正在研究https://www.tensorflow.org/tutorials/text/text_generation上的一个Keras示例这个模型是这样构建的： def build_model(vocab_size, embedding_dim, rnn_units, batch_size): model = tf.keras.Sequential([ tf.keras.layers.Embedding(vocab_size, embedding_dim, batch_input_shape

浏览 18提问于2020-10-31得票数 1

回答已采纳

1回答

Tensorflow RNNs变长序列填充零对学习的影响

、

我在tensorflow中设置了一个RNN，它接受一个可变的序列，并在序列的末尾进行1次预测。我已经将我的数据填充到了500序列的最大长度，但是一批中的许多序列将小于500。我使用dynamic_rnn并将批处理中每个样本的序列长度传递给它： # Get lstm cell output m.outputs, m.states = tf.nn.dynamic_rnn( cell=lstm_cell, dtype=tf.float32, sequence_length=m.X_lengths, inputs=m.X) 其中，m.X_lengths是作为张量的序

浏览 2提问于2016-12-05得票数 3

回答已采纳

1回答

CRNN是否使用稀疏张量值作为标号？

、、、

我刚刚读了纸关于cnn + rnn的文本识别。数据集的标签是字符索引的张量(例如，标记为“abc”的图像的0，1，2 )。由于每个输入的标号有不同的长度，我是否需要将标签转换为稀疏张量值？因为报纸没有提到它。

浏览 0提问于2019-02-20得票数 2

1回答

为什么批处理不能有可变长度的序列/数据条目(例如是句子)？

、、、、

问题中提到的限制发生在Keras上下文中。我读过许多关于如何在批中包含可变长度序列的帖子(我理解对这些帖子的答复)，但是我找到的唯一一篇关于为什么是的文章，答案是“在一个批内，您必须有相同的时间步骤，因为它必须是一个张量(这是典型的0填充)”。然而，这似乎是一个不必要的限制(我不太熟悉Keras/TensorFlow，所以我从一个不特定于任何API的角度提出问题)。在训练批次中，为什么数据条目(我举了例句的例子)不能有可变的长度(在我的例子中，就是字数)？，因为可变长度序列是RNN的一个应用，这个问题归结为，为什么在训练过程中不能有一个可变的时间步骤，给定一个批？。以下是让我质疑分批缺

浏览 0提问于2018-08-25得票数 1

1回答

ValueError:检查输入时出错:期望the_input具有三维，但得到形状为(14174，1)的数组

、、、

希望你们都做得很好！我正在使用LibriSpeech数据集进行自动语音识别。在对音频数据进行预处理并应用"MFCC特征化“之后，我将所有内容添加到列表中并获得(14174,)的形状。知道每个样本有不同的长度，但是有相同数量的特性，例如： print(X[0].shape) print(X[12000].shape) >> (615, 13) >> (301, 13) 现在，当我用定义为 input_data = Input(name='the_input', shape=(None, input_dim)) # with input_dim =

浏览 0提问于2020-07-01得票数 0

1回答

直接训练Transformer编码层和填充序列的正确方法

、、

我正在解决一个问题，在这个问题中，我想直接训练一个Transformer Encoder Layer (即没有嵌入层)。我已经有了嵌入序列，我将其视为我的数据集。我对如何处理填充和注意掩码感到困惑，只想确保我的理解是正确的。我的序列的长度从3到130不等。这是否意味着我应该将我的所有序列都填充到130个部分？如果是这样，我填充哪个值有关系吗？对于注意力面具，我相信我希望每个部分都关注序列中的所有其他部分。在docs中，我看到他们将其设置为允许每个部分只关注序列中较早的部分。这是最自然的方法，还是只适用于语言建模任务？另外，为什么(在同一链接中)他们使用-Inf和0作为注意掩码的值，而不是

浏览 39提问于2021-08-16得票数 2

回答已采纳

1回答

Tensorflow dynamic_rnn降级

、、、、

tf.nn.dynamic_rnn似乎遭到了反对：警告:不建议使用此函数。它将在将来的版本中被删除。更新说明:请使用与此API等效的keras.layers.RNN(单元格) 我已经签出了keras.layers.RNN(单元格)，它说它可以使用掩蔽，我假设它可以替代dynamic_rnn的sequence_length参数？该层支持用可变的时间步骤对输入数据进行掩蔽。若要将掩码引入数据，请使用嵌入层，将mask_zero参数设置为True。但是，即使在嵌入文档中，也没有关于如何使用mask_zero=True来容纳可变序列长度的进一步信息。此外，如果我使用嵌入层只是为了

浏览 2提问于2019-03-20得票数 3

回答已采纳

1回答

如何将一个padd作为一个三维空间的张量？

、、

我试图使用内置的填充功能，但由于某种原因，它并不是填充的东西。这是我的可复制代码： import torch def padding_batched_embedding_seq(): ## 3 sequences with embedding of size 300 a = torch.ones(1, 4, 5) # 25 seq len (so 25 tokens) b = torch.ones(1, 3, 5) # 22 seq len (so 22 tokens) c = torch.ones(1, 2, 5) # 15 seq len (so 15 t

浏览 0提问于2019-07-19得票数 0

2回答

双向RNN能使用可变序列长度吗？

、、

双向RNN由两个RNN组成，一个用于前向，另一个用于后向顺序方向，其结果在每个时间步骤中被串联。这种配置是否会限制模型始终使用固定的序列长度？还是它仍然作为单向RNN工作，可以应用于任何序列长度？之所以提出这个问题，是因为双向体系结构在每个时间步骤合并了前向和后向RNN的输出。因此，如果序列长度为4，则前向和后向RNN的输出都将以这样的方式合并:1向前与4后退，2向前与3后退，.4前进与1后退。但是，如果使用了不同的序列长度，则将修改合并顺序：假设网络使用序列长度4进行训练，但在测试时使用的序列长度为5。合并将是:1前进第5后退，第2前进与第4后退.第5位前进，第1位后退。这种合并顺序的变

浏览 0提问于2020-06-09得票数 4

回答已采纳

3回答

动态展开RNN意味着什么？

、

“动态展开RNN”是什么意思？我在Tensorflow源代码中特别提到了这一点，但是我正在寻找一种概念上的解释，它通常扩展到RNN。在tensorflow rnn方法中，记录了以下内容：如果提供sequence_length矢量，则执行动态计算。这种计算方法不计算RNN步骤超过小型批处理的最大序列长度(从而节省了计算时间)，但是在dynamic_rnn方法中它提到：参数sequence_length是可选的，用于复制通过批处理元素的序列长度时的状态和零输出。因此，与rnn()不同的是，它更多地是为了正确性而不是性能。那么，这是否意味着rnn对可变长度序列更具性能呢？d

浏览 6提问于2016-08-14得票数 23

1回答

TensorFlow:评估使用填充数据和未填充数据训练的网络(ValueError:无法提供形状值...)

、

我用shape (batch_size, sequence_lengh, depth)的输入数据训练了一个dynamic_rnn网络，该输入数据已被手动填充到最长示例的长度(在本例中为97)，并将其保存为检查点。为了评估“真实世界数据”上的网络，我加载了检查点，并将未填充的数据馈送到恢复的输入张量(使用tf.Session.run())。我收到一个 ValueError: Cannot feed value of shape (1, 1, 32) for Tensor 'input_x:0', which has shape '(?, 97, 32)' 使用tf

浏览 3提问于2016-12-08得票数 0

1回答

馈电叠加RNN输出到全连接层

、、、、

我试图用tensorflow中的堆叠RNN来解决回归问题。RNN输出应该输入到一个完全连接的层中进行最终的预测。目前，我正在纠结于如何将RNN输出输入到最终的fully_connected层。我的输入是形状为batch_size，max_sequence_length，num_features RNN层的创建方式如下： cells = [] for i in range(num_rnn_layers): cell = tf.contrib.rnn.LSTMCell(num_rnn_units) cells.append(cell) multi_rnn_cell = tf.co

浏览 1提问于2018-04-13得票数 1

2回答

用Keras中不同长度的例子训练RNN

、、、

我正试着开始学习RNN，我正在使用Keras。我理解普通RNN和LSTM层的基本前提，但是我很难理解特定的训练技术要点。在角化酶(文件)中，它表示RNN层的输入必须具有形状(batch_size, timesteps, input_dim)。这表明所有的训练示例都有固定的序列长度，即timesteps。但这并不特别典型，是吗？我可能想让RNN对不同长度的句子进行操作。当我在一些语料库上训练它时，我会给它一批不同长度的句子。我想最明显的事情就是找出训练集中任何序列的最大长度，然后将其归零。但是，这是否意味着我不能在测试时做出比输入长度更大的预测呢？这是一个关于Keras的特殊实现的问题，

浏览 0提问于2018-01-06得票数 120

2回答

Tensorflow展开的LSTM比输入序列长

、、

我想在tensorflow中创建一个LSTM来预测时间序列数据。我的训练数据是一组不同长度的输入/输出序列。我可以在同一批训练中包含多个不同长度的序列吗？或者我需要将它们填充成相同的长度？如果是这样的话，是怎么做的？另外:如果展开的RNN比输入序列长，tensorflow会做什么？rnn()方法包含一个可选的sequence_length参数，该参数似乎旨在处理这种情况，但我不清楚它是做什么的。

浏览 2提问于2016-05-11得票数 1

2回答

非文本数据的参差张量作为LSTM的输入

、、、、

我正在学习粗糙张量及其在粒子跟踪中的应用。我有以下最小的例子，它再现了我一直在经历的错误。 import tensorflow as tf from tensorflow.keras.layers import Dense, LSTM, Input, TimeDistributed from tensorflow.keras.models import Sequential n=10 data_n = 32 batch_size=8 window_length=8 splits = [n]*data_n #### Create a ragged tensor with shape (3

浏览 28提问于2020-12-14得票数 0

1回答

如何传递到变长线性数据？

、、、、

我试图通过先将数据传递给RNN，然后再传递给what来进行序列分类，通常我只是将输出从[batch_size, sequence_size, hidden_size]转换到[batch_size, sequence_size*hidden_size]，将其传递给线性，但是在这种情况下，我有不同长度的序列，所以RNN的输出可能是[batch_size, 32, hidden_size]或[batch_size, 29, hidden_size]，所以我不知道初始化线性层的形状(代替下面代码中的问号)。有可能吗？ class RNN(nn.Module): def __in

浏览 1提问于2022-05-03得票数 0

回答已采纳

2回答

RNN是如何处理填充序列的？

在pytorch中，我们可以给出一个填充序列作为RNN的输入。从中，RNN的输入可以如下所示。输入(seq_len，batch，input_size)：包含输入序列特征的张量。输入也可以是一个压缩可变长度序列。示例 packed = torch.nn.utils.rnn.pack_padded_sequence(embedded, input_lengths) outputs, hidden = self.rnn(packed, hidden) outputs, output_lengths = torch.nn.utils.rnn.pad_packed_sequence(outp

浏览 0提问于2017-07-06得票数 14

回答已采纳

1回答

如何在PyTorch中建立具有自定义隐藏层的神经网络模型(S)并与PackedSequence兼容

、、

我想做一个RNN，例如，有更多的隐藏层或层规范化。我知道可以通过子类nn.module来创建自定义RNN，但是使用这种方法不可能以与torch.nn.RNN相同的方式和效率对PackedSequence对象(具有可变长度的序列)进行有效的批处理。我认为解决方案可能是子类nn.RNN，但我不知道如何做到这一点。

浏览 0提问于2023-05-15得票数 0

回答已采纳

1回答

RNN层在keras中将input_length作为未知返回

、、

我现在使用RNN层对输入文档进行编码，如下所示。但我不确定为什么RNN层检测不到输入序列长度？所以我认为last p的形状应该是(?, doc_maxlen, rnn_h_size)而不是(?, ?, rnn_h_size)，哪里错了？ rnn_h_size = 10 embd_size = 100 doc_maxlen= 10418 doc = Input((doc_maxlen,), name='Doc_Input') embd_layer = Embedding(input_dim=vocab_size, output_dim=embd_size) embd_doc =

浏览 1提问于2017-10-29得票数 0

1回答

从tf.nn.dynamic_rnn获取非填充项的最后输出。

、

我想在全对一模式下使用RNN (最后只有一个输出)。在TensorFlow中，可以使用： lstm_cell = tf.nn.rnn_cell.LSTMCell(lstm_num_units) output, _ = tf.nn.dynamic_rnn(lstm_cell, embed, dtype=tf.float32) 其中，输出包含所有时间步骤的输出[0, max_time-1]，而max_time是批处理中最长输入的长度。现在，我想得到批处理中每个输入的最后一个输出。让我说得更清楚。我在网络上看到的所有实现都使用output[:,-1]作为最后的输出。但是，对于已填充的输入，这将

浏览 0提问于2018-05-15得票数 1

1回答

RNN中填充和掩蔽序列的实现

、、

作为练习，我正在构建一个用于序列二进制分类的网络(序列是属于A型还是B型)。该网络由一个具有一个LSTM层的RNN组成，并在其之上形成一个输出分类的MLP。我将不同长度的序列批量输入到网络中，这意味着我需要对序列进行填充，使其长度相等，并屏蔽网络的输出，使它们与原始序列相同长度。在PyTorch中实现填充/掩蔽的正确方法是什么？我读过像pad_sequence()，pack_sequence()，pack_padded_sequence()等函数，但是我已经和所有这些函数混淆了。或者还有其他我不知道的“秘密”方式？

浏览 0提问于2023-05-30得票数 0

1回答

Tensorflow RNN细胞具有不同的权重

、、、、

我试图在tensorflow中编写一个简单的RNN，基于这里的教程： (我使用的是一个简单的RNN单元而不是GRU，而不是退出)。我很困惑，因为我的序列中不同的RNN细胞似乎被分配了不同的权重。如果我运行以下代码 import tensorflow as tf seq_length = 3 n_h = 100 # Number of hidden units n_x = 26 # Size of input layer n_y = 26 # Size of output layer inputs = tf.placeholder(tf.float32, [None, se

浏览 4提问于2017-09-24得票数 0

回答已采纳

1回答

嵌入层Keras的可变长度输入

、、、、

我有一个可变大小的文本语料库。我试图使用keras中的嵌入层将我的文本提供给LSTM模型。我的代码如下所示： import numpy as np from keras.layers import Embedding, Input, LSTM, RNN, SimpleRNN from keras.models import Model, Sequential vocab_size = 20000 embedding_len = 50 model = Sequential() model.add(Embedding(vocab_size, embedding_len)) 我使用numpy随

浏览 0提问于2019-07-04得票数 4

2回答

为什么在某些计算机视觉问题中使用RNN？

、、、

我在学习计算机视觉。当我进行各种计算机视觉项目的实现时，一些OCR问题使用GRU或LSTM，而有些则没有。据我所知，RNN只用于输入数据是序列的问题，如音频或文本。因此，在kaggle上的MNIST核中，几乎没有内核使用RNN，几乎所有的基于GitHub的IAM数据集的OCR存储库都使用了GRU或LSTM。直观地说，图像中的书面文本是一个序列，因此使用RNN。但是，MNIST数据中的书面文本也是如此。那么，RNN(或者GRUs或LSTM)到底是什么时候需要在计算机视觉中使用，什么时候不需要呢？

浏览 0提问于2020-07-06得票数 0

回答已采纳

1回答

经常性NNs:参数共享有什么意义？填充物不会起什么作用吗？

、、、

以下是我如何理解RNN中参数共享的意义：在常规前馈神经网络中，每个输入单元都被分配一个独立的参数，这意味着输入单元(特征)的数量对应于要学习的参数数。在处理例如图像数据时，所有训练示例(通常是恒定像素大小*像素大小* rgb帧)输入单元的数量是相同的。然而，像句子这样的顺序输入数据可以以高度不同的长度输入，这意味着根据处理示例语句的不同，参数的数量将不相同。这就是为什么参数共享对于有效处理顺序数据是必要的:它确保模型始终具有相同的输入大小，而不管序列长度如何，因为它是根据从一种状态到另一种状态的转换来指定的。因此，可以在每个时间步骤中使用相同的权值转换函数(输入到隐藏的权重，隐藏到输出的权

浏览 1提问于2017-12-18得票数 7

回答已采纳

1回答

如何在Keras中将掩蔽层应用于序列CNN模型？

、、、、

我在RNN/LSTM模型中将掩蔽层应用到RNN时遇到了问题。我的数据不是原始图像，但我将其转换为(16，34，4)(channels_first)的形状。数据是连续的，最大步长为22。因此对于不变的方式，我将时间步长设置为22。因为它可能比22个步骤短，所以我用np.zeros填充其他步骤。然而，对于0填充数据，它大约是所有数据集的一半，所以对于0填充数据，训练不能在这么多无用数据的情况下达到非常好的结果。然后，我想添加一个掩码来消除这些0填充数据。这是我的代码。 mask = np.zeros((16,34,4), dtype = np.int8) input_shape = (22

浏览 1提问于2018-12-30得票数 2

1回答

批量大小、序列长度和hidden_size之间的关系是什么？

、、

在阅读dynamic_rnn的接口文档时，我有以下问题：批次大小、序列长度和(单元格)hidden_size之间的关系是否有约束？我在想：序列长度单元( <= )hidden_size，或者，批量大小*序列长度单元( <= )hidden_size 我说的对吗？我浏览了很多网页，但都找不到答案。谢谢大家。示例： # create a BasicRNNCell rnn_cell = tf.nn.rnn_cell.BasicRNNCell(hidden_size) # 'outputs' is a tensor of shape [batch_size,

浏览 6提问于2017-12-11得票数 1

2回答

深度学习图书馆中NLP的动态批处理和填充批

、、、、

这是我们训练NLP的现代深度学习模型的常用方法，例如，在Huggingface库中，输入no有一个固定的长度。指记号/音音单位。https://huggingface.co/docs/transformers/pad_截断在下面的例子中，我们有5个不同长度的句子，它们都被填充到最大长度设置为1024。我问题的第一部分是关于GPU内存的使用和pad，当我们训练带有填充输入的批数据的模型时，填充的令牌会占用GPU RAM吗？即使模型不计算它们，因为它们将返回零，这仍然是相当浪费的。还是PyTorch / Tensorflow或其他低级张量库重新优化批处理，使pads不占用内存？如果是的话，在

浏览 0提问于2023-04-07得票数 2

2回答

基于递归网络的影评分类

、、、、

据我所知和研究，数据集中的序列可以是不同长度的；如果训练过程中的每一批都包含相同长度的序列，我们就不需要填充或截断它们。为了实现和应用它，我决定将批处理大小设置为1，并在IMDB电影分类数据集上训练我的RNN模型。我添加了我在下面编写的代码。 import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras.datasets import imdb from tensorflow.keras import Sequential from tensorflow.keras.layers import De

浏览 0提问于2021-03-26得票数 5

1回答

基于元素RNN的火炬轮批量处理变长序列

、、、

我正在尝试用语音音译数据训练一个元素研究的RNN模块中可用的LSTM模型。我把训练数据作为X和Y的单独表。X和Y都包含作为张量的每个训练示例，X中的张量包含序列中每个字符的ASCII值，Y中的张量包含结果序列的ASCII值。我以一种形式创建了数据，对于来自X和Y的一个具体例子，它完美地排列并填充了0以供训练。所以，我可以一次用一个例子来训练LSTM。但是，问题是，我不知道如何进行批量训练，因为每个例子张量都有不同的长度。我想，我可以通过这个陈述来说明这一点： X{ Y{ [EEEEE00000]

浏览 7提问于2016-07-23得票数 1

2回答

在将不同长度的多变量时间序列传递到Keras LSTM层之前，如何安排它

、、、、

我有许多多变量时间序列，它们是由同一种过程产生的，但是：长度明显不同；每个时间序列是一个独立的实例，测量是在不同的，相当随机的时间戳上进行的；每个时间序列在每个时间戳上都与两个目标相关。换言之：每个时间序列都有一个(n_timestamps, n_features)形状。每个目标系列都有一个(n_timestamps, 2)形状。举个例子，这可以被看作是不同公司的股票，很少有不同的特征来描述，在给定的时间戳上的目标是年底的最终价格将高于x的概率，除非我们直接从魔法给定的真实概率(而不是观察到的0/1反应)中了解它们。我希望能够在每个时间点预测目标，我想尝试一下RNN。但是，在将

浏览 0提问于2022-12-13得票数 2

1回答

如何在PyTorch中使用Glove嵌入层处理可变长度的句子？

、、、、

我正在使用PyTorch中的RNN构建一个文本分类器。我使用的嵌入是GLOVE。但是，我将可变长度索引引用提供给模型。这将导致可变长度嵌入，我认为这不会起作用。我如何解决这个问题，并使嵌入输出的所有句子的长度相同？ def forward(self, sentence): embeds = self.embedding(sentence) hidden = self.__init__hidden(size) output, hidden = self.rnn(embeds, hidden) out = self.hidden2o

浏览 12提问于2021-04-21得票数 3

5回答

如何处理TensorFlow中可变长度序列的批处理？

、、、

我试图使用RNN (特别是LSTM)进行序列预测。然而，我遇到了一个可变序列长度的问题。例如, sent_1 = "I am flying to Dubain" sent_2 = "I was traveling from US to Dubai" 我试图在这个的基础上用一个简单的RNN来预测当前单词之后的下一个单词。但是，num_steps参数(用于展开到以前的隐藏状态)在每个Tensorflow的时代都应该保持不变。基本上，分批的句子是不可能的，因为句子的长度是不同的。 # inputs = [tf.squeeze(input_, [1]) #

浏览 0提问于2016-01-08得票数 25

回答已采纳

1回答

可变长度rnn填充和遮罩填充梯度

我正在构建一个rnn，并使用sequene_length参数为批处理中的序列提供长度列表，批处理中的所有序列都填充为相同的长度。然而，当做backprop时，有没有可能屏蔽与填充步骤相对应的渐变，因此这些步骤对权重更新的贡献为0？我已经像这样掩盖了它们相应的开销(其中batch_weights是0和1的向量，其中与填充步骤对应的元素是0)： loss = tf.mul(tf.nn.sparse_softmax_cross_entropy_with_logits(logits, tf.reshape(self._targets, [-1])), batch_weights) self._co

浏览 0提问于2016-03-02得票数 8

1回答

使用Python tensorflow进行预测和预测

、、、、

我已经创建了一个预测模型，并在其中使用了Python中的tensorflow库提供的RNN。下面是我创建并尝试的完整代码：但我有疑虑。 1) RNN对于我试图预测的内容是否正确？ 2)有没有更好的算法可以试试？ 3)有人能建议我如何使用tensorflow模型给出多个输入并获得必要的输出吗？有谁能给我指路吗？我希望我的观点是清楚的。如果还有什么需要的话，请告诉我。

浏览 0提问于2018-07-18得票数 0

1回答

LSTM-RNN :如何塑造多变量输入

、、、

大家好，我正在努力实现tensorflow RNN：问题是：我想训练一个RNN的LSTM实现来检测KDD99数据集中的恶意连接。它是一个包含41个特征和(经过一些预处理后)大小为5的标签向量的数据集。 [ [x1, x2, x3, .....x40, x41], ... [x1, x2, x3, .....x40, x41] ] [ [0, 1, 0, 0, 0], ... [0, 0, 1, 0, 0] ] 作为一个基本架构，我想实现以下内容： cell = tf.nn.rnn_cell.LSTMCell(num_units=64, state_is_tuple=True) c

浏览 2提问于2017-06-16得票数 0

2回答

当每个批中的观察值有不同数量的缺失值时，使用Keras掩蔽层

、、、

我正在为具有不同长度的序列使用Keras构建一个RNN。我将每个序列的缺失值填充为-99 (我没有使用0，因为这在我的数据集中是一个有意义的值)。该模型的定义如下： model = keras.models.Sequential([ keras.layers.Masking(mask_value=-99, input_shape=(n_lags, n_input_vars)), keras.layers.LSTM(64, return_sequences=True), keras.layers.LSTM(16), keras.layers.Dense(3) ])

浏览 5提问于2019-11-12得票数 0

回答已采纳

2回答

PyTorch -从变长序列创建填充张量

、

我正在寻找一个好的(有效的，最好是简单的)方法，以创建填充张量从序列的可变长度/形状。到目前为止，我能想象的最好的方法是这样的天真的方法： import torch seq = [1,2,3] # seq of variable length max_len = 5 # maximum length of seq t = torch.zeros(5) # padding value for i, e in enumerate(seq): t[i] = e print(t) 输出： tensor([ 1., 2., 3., 0., 0.]) 有更好的方法吗

浏览 0提问于2018-09-08得票数 5

回答已采纳