如何在PyTorch中计算注意力得分和编码器输出的加权平均值？

在PyTorch中计算注意力得分和编码器输出的加权平均值，可以通过以下步骤实现：

首先，需要定义一个注意力机制模型。注意力机制可以是简单的点积注意力、加性注意力或多头注意力等。这里以点积注意力为例进行说明。
定义注意力得分计算函数。在点积注意力中，注意力得分是通过查询向量和键向量的点积计算得到的。可以使用torch.matmul函数进行矩阵乘法运算，得到注意力得分。
计算注意力权重。将注意力得分进行softmax归一化，得到注意力权重。可以使用torch.softmax函数进行归一化操作。
计算加权平均值。将注意力权重与编码器输出进行加权平均，得到最终的注意力向量。可以使用torch.matmul函数进行矩阵乘法运算，得到加权平均值。

下面是一个示例代码，演示如何在PyTorch中实现注意力机制和计算加权平均值：

import torch
import torch.nn as nn

# 定义注意力机制模型
class Attention(nn.Module):
    def __init__(self, hidden_size):
        super(Attention, self).__init__()
        self.hidden_size = hidden_size
        self.query = nn.Linear(hidden_size, hidden_size)
        self.key = nn.Linear(hidden_size, hidden_size)
        self.softmax = nn.Softmax(dim=1)

    def forward(self, query, key):
        q = self.query(query)
        k = self.key(key)
        attention_scores = torch.matmul(q, k.transpose(1, 2))
        attention_weights = self.softmax(attention_scores)
        return attention_weights

# 定义编码器模型
class Encoder(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(Encoder, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.embedding = nn.Embedding(input_size, hidden_size)
        self.gru = nn.GRU(hidden_size, hidden_size)

    def forward(self, input):
        embedded = self.embedding(input)
        output, hidden = self.gru(embedded)
        return output, hidden

# 定义注意力加权平均模型
class AttentionWeightedAverage(nn.Module):
    def __init__(self, hidden_size):
        super(AttentionWeightedAverage, self).__init__()
        self.hidden_size = hidden_size
        self.attention = Attention(hidden_size)

    def forward(self, query, key):
        attention_weights = self.attention(query, key)
        weighted_average = torch.matmul(attention_weights, key)
        return weighted_average

# 示例数据
input_size = 100
hidden_size = 256
batch_size = 32
seq_length = 10

# 创建编码器实例
encoder = Encoder(input_size, hidden_size)

# 创建注意力加权平均实例
attention_weighted_average = AttentionWeightedAverage(hidden_size)

# 随机生成输入数据
input = torch.randint(0, input_size, (batch_size, seq_length))

# 计算编码器输出
output, hidden = encoder(input)

# 计算注意力加权平均值
weighted_average = attention_weighted_average(hidden, output)

print(weighted_average)

在上述示例代码中，首先定义了一个注意力机制模型Attention，其中包括查询向量和键向量的线性变换以及softmax归一化操作。然后定义了一个编码器模型Encoder，用于将输入序列编码为隐藏状态。最后定义了一个注意力加权平均模型AttentionWeightedAverage，其中使用了注意力机制模型计算注意力权重，并将注意力权重与编码器输出进行加权平均，得到最终的注意力向量。最后通过示例数据进行计算，并打印出注意力加权平均值。

注意：以上示例代码仅为演示如何在PyTorch中实现注意力机制和计算加权平均值，实际应用中可能需要根据具体任务和模型的需求进行相应的修改和调整。

页面内容是否对你有帮助？

有帮助

没帮助

pytorch attention seq2seq教程中的错误？

、

我正在用Pytorch编写序列神经网络的序列。在official Pytorch seq2seq tutorial中，有一个注意力解码器的代码，我不能理解/认为可能包含错误。它通过连接输出和此时的隐藏状态来计算每个时间步的注意力权重，然后乘以一个矩阵，得到一个大小等于输出序列长度的向量。注意，这些注意力权重不依赖于编码器序列(在代码中命名为encoder_outputs )，我认为它应该依赖于编码器序列。此外，the paper cited in the tutorial还列出了三种不同的得分函数，可用于计算注意力权重(本文的3.1节)。这些函数都不是简单地连接和乘以一个矩阵。因此，在

浏览 37提问于2019-05-03得票数 1

1回答

语音识别-如何将句子拆分成单词？

、、、

我是语音识别的新手，我正在寻找一种方法，以音频/wav文件的形式将一个句子(或多个句子)拆分为单个单词？这听起来像是一个标准问题，所以我想知道业内人士是如何处理它的。 ps:是的，这个问题是三年前提出的，但我正在寻找一个使用更新的库(即pytorch和tensorflow 2.0)的最新答案。谢谢!

浏览 40提问于2019-10-02得票数 0

回答已采纳

1回答

在基于注意力的seq_len中消除BiLSTM

、、、、

我正在研究基于自我关注的BiLSTM的几个实现，我不明白为什么每个实现中的输入和输出大小是不同的。具体而言，我指的是取自不同实现的下列代码：实现 e def attnetwork(self, encoder_out, final_hidden): # encoder_out shape = (batch_size, seq_len, n_hidden) # final_hidden shape = (1, batch_size, n_hidden) hidden = final_hidden.squeeze(0) att

浏览 4提问于2021-02-16得票数 0

1回答

解码器不接受双向编码器的输出

、、、、

我正在尝试用Tensorflow实现一个编码器解码器模型。编码器是一个双向单元。 def encoder(hidden_units, encoder_embedding, sequence_length): forward_cell = tf.contrib.rnn.LSTMCell(hidden_units) backward_cell = tf.contrib.rnn.LSTMCell(hidden_units) bi_outputs, final_states = tf.nn.bidirectional_dynamic_rnn(forward_cell, bac

浏览 17提问于2020-01-29得票数 0

1回答

tensorflow r1.0中注意力解码器的实现

、

我被tensorflow r1.0中的注意力解码器实现搞糊涂了。可以在这里找到原始代码：。下面是我感到困惑的代码部分： def decoder_fn(time, cell_state, cell_input, cell_output, context_state): if cell_state is None: # first call, return encoder_state cell_state = encoder_state # init attention attention = _init_attention(encod

浏览 2提问于2017-04-06得票数 0

1回答

理解TensorFlow 2.x注意层的param's

、

我正在TensorFlow网站上阅读TensorFlow上的文档。文档说，调用参数采用查询张量，值张量。我的问题是这些张量是什么。他们是，查询张量= lstm输出值张量= lstm隐藏状态如果我错了，请纠正我。谢谢

浏览 4提问于2020-04-03得票数 0

回答已采纳

1回答

Transformer Decoder只使用什么内存？

、、、、

我读了很多关于转换器和自我注意的文章，看到BERT和GPT-2都是一个较新的版本，只使用了编码器变压器(BERT)和解码器变压器(GPT-2)。我一直试图为自己构建一个解码器模型，用于下一个序列预测，但被一件事搞糊涂了。我使用的是PyTorch，我先看了Seq2Seq tutorial，然后又研究了由Transformer Decoder Layers组成的Transformer Decoder Block。我的困惑来自于记忆，这些也需要传递。在文档中，他们说内存是编码块的最后一层，这对于Seq2Seq模型是有意义的，但我想做一个只有解码器的模型。所以我的问题是，如果你没有编码器，你怎么把像

浏览 19提问于2020-12-17得票数 1

2回答

基于Bahdanau注意的语境向量形状

、、、、

我正在看在巴哈瑙的注意力课。我注意到上下文向量的最终形状是(batch_size, hidden_size)。考虑到attention_weights有形状(batch_size, 64, 1)，特性有形状(batch_size, 64, embedding_dim)，我想知道它们是如何得到这种形状的。他们将两者相乘(我相信这是一个矩阵乘积)，然后在第一个轴上进行求和。在上下文向量中隐藏的大小来自哪里？

浏览 4提问于2020-02-02得票数 1

回答已采纳

2回答

RNN是否应该将可变长度序列上的注意力权值重新归一化为“掩蔽”零填充效应？

、、、、

为了明确起见，我指的是中描述的类型的“自我关注”，并实现了许多地方，例如：。我是，而不是，指的是编码器-解码器模型(即Bahdanau)中使用的seq2seq类型的注意，尽管我的问题可能也适用于此。我只是不太熟悉。自我关注基本上只是计算RNN隐藏状态的加权平均值(均值池的推广，即非加权平均)。当同一批中有可变长度序列时，它们通常是零填充到批中最长序列的长度(如果使用动态RNN)。当计算每个序列的注意权值时，最后一步是一个软件最大值，因此注意权重之和为1。然而，在我所看到的每一次注意实现中，都没有注意掩盖或取消零填充对注意力权重的影响。这在我看来是不对的，但我担心我可能错过了什么，因为似乎没

浏览 0提问于2018-03-27得票数 12

回答已采纳

1回答

Tensorflow Transformer解码器输出未给出预期结果

、、、

我已经使用tensorflow设计了一个转换器模型。该模型的目标是生成一个文本序列，理想情况下是一个问题，然后是一个给定输入句子的答案。我有一些数据点(大约15k )，其格式如下 SOURCE SENTENCE: <@>A man in the distance is walking past a brick wall painted with words and graffiti.<#>where<%>wall<?>brick TARGET SENTENCE: <^>where is the man walking ?<~&

浏览 2提问于2020-01-28得票数 0

1回答

如何屏蔽Tensorflow编码器-解码器RNN中的零填充值？

在官方的Tensorflow神经机器翻译示例()中，在编码器模型中定义了GRU层。但是，由于没有应用掩码，GRU将正常处理填零的值。而在解码器中，我认为情况更糟，因为对填充值的关注将在上下文向量的最终计算中发挥重要作用。我认为在下面的损失函数的定义中，零被屏蔽了，但在这一点上已经太晚了，编码器和注意力解码器的输出都将“损坏”。我是否在整个过程中遗漏了什么？实现这一点的正常方法不应该是屏蔽填充的值吗？

浏览 0提问于2019-04-24得票数 1

1回答

编码器如何将注意力矩阵传递给变形金刚中的译码器？

、、、、

我当时正在读著名的报纸。虽然我对大部分的主要概念都很清楚，但还是有几个问题。编码器如何将输入的注意力矩阵传递给解码器？正如我所理解的，它只将密钥和值矩阵传递给解码器。在测试时，我们从哪里得到译码器的移位输出？由于它一次只能输出一个令牌，所以这个转换器会运行多个迭代来生成输出序列。如果是，那么，如何知道什么时候停止？当解码器已经从编码器和蒙面的多头注意力中获得Q、k和v时，是否训练了多头的权值？任何帮助都是非常感谢的。

浏览 6提问于2021-03-21得票数 0

回答已采纳

1回答

关于火炬seq2seq教程中注意事项计算的几个问题:与原“八达纳”或“龙”纸不符

、、

我正在研究最近的注意力。我对他们计算的注意力有一些怀疑，是Pytorch注意力教程：。在本教程中，他们使用解码器的输入和解码器的隐藏状态计算分数或权重。然而，我发现龙和巴达诺都不这么做，为什么。相反，两者都使用解码器隐藏状态，编码器输出计算权重。为什么毕火炬教程会这样做？

浏览 2提问于2021-04-14得票数 0

1回答

如何计算整个时期的roc auc分数，如平均精度？

、、、

我在PyTorch中实现了一个训练循环，对于指标，我想使用的ROC AUC分数。我可以使用sklearn的实现来计算单个预测的得分，但在想象如何使用它来计算整个时期的平均得分时有一点困难。有没有人能把我推向正确的方向？

浏览 10提问于2020-05-13得票数 0

回答已采纳

1回答

稠密合成器的实现

、、、、

我试图理解合成器论文( 1)，并且有一个关于密集合成器机制的描述，它应该取代变压器体系结构中描述的传统的注意模型。对密集合成器的描述如下：因此，我试图实现该层，它看起来像这样，但我不确定我是否做对了： class DenseSynthesizer(nn.Module): def __init__(self, l, d): super(DenseSynthesizer, self).__init__() self.linear1 = nn.Linear(d, l) self.linear2 = nn.Linear(l

浏览 2提问于2020-05-06得票数 15

1回答

Keras中的注意力:如何在keras密集层中添加不同的注意力机制？

、、、、

我是Keras的新手，我正在尝试用keras构建一个简单的自动编码器，并带有关注层：下面是我尝试过的： data = Input(shape=(w,), dtype=np.float32, name='input_da') noisy_data = Dropout(rate=0.2, name='drop1')(data) encoded = Dense(256, activation='relu', name='encoded1', **kwargs)(noisy_data) encoded = L

浏览 36提问于2019-04-10得票数 0

2回答

NMT的自我注意与注意LSTM

、、

我试着比较一下答:基于变压器的神经机器翻译(NMT)体系结构是你所需要的全部文件。 B:一种基于编码器中的双向LSTM和解码器中的单向LSTM的体系结构，它关注编码器的所有隐藏状态，创建一个加权组合，并与解码器(单向)LSTM输出一起使用该结构产生最终输出字。我的问题是，A架构相对于B的优势可能是什么，即自我关注与LSTM的关注？我可以想象，与B体系结构中计算的顺序性质相比，A体系结构具有具有并行计算的巨大优势。还有其他好处吗？特别是，架构A是否具有注意是你所需要的论文中描述的最大路径长度优势？

浏览 0提问于2021-11-28得票数 1

1回答

如何在linux中对C++中的操作计时时处理缓存

、、、、

我必须计时clock_gettime()函数来估计和分析其他操作，这是为了做功课，所以我不能使用分析器，而必须编写自己的代码。我的做法如下： clock_gettime(CLOCK_PROCESS_CPUTIME_ID,&begin); for(int i=0;i<=n;i++) clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &end); clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &end); cout<<(end.tv_nsec-begin.tv_nsec)/n;

浏览 1提问于2013-10-19得票数 0

回答已采纳

1回答

如何理解注意层中使用的矩阵的不一致和不明确的维度？

、、、

注意力评分机制似乎是各种seq2seq模型中常用的组成部分，我在https://arxiv.org/pdf/1506.07503.pdf著名论文中读到了最初的“基于位置的注意”。(这种关注似乎被用于各种形式的GNMT和文本到语音系统，如tacotron-2 https://github.com/Rayhane-mamah/Tacotron-2)。即使在反复阅读了这篇论文和其他关于注意力机制的文章之后，我仍然对所使用的矩阵的维数感到困惑，因为论文似乎并没有描述它。我的理解是：如果我有隐藏的dim 1024解码器，这意味着(s_{i-1}}向量是1024长度。如果我有编码器输出的dim 51

浏览 0提问于2020-06-02得票数 0

回答已采纳

1回答

attention_size of tf.contrib.seq2seq.AttentionWrapper的论点是什么意思？

、

在tf.contrib.seq2seq.AttentionWrapper中有一个论点：“基本的注意包装器是tf.contrib.seq2seq.AttentionWrapper，这个包装器接受一个RNNCell实例，一个AttentionMechanism实例，以及一个注意深度参数(attention_size);”但是注意深度是什么呢？在Bahdanau和Luong的论文中，我发现根本没有注意深度，并且我不清楚注意机制的源代码。谁能告诉我'attention_size‘的意思和原则，谢谢！

浏览 0提问于2018-02-12得票数 1

回答已采纳

1回答

PyTorch:二元函数的高阶导数

、、、、

假设我有一个具有域R^d x R^d的二元函数f(x,y)，我有两组输入X = [x1,x2,...,xm]和Y = [y1,y2,...,yn]，其中每个xi和yj都是d-dimensional向量，我想用i,j个元素[f(xi,yj)]_ij来计算矩阵。我可以通过广播和做一些像f(X.unsqueeze(1),Y)这样的事情在PyTorch中做到这一点。我真正想要计算的是下面的矩阵：[d/dx d/dy f(xi,yj)]_ij，其中我假设每个xi和yi都是标量值。我该如何在PyTorch中做到这一点？我知道，对于单输入函数和一阶导数，我可以这样做(使用PyTorch的autogra

浏览 41提问于2021-01-24得票数 0

1回答

没有隐藏状态的注意力网络？

、、、

我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究一个注意力模型的结构时，我发现一个模型通常是这样的： x: Input. h: Encoder's hidden state which feeds forward to the next encoder's hidden state. s: Decoder's hidden state which has a weighted sum of all the encoder's hidden states as input and feeds forward to the next decoder'

浏览 0提问于2020-04-27得票数 1

2回答

为什么香草变压器有固定长度的输入？

、

我知道，在变压器的数学基础上，没有限制输入的长度。但我仍然不明白为什么我们要在框架(PyTorch)中修复它。由于这个问题，已经创建了Transformer。请你向我解释一下这个问题藏在哪里好吗？

浏览 0提问于2020-03-08得票数 8

回答已采纳

7回答

为什么译码器不是伯特架构的一部分？

、、、

我看不出伯特是如何在不使用解码器的情况下做出预测的，这是之前所有模型的一部分，包括变压器和标准RNN。如何在不使用解码器的情况下在BERT体系结构中进行输出预测？怎么才能完全消除解码器呢？换句话说，我可以用什么解码器和伯特一起生成输出文本？如果BERT只编码，我可以使用什么库/工具从嵌入解码？

浏览 0提问于2019-12-21得票数 22

回答已采纳

1回答

用译码器隐藏状态和编码器输出计算tensorflow中Bahdanau注意力的注意分数

、、、

这个问题与这里所示的神经机器翻译有关： self.W1和self.W2被初始化为由10个单元组成的密集神经层，分别位于class BahdanauAttention的__init__函数的第4行和第5行。在所附的代码图像中，我不确定我是否理解在第17行和第18行建立的前馈神经网络。所以，我把这个公式分解成它的各个部分。见第23行和第24行。 query_with_time_axis是self.W1的输入张量，values是self.W2的输入。每个计算函数Z = WX + b，和Z的相加在一起。张量加在一起的尺寸是(64, 1, 10)和(64, 16, 10)。我假设self.W1和sel

浏览 3提问于2020-09-25得票数 0

回答已采纳

1回答

平均平均精度计算的置信度阈值

PR曲线阈值是否有任何规则，因为在sklearn.metrics.average_precision中，它们根据prob/置信度自动设置阈值，如果我有如下输入，可能会导致奇怪的结果： y_true = np.array([0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]) y_scores = np.array([ 0.7088982, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]) 它将输出mAP = 0.93333。Sklearn实现获得了这个数字，因为它自动使用0.7088982，0作为阈值。当探测阈值为0时，

浏览 1提问于2021-11-20得票数 2

2回答

这个编解码器LSTM对时序序列的序列有意义吗？

、、

任务给定\vec x = [x_{t=-3}, x_{t=-2}, x_{t=-1}, x_{t=0}] 预测\vec y = [x_{t=1}, x_{t=2}] 有一个LSTM编解码器(seq2seq) 模型 📷 注意:那个？符号在张量的形状是指batch_size，后面是tensorflow表示法。问题值得尝试这种架构吗？(我认为画这幅画比编码要花更多的时间.) 与典型的seq2seq不同的是，在译码器中，第二步的输入不是前一步的输出。解码器中两个时间步骤的输入是相同的，它是编码器所有隐藏状态的“编码”版本。

浏览 0提问于2018-12-12得票数 5

1回答

变压器编码器中的查询填充掩码和密钥填充掩码

、、、

我在变压器编码器中实现了自我注意的部分，使用了pytorch nn.MultiheadAttention，并混淆了变压器的填充掩蔽。下图显示了查询(行)和键(列)的自关注权重。正如您所看到的，有一些标记"“，我已经用密钥掩蔽了它。因此，令牌将不计算注意力权重。还有两个问题：在查询部分，除了红色的部分之外，我还能屏蔽它们(“”)吗？这合理吗？如何在查询中屏蔽"“？注意权值还通过在softmax或src_key_padding_mask参数中提供掩码来沿行使用src_key_padding_mask函数。如果我将所有"“行设置为-inf，则softma

浏览 12提问于2020-12-12得票数 2

回答已采纳

1回答

如何计算加权测量之间的标准差？

、、

我有几个加权值，我取的是加权平均值。我想用加权值和加权平均值来计算加权标准差。我将如何修改典型的标准差，以便在每个度量中包括权重？这是我使用的标准差公式。当我简单地使用'x‘的每个加权值和'\bar{x}’的加权平均值时，结果似乎比它应该的小。

浏览 16提问于2015-05-21得票数 8

回答已采纳

1回答

为什么VAE编码器输出日志方差而不是标准差？

、

当谈到VAE (并查看VAE实现)时，编码器输出： μ，对数(方差) 当我们训练模型( decoder model)的一部分)时，我们将log(variance)转换成标准差： std = exp(0.5 * logvar) (我从这里举了一个例子：https://github.com/AntixK/PyTorch-VAE/blob/master/models/vanilla_vae.py) 如果我们需要将log(variance)转换为Standard deviation,，为什么我们不从编码器输出标准差，而不是进行计算以将其转换为标准差？

浏览 0提问于2022-12-26得票数 1

1回答

使用第n个时间步长的RNN (LSTM)

、、、

通常在RNN中，只使用先前的输入和隐藏状态来计算输出。但是，如果我们使用多达n个前面的步骤，会发生什么？本质上是将n元语法输入到神经网络中？由于n-gram在短文本生成中通常相当好，因此这种添加的信息将减轻隐藏状态下记忆短期知识的负担，并将重点放在文本的上下文方面。这看起来很简单，但我找不到任何实现了这一点的论文。

浏览 21提问于2021-02-04得票数 1

1回答

机器翻译中的Tensorflow解码器

、、、、

我正在通过的神经机器翻译使用注意机制。它有用于解码器的下列代码： class Decoder(tf.keras.Model): def __init__(self, vocab_size, embedding_dim, dec_units, batch_sz): super(Decoder, self).__init__() self.batch_sz = batch_sz self.dec_units = dec_units self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_

浏览 3提问于2021-02-15得票数 1

回答已采纳

2回答

如何做GridSearchCV的F1-分数在分类问题上与科学学习？

、、、、

我正在研究一个多分类的问题，在scikit中使用神经网络学习，并且我试图弄清楚如何优化我的超参数(层数、感知器和其他东西的数量)。我发现GridSearchCV是做这件事的方法，但是我使用的代码返回的是平均精度，而我实际上想测试F1分数。有没有人知道我如何编辑这段代码，使它为F1评分工作？一开始，当我不得不评估精度/准确性时，我认为只要拿出混淆矩阵并得出一个结论就够了，同时不断地尝试和错误地改变神经网络中的层次和感知器的数量。今天，我发现还有更多的东西：GridSearchCV。我只需要弄清楚如何评估F1评分，因为我需要做一项研究，从神经网络的层次，节点，最终确定其他选择的准确性… ml

浏览 2提问于2019-05-10得票数 7

1回答

去噪自动编码器和传统自动编码器有什么区别？

、

为了训练去噪自动编码器，我在输入数据中构造了x+n，在输出数据中构造了x(x:原始数据，n:噪声)。学习完成后，我通过一个去噪自动编码器(x_test + n_test -> x_test)获得去噪数据。然后，作为测试，我通过将输入和输出数据构造成相同的值来训练自动编码器，就像传统的自动编码器一样。 (x -> x) 因此，在测试阶段，我获得了类似于去噪自动编码器的去噪数据。为什么通过传统的自动编码器来消除噪音？请告诉我这两个自动编码器的区别。

浏览 4提问于2018-08-05得票数 2

回答已采纳

1回答

如何在pytorch中处理TransformerEncoderLayer输出

、、

我正在尝试使用bio-bert句子嵌入对较长的文本进行文本分类。按照目前的情况，我标准化了每段文本中的句子数量(有些句子仅由("PAD")组成，并通过biobert运行每个句子以获得句子向量，就像这里所做的那样：然后，我通过一个具有8层和16个关注头的TrasnformerEncoder运行这些嵌入。 TrasnformerEncoder输出某种形状(batch_size、num_sentences、embedding_size)。然后，我尝试使用线性层对其进行解码，并将其映射到我的类(其中有7个)，并对输出进行softmax以获得概率。我的损失函数是简单的nn.Cro

浏览 0提问于2020-12-08得票数 1

1回答

如何在flask web应用程序中显示分类报告

、、、、

我需要将输出显示在分类矩阵中，但我得到了一个字符串作为输出 from pyod.models.xgbod import XGBClassifier clf = XGBClassifier(max_depth=15, min_child_weight=4, gamma=0.3, colsample_bytree=0.4) # max_depth = 15, min_child_weight =4 clf.fit(x_train[:, np.newaxis], y_train) y_pred1 = clf.predict(x_test[:, np.ne

浏览 30提问于2019-07-03得票数 0

1回答

Pytorch:如何实现嵌套的变压器:字符级的文字转换器和句子的字级转换器？

、

我想到了一个模型，但我很难弄清楚如何在Pytorch中实际实现它，特别是在培训模型时(例如，如何定义小批，等等)。首先，让我简要介绍一下背景：我正在研究VQA (视觉问答)，其中的任务是回答有关图像的问题，例如：所以，抛开许多细节，我只想在这里集中讨论模型的NLP方面/分支。为了处理自然语言问题，我想使用字符级嵌入(而不是传统的字级嵌入)，因为它们更健壮，因为它们可以很容易地适应单词中的形态变化(例如前缀、后缀、复数、动词接合、连字符等等)。但同时，我也不想失去在词层次上推理的归纳偏见。因此，我提出了以下设计：正如您在上面的图片中所看到的，我想使用 (或者更好的是)，

浏览 2提问于2019-06-14得票数 5

1回答

错误:无效参数: ConcatOp :输入的尺寸应该匹配

、、、

我试图在Seq2Seq模型中添加注意层，但是当我在列车上安装时，我得到了连接步骤上的InvalidArgumentError。该错误来自于级联步骤，其中它是级联解码器输出和注意力输出。提到的错误：输入尺寸应匹配: shape = 32,15,300 vs. shape1 = 32,32,300 我的理解是，前32项是批次大小，第二项是序列长度，300项是单位数量。但是为什么shape1的第二项也有32项呢？下面是我的代码，任何见解都会很有帮助。 WORD2VEC_DIMS = 50 DICTIONARY_SIZE = num_tokens units = 300 ADAM = Adam(

浏览 4提问于2020-12-02得票数 0

1回答

金属makeComputeCommandEncoder断言失效

、、、

我正在尝试设置和执行一个计算内核，并将它的输出提交给MTKView绘制。但我得到了以下的崩溃： -[MTLDebugCommandBuffer computeCommandEncoder]:889: failed assertion `encoding in progress' 下面的代码有什么问题？是否使用相同的commandBuffer来输入计算着色器的输出以呈现管道不受支持？ func computeKernel(_ texture:MTLTexture, commandBuffer:MTLCommandBuffer) { let computeEncoder = co

浏览 0提问于2018-05-02得票数 6

回答已采纳

1回答

RuntimeError: CUDA错误:在丢失功能时触发的设备端断言

、、

/pytorch/aten/src/ATen/native/cuda/Loss.cu:102:操作符()：块: 18,0,0，线程: 54,0,0断言input_val >= zero && input_val <= one失败。 /pytorch/aten/src/ATen/native/cuda/Loss.cu:102:操作符()：块: 18,0,0，线程: 55,0,0断言input_val >= zero && input_val <= one失败。 /pytorch/aten/src/ATen/native/cuda/Loss.

浏览 7提问于2021-03-03得票数 1

1回答

基于用户输入的PostgreSQL加权平均计算

我有一张表格，上面列出了每一位影评人的得分，以及影评人给那部电影的分数：(film_id，critic_id，score)。我有下面的PostgreSQL查询来查找在给定的批判者中平均得分最高的10部电影： SELECT f_id, avg(f_score) FROM ( SELECT s.film_id as f_id, s.critic_id as c_id, s.score as f_score FROM score s WHERE s.c

浏览 0提问于2015-12-15得票数 1

回答已采纳

1回答

Python中的密封/非密封包

、、

在阅读PyTorch文档时，我遇到了术语hermetic packages torch.package添加了对创建包含任意PyTorch代码的密封包的支持。这些包可以保存、共享、用于在稍后的日期或在不同的机器上加载和执行模型，甚至可以使用torch::deploy部署到生产中。我不明白密封包装在这种情况下意味着什么。能解释什么使包裹密封吗？非密封包装会是什么样子？通过对堆栈溢出1进行一些搜索，这个术语似乎是在软件世界中使用的一个通用术语。任何例子--甚至在PyTorch/Python世界之外--都将有助于巩固我的理解。谢谢!

浏览 4提问于2021-07-09得票数 8

1回答

如何使用LSTM实现imdb审查数据集的更高精度？

、、、、

我正试着和LSTM和Pytorch一起练习。我用来预测评论是正面的还是负面的。我使用80%的数据集进行培训，删除标点符号，使用GloVe ( 200 dims)作为嵌入层。在训练前，我也排除太短(长度小于50个符号的评论)和太长(超过1000个符号的评论)评论。对于LSTM层，我在0.5 dropout中使用hidden dimension 256、num_layers 2和one directional参数。之后，我有了完全连接的图层。在培训中，我在Adam优化器(lr=0.001)中使用了lr=0.001函数。目前，我得到了85%的验证精度和98%的训练精度后，7期。我做了以下步骤，

浏览 0提问于2019-07-02得票数 0

1回答

RNN中填充和掩蔽序列的实现

、、

作为练习，我正在构建一个用于序列二进制分类的网络(序列是属于A型还是B型)。该网络由一个具有一个LSTM层的RNN组成，并在其之上形成一个输出分类的MLP。我将不同长度的序列批量输入到网络中，这意味着我需要对序列进行填充，使其长度相等，并屏蔽网络的输出，使它们与原始序列相同长度。在PyTorch中实现填充/掩蔽的正确方法是什么？我读过像pad_sequence()，pack_sequence()，pack_padded_sequence()等函数，但是我已经和所有这些函数混淆了。或者还有其他我不知道的“秘密”方式？

浏览 0提问于2023-05-30得票数 0

1回答

AssertionError in torch_geometric.nn.GATConv

、、、

我试图在torch_geometric中使用图形注意网络(GAT)模块，但是使用下面的代码继续运行到AssertionError: Static graphs not supported in 'GATConv'。 class GraphConv_sum(nn.Module): def __init__(self, in_ch, out_ch, num_layers, block, adj): super(GraphConv_sum, self).__init__() adj_coo = coo_matrix(adj) # convert

浏览 44提问于2022-02-02得票数 0

1回答

为什么我们需要添加开始<s> + END </s>符号时使用递归神经网络序列到序列模型？

、、、

在序列-序列模型中，我们经常看到，在训练模型之前和推理/解码未见数据之前，开始符号(例如<s>)和结束符号(例如</s>)被添加到输入和输出中。例如http://pytorch.org/tutorials/intermediate/seq2seq_翻译_tutorial.html SOS_token = 0 EOS_token = 1 class Lang: def __init__(self, name): self.name = name self.word2index = {} self.word2co

浏览 0提问于2018-01-23得票数 15

1回答

如何在神经网络中强调选定的输出

、

我正在使用pytorch训练一个具有17个特征和5个输出的数据集。但我对其中的两个最感兴趣，假设0-4中的输出为2和3。有什么好策略可以在2和3上获得尽可能高的准确率，而其余的可能具有较低的准确率？

浏览 0提问于2021-01-03得票数 1

1回答

在使用RNN的神经机器翻译的上下文中，投影层是什么？

、、、、

我读过一篇关于机器翻译的论文，它使用了投影层。投影层的解释如下：“附加投影旨在降低编码器输出表示的维度，以匹配解码器堆栈维度。” 有没有人知道这个架构或者如何在Pytorch中实现这个层？论文链接：模型架构：

浏览 5提问于2020-02-07得票数 2

1回答