并行平均小批量梯度的TensorFlow

、、、、

我的主要问题是:平均损失是否等同于平均梯度，以及如何在小批量上累积损失，然后计算梯度？我一直试图在Tensorflow中实现策略梯度，但遇到了一个问题，即我无法一次将所有游戏状态都输入到我的网络中，然后进行更新。问题是，如果我降低网络大小，然后一次在所有帧上训练，并取损失的平均值，那么它开始很好地收敛。但是如果我在小批量上累积梯度，然后对它们进行平均</e

浏览 20提问于2019-03-18得票数 2

1回答

、、、

我想使用批量梯度下降来训练神经网络，但我想将过程并行化。我想将批次分成小批次，跨进程分发梯度计算，然后将它们带回主进程，对它们进行平均，并将它们应用于训练。举一个简单的例子，以这个脚本为例，它在抛物线y=x^2的N个数据点上训练神经网络：import numpy as np print(ses

浏览 14提问于2017-08-19得票数 2

回答已采纳

1回答

如何在不使用feeddict的情况下在tensorflow中实现小批量梯度下降？

据我所知，根据的说法，使用feed_dict是一个计算成本很高的过程，应该避免使用。Tensorflow的输入管道应该更好。我发现的所有小批量梯度下降教程都是用feed_dict实现的。有没有办法使用输入管道和小批量梯度下降？

浏览 4提问于2018-06-29得票数 0

1回答

次梯度的总和或平均值？，小批量SGD keras

、、

我已经搜索了很多次，当使用多层感知器时，如何在Keras中计算小批量的梯度，但似乎找不到答案。我想知道每个小批量的梯度平均值是用来更新权重和偏差的，还是它是梯度的总和？

浏览 0提问于2016-12-15得票数 3

3回答

在tensorflow上使用批处理大小作为“2的幂”是否更快？

、、、

我从某个地方读到，如果您选择的批处理大小是2的幂，那么训练会更快。这条规则是什么？这是否适用于其他应用程序？你能提供一篇参考论文吗？

浏览 4提问于2017-06-11得票数 17

回答已采纳

2回答

带Dropout层的Keras小型批处理梯度下降

、、、、

当batch_size参数大于1时，我有一个关于在Keras/Tensorflow中实现Dropout的问题。最初的文件说：唯一的区别是，对于一个小批量的每一个训练案例，我们通过退出单位来抽样一个变薄的网络。该训练案例的前向和反向传播仅在这个稀疏的网络上进行。每个参数的梯度在每个小批的训练案例中平均。任何不使用参数的训练案例都会为该

浏览 5提问于2020-02-19得票数 0

2回答

使用TensorFlow并行训练多个小批量的图形处理器

我使用的是NVIDIA GPU上的TensorFlow 1.9，内存为3 GB。我的小批量的大小是100MB。因此，我可能会同时在我的GPU上安装多个迷你批次。所以我的问题是，这是否可能，这是否是标准做法。例如，当我训练我的TensorFlow模型时，我在每个时期运行类似这样的东西：for batch_num in range(num_batches): batc

浏览 22提问于2018-08-06得票数 4

回答已采纳

1回答

对于一个训练样本:它通过'NN‘引入，输出出一个输出(Out1)，输出与训练标签进行比较，用反向传播算法，'NN’的每个参数都有小的变化(正或负)。代价函数用维数为1x500的向量表示，所有的小修改都是由反向传播算法得到的。让我们说mini_batch_size=10 对于一个小批量:10个培训样本中的每一个都提供一个维度1x500的成本函数。为了更好地可视化和解释，我们创建了一个矩阵10x500 (称为M)，其中每一行都是每个训练样本的</

浏览 9提问于2020-03-21得票数 0

回答已采纳

1回答

Tensorflow小批量训练

如何使用小批量数据在TensorFlow中训练网络？-具有维度的x和y_变量是否适合单个示例，而batch[0]和batch[1]是此类输入和输出的列表？在这种情况下，TensorFlow是否会自动为这些列表中的每个训练示例添加梯度？或者我应该创建我的模型，以便x和y_获得完整的小批量？我的问题是，当我试图为它提供每个占位符的列表时，它会尝试输入占位符的整个列表，

浏览 4提问于2016-07-02得票数 6

回答已采纳

1回答

在一个训练脚本中使用多个TPUv2设备？

、、

作为Tensorflow Research Cloud计划的一部分，我访问了100台TPU v2机器，其中有8台TPU(TPUv2-8s)。我需要实现模型数据的并行性。有没有办法让我一次在100台机器上运行数据并行？如果可能的话，我更愿意使用tf.distribute.TPUStrategy。或者我绝对需要编写自己的脚本来在机器之间通信，以平均它们之间的梯度。

浏览 15提问于2021-01-15得票数 0

2回答

神经网络函数最小化器的时间复杂度

、、、、

我试着训练一个neural network来识别A到J的手写信件。我有一套200000码的训练。每个训练集都是784像素值的列表。我正在使用python的fmin_cg库的scipy最小化函数。我面临的问题是，每次迭代都要花费大量的时间。第二次迭代耗时20分钟。第三名还在跑。这可能是因为我的电脑过时了，只有2GB的内存和一个缓慢的处理器，但是我以前用training set of

浏览 0提问于2016-10-31得票数 1

回答已采纳

2回答

如何处理火炬中的小批量损失？

、

我给小批量数据建模，我只想知道如何处理损失。我能不能累积损失，然后召唤落后的人，比如：loss.backward()我想知道，这种累积是否会导致梯度爆炸loss = model.neg_log_likelihood(sentence, tag, leng) optimizer.step() 或者，使用平均损失，就像tensorflo

浏览 0提问于2019-03-27得票数 5

0回答

随机梯度下降是否适用于TensorFlow？

、

如果我使用批量或小批量梯度下降，我会得到一条很好的学习曲线。我哪里搞错了？在我的理解中，我使用Tensorflow进行随机梯度下降，如果我在每个训练步骤中只提供一个训练/学习示例，例如： X = tf.placeholder("float", [None, amountInput，而标签是20个分量的向量。对于测试，我运行1000次迭代，每次迭代包含50个准备好的<

浏览 7提问于2016-12-19得票数 3

回答已采纳

1回答

分布式训练是否产生在每个分布节点内训练的平均NNs神经网络？

、、、、

我越深入研究这些材料，我就越觉得每一个分布式神经网络训练算法都只是一种结合分布式节点(通常使用平均值)产生的梯度与执行环境的约束(即网络拓扑结构、节点性能相等、.)之间的梯度的一种方法。因此，如果我们只是以某种巧妙的方式将梯度和分布式训练结合起来，那么整个过程训练就相当于每个分布式节点内的训练所产生的网络平均。如果我对上面描述的事情是正确的，那么

浏览 0提问于2019-06-30得票数 0

回答已采纳

2回答

如何计算RNN/LSTM中的损耗？

、、

我正在通过练习时间序列训练数据来学习LSTM的工作原理(输入是一个特性列表，输出是一个标量)。在计算RNN/LSTM的损失时，我无法理解一个问题：损失是如何计算的？它是在每次我给出nn新输入时计算的，还是通过所有给定的输入进行累加，然后被备份？

浏览 0提问于2018-03-27得票数 4

回答已采纳

1回答

针对ML初学者的MNIST教程错误

我认为这部分不准确：我可能错了，但这不应该改变吗？

浏览 4提问于2016-08-15得票数 0

1回答

如何分发小批量kmeans (scikit-learn)的处理？

、、、

MBK比KMeans更快，但在大样本集上，我们希望它将处理分布在多处理(或其他并行处理库)上。 MKB的部分拟合是答案吗？

浏览 0提问于2013-06-12得票数 6

1回答

如何在TensorFlow中计算子梯度？

、

TensorFlow中的自动微分过程是否在需要时计算次梯度？如果有许多子梯度，那么将选择哪一个作为输出？我在急切模式下使用TensorFlow (v1.12)对模型进行编程，并使用自动微分来计算梯度。每批处理后，我可以看到梯度值发生变化，精度略有提高。一段时间后，它会减少，这个过程会继续下去。小批量: 256,512,1024；正则化参数- 0.1，0.01，0.001；学习率- 0.1，0.01，0.001；优化函数-梯度下降，ad

浏览 21提问于2019-04-02得票数 0

回答已采纳

2回答

小批量比批量梯度下降性能差吗？

、

我可以从批量梯度下降(批量大小为37000)获得相当好的结果，但当我尝试小批量梯度下降时，我得到了非常差的结果(即使使用adam和dropout)。在批处理gd中，我能够获得100%的训练和97%的dev/cv准确率。然而，在128号的小批量中，我在这两种情况下的准确率都只有88%左右。训练损失似乎在1.6%左右，并且不会随着任何进一步的迭代而减少，但当我增加批量大小(从而提高精度).An

浏览 31提问于2020-07-11得票数 1

1回答

初始网络BatchNorm层返回无梯度

、

嗨，我正在尝试用自定义的损失函数来微调初始网络。这是一个三重损失函数。added by me return loss 注意:值param是softmax之前logits层的输出当我计算梯度时，我发现BatchNorm/moving_variance和BatchNorm/moving_variance没有梯度。为什么它返回无梯度值？通过可视化，我发现没有数据流从loss到

浏览 1提问于2017-09-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在小批量上累积损失，然后计算梯度