使用多个GPU和tensorflow.slim.learning进行分布式培训

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

0回答

、

我知道TensorFlow支持分布式训练。--model_name=vgg_19 \--max_number_of_steps=100 如何在不同的主机上使用多个GPU？

浏览 6提问于2017-11-29得票数 1

1回答

当使用TF2 (oibject检测API)时，多个GPU会允许更大的模型和批处理大小吗？

、、、

我使用的TF2研究对象检测API与官方模型动物园的模型。然而，当我试图训练一个大型模型(例如，一个更大的有效网络模型)和/或当我想使用一个较大的批处理大小(例如> 32)时，我就耗尽了GPU内存。现在我想租一些云GPU或者用第二个GPU升级我的本地硬件。其想法是在多个GPU上训练TF2模型。不过，在我花这笔钱之前，我想知道这是否能解决我的问题。因此，当一个人在多个GPU上训练一个TF2模型(通过对象检

浏览 3提问于2021-03-08得票数 0

回答已采纳

2回答

如何用多个GPU训练电筒模型？

、、

我的服务器有两个GPU，我如何使用两个GPU同时进行训练，以最大限度地利用它们的计算能力？下面的代码正确吗？它能让我的模特接受适当的训练吗？

浏览 5提问于2022-08-07得票数 3

回答已采纳

1回答

多设备列车

、、

我知道TensorFlow提供分布式培训API，可以在多个设备上进行培训，如多个GPU、CPU、TPUs或多台计算机(工人)，请遵循以下文档：。但是，我有一个问题，这是否有可能分割列车使用数据并行训练跨多台机器(包括移动设备和计算机设备)？如果你有任何的指导/指导，我将非常感激。

浏览 3提问于2020-04-10得票数 1

回答已采纳

1回答

Google是否只支持分布式Tensorflow，用于多个GPU培训工作？

、、

我想在Cloud上使用多个GPU运行一个Tensorflow应用程序。我的Tensorflow应用程序是用非分布式范例编写的，概述了。据我所知，如果我想使用Cloud来运行同一个应用程序，使用多个GPU，那么应用程序必须使用自定义规模层，我需要设置参数服务器，工作服务器，这似乎是一个分布式的-tensorflow范例。这是在Cloud上运行多个GPU培训作业的唯

浏览 4提问于2017-10-06得票数 0

回答已采纳

1回答

CNTK:从numpy数组创建用于多GPU培训的MinibatchSource

、、、

我的预处理图像数据在numpy数组中，我的脚本在的单个GPU上工作得很好。据我所知，我们需要为多个GPU培训创建。我正在检查这个示例()以进行分布式培训，但是它使用的是*_map.txt，它基本上是图像文件(例如)的路径列表。(巴布亚新几内亚)。

浏览 1提问于2017-03-31得票数 3

回答已采纳

2回答

Kubernetes GPU吊舱/Kubeflow

我可以成功地创建一个带有4个GPU的木星笔记本服务器，并在其上使用keras模型，一切都很好。我可以使用8 gpu (4来自一台服务器，4来自另一台服务器)来创建jupyter笔记本服务器或运行任何gpupod，或者只有4对于一个gpupod是可以为我？当我尝试使用8个GPU时，我得到了0/2 nodes are available: 2 Insufficient nvidia.com/gpu

浏览 0提问于2020-04-10得票数 0

回答已采纳

1回答

使用GPU Spot实例进行SageMaker分布式训练？

、、、、

我有一个要求，使用N1xGPU Spot实例，而不是1xN-GPU实例的分布式培训。 SageMaker分布式培训是否支持GPU Spot实例的使用？如果是，如何启用？

浏览 10提问于2022-09-11得票数 0

1回答

使用多GPU方法的tensorflow分布式训练混合

、、、、

在尝试了当前的分布式训练实现后，我认为它将每个GPU视为一个单独的worker.However，现在在一个盒子中有2~4个GPU是很常见的。采用单盒多GPU方法首先计算单盒中的平均梯度，然后跨多个节点同步，不是更好吗？这种方式大大减轻了I/O流量，而I/O流量一直是数据并行性的瓶颈。有人告诉我，在目前的实现中，可以通过将所有GPU放在一个盒子中作为工作程序，但我无法弄清楚如何将平均梯度与SyncReplicasOptimizer联系起来，因为SyncReplicasO

浏览 14提问于2016-09-20得票数 0

1回答

SageMaker多节点点支持的GPU训练是反模式的吗？

、、

在SageMaker上进行支持多节点的分布式GPU培训是一种反模式吗？Sagemaker不支持可变大小集群的事实此外，EC2-Spot文档阻止用户在多节点工作流中使用Spot，其中节点紧密耦合(在数据并行和模型并行培训中就是这种情况)“Spot实例不适合于不灵活这里有谁有过在SageMaker上进行现场支持的分布式GPU培训的经验？

浏览 7提问于2022-10-15得票数 0

1回答

图像.分类.传递-学习技巧

当我尝试用Sagemaker进行图像分类时，我遇到了这样的错误： ClientError: An error occurred (ValidationException) when calling the

浏览 0提问于2018-09-16得票数 0

1回答

对默认SageMaker分发策略的澄清

、、

Context：在使用SageMaker分布式培训时:假设在训练网络时，我不提供任何分布参数(将其保持为默认值)，而是在估计器中为instance_count值提供2个实例(可以是任何基于深度学习的估计器在这种情况下，是否会进行任何分布式培训？如果是的话，默认使用什么策略？注意到：我可以看到这两个实例的GPU都在积极使用，但是我想知道默认情况下会发生什么样的分布式培训？

浏览 6提问于2022-11-28得票数 0

1回答

在tensorflow (训练GCN)中如何求解“shape[XXX]分配张量时的OOM”

、、、、

我的NN是一个具有两个图形卷积层的GCN，我在一个服务器上运行代码，服务器上有几个10 GB的Nvidia P 102-100 GPU。已将batch_size设置为1，但没有发生任何更改。此外，我也在使用木星笔记本，而不是使用命令运行python脚本，因为在命令行中，我甚至不能运行一次.顺便问一下，有人知道为什么在命令行中弹出OOM时，某些代码可以在木星上运行而没有问题吗？还试图设置ML_Engine的答案中提到的镜像策略，但是看起来GPU中的一个占用最多，而OOM仍然出现。也许它是一种“数据并行”，因为我已经将batc

浏览 3提问于2021-04-20得票数 0

回答已采纳

1回答

tensorflow对象检测支持分布式策略吗？

、

系统信息用于复

浏览 2提问于2018-12-05得票数 1

0回答

具有多个工人的ML engine上的Keras模型训练

我已经构建了一个语义分割Keras (tensorflow后端)模型，并试图在google cloud ml引擎上对其进行训练。当我只使用complex_model_m_gpu类型的主设备时，1个纪元几乎要花25个小时。我不确定Keras模型如何适应多GPU训练设备(例如，complex_model_m_gpu)。没有关于这方面的文档，只有关于分布式TensorFlow培训的文档。我如何最好地利用ML engine上的可用资源来快速训练我的模型？使用

浏览 11提问于2018-07-18得票数 2

1回答

在Google Colab中使用多个GPU的Tensorflow中的分布式训练

、、、

最近，我对将分布式培训整合到我的Tensorflow项目中产生了兴趣。我正在使用Google Colab和Python3来实现一个带有定制的、分布式的训练循环的神经网络，如本指南中所述：在“创建分发变量和图形策略”部分的指南中，有一些代码的图片，这些代码基本上设置了一个据我所知，输出表明MirroredStrategy只创建了模型的一个副本，因此，只有一个GPU将用于训练模型。我的问题是: Google Colab是否仅限于在单个GPU上进行

浏览 8提问于2019-09-19得票数 5

1回答

为什么当我分配一个以上的GPU时，我的Tensorflow代码只使用一个GPU

、

我在网站上看到了一些注释，似乎Tensorflow会自动使用gpu，如果它是适用的，但我仍然不知道如何使用所有的gpu。代码只是一个深网络，需要使用model.fit()进行训练，然后使用model.predict()来预测测试数据。

浏览 0提问于2021-03-06得票数 2

1回答

在TensorFlow中分配GPU和CPU资源的最佳实践

、、、、

我想知道设置创建/训练模型的设备以优化资源使用的正确方法是什么，以便使用Keras在TensorFlow中进行快速培训？我有1个CPU和2个GPU可供我使用。最初，我使用tf.device上下文来创建模型并仅在CPU上进行培训，但后来我在TensorFlow文档中看到了，它们建议在CPU上显式实例化模型：# so that the mo

浏览 3提问于2019-11-27得票数 1

回答已采纳

1回答

分布式tensorflow:图内复制和图间复制的区别

、、

当我阅读tensorflow的官方“如何操作”中的In-graph replication和Between-graph replication时，我对这两个概念感到困惑。Edit_1:更多问题在Between-graph复制中有以下语句。中的示例是否支持多台机器上的培训，每台机器都有多个GPU？如果不是，我们是否可以同时使用In-graph replication来支持

浏览 3提问于2017-01-11得票数 23

回答已采纳

1回答

SageMaker对象检测支持分布式训练吗？

我想通过使用分布式训练来缩短使用SageMaker内置对象检测算法(实例计数> 1)的训练作业的时间。我试图通过将培训数据分割成多个RecordIO文件而不是仅仅一个文件来做到这一点。“在火车通道中找到多个RecordIO文件”此错误导致培训作业失败。目前只支持单个RecordIO文件。这使我相信，该算法不支持通过分布式训练来加快训练时间。我说的对吗？还是有其他方法可以利用多个培训实例来加快培训</e

浏览 2提问于2022-09-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云