我有一个使用分布式TensorFlow的计划,我看到TensorFlow可以使用GPU进行培训和测试。在集群环境中,每台机器都可能有0或1或更多的GPU,我希望在尽可能多的计算机上将TensorFlow图运行到GPU中。我发现在运行tf.Session()时,TensorFlow在日志消息中提供了有关GPU的信息,如下所示:
I tensorflow/core/common_runtime
我想在我的多图形处理器系统上使用tf.contrib.distribute.MirroredStrategy(),但它没有使用GPU进行训练(参见下面的输出)。另外,我正在运行tensorflow-gpu 1.12。 我确实尝试在MirroredStrategy中直接指定GPU,但同样的问题也出现了。but not used by distribute strategy: /device:GPU:0
INFO:tensorflow:Device is avai
如果使用来自multi_gpu_model的tensorflow.keras.utils,则tensorflow将在所有可用的gpu(例如2)上分配全部内存,但如果监视nvidia,则只使用第一个gpu我现在用的是tensorflow 1.12model = getSimpleCNN(... some parameters)
model .fit()正如预期的那样,数据由cpu加载,模型在gpu上运行,
我在多GPU机器上遇到了OOM,因为TF 2.3似乎只使用一个GPU来分配张量。tensorflow/core/framework/op_kernel.cc:1767] OP_REQUIRES failed at conv_ops.cc:539 : and type float on /job:localhost/replica:0/t
如果我有Peer access not supported between device ordinals,还可以在某种多gpu设置中运行培训吗?原始产出:
2017-05-10 15:27:54.360688: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access: I tensorflow/core/common_runtime/<e