我的NN是一个具有两个图形卷积层的GCN,我在一个服务器上运行代码,服务器上有几个10 GB的Nvidia P 102-100 GPU。已将batch_size设置为1,但没有发生任何更改。此外,我也在使用木星笔记本,而不是使用命令运行python脚本,因为在命令行中,我甚至不能运行一次.顺便问一下,有人知道为什么在命令行中弹出OOM时,某些代码可以在木星上运行而没有问题吗?还试图设置ML_Engine的答案中提到的镜像策略,但是看起来GPU中的一个占用最多,而OOM仍然出现。也许它是一种“数据并行”,因为我已经将batc
最近,我对将分布式培训整合到我的Tensorflow项目中产生了兴趣。我正在使用Google Colab和Python3来实现一个带有定制的、分布式的训练循环的神经网络,如本指南中所述:
在“创建分发变量和图形策略”部分的指南中,有一些代码的图片,这些代码基本上设置了一个据我所知,输出表明MirroredStrategy只创建了模型的一个副本,因此,只有一个GPU将用于训练模型。我的问题是: Google Colab是否仅限于在单个GPU上进行
我想知道设置创建/训练模型的设备以优化资源使用的正确方法是什么,以便使用Keras在TensorFlow中进行快速培训?我有1个CPU和2个GPU可供我使用。最初,我使用tf.device上下文来创建模型并仅在CPU上进行培训,但后来我在TensorFlow文档中看到了,它们建议在CPU上显式实例化模型:# so that the mo