我使用多个GPU训练网络的经验有限,所以我对数据并行化过程的工作方式有点不确定。假设我使用的模型和批处理大小需要20-25GB的内存。有什么方法可以利用我在两个16 to V100s之间的全部32 to内存吗?PyTorch的DataParallel功能会实现这一点吗?我认为,也有可能打破模型,并使用模型并行。谢谢您的帮助或澄清!
我有一个带有2 V100s的VM,我正在使用Huggingface的非常好的训练器API来训练类似gpt2 2的模型(相同的架构,更少的层)。我用的是火把后端。我观察到,当我用完全相同的数据和TrainingArguments训练完全相同的模型(6层,~82M参数)时,单次GPU训练的速度明显快于2GPU:~5h vs ~6.5h。:
$ nvidia-smi t
Your GPU may not be supported, or your graphics drivers may need to be updated消息。有没有办法模拟GPU驱动程序,或者有人给我一个提示?
这个VServer与OpenVZ 7一起运行,但我租用了它,所以我无法访问虚拟化软件的设置。