link-web@知乎
https://zhuanlan.zhihu.com/p/86441879
编辑 极市平台
以下都在Ubuntu上面进行的调试, 使用的Ubuntu版本包括14, 18LST
1.单机多卡并行训练...0和第3编号的GPU, 那么只需要在程序中设置:
os.environ['CUDA_VISIBLE_DEVICES'] = '0,3'
但是要注意的是, 这个参数的设定要保证在模型加载到gpu上之前,...而且DistributedDataParallel功能更加强悍, 例如分布式的模型(一个模型太大, 以至于无法放到一个GPU上运行, 需要分开到多个GPU上面执行)...., 然后才能使用DistributedDataParallel进行分发, 之后的使用和DataParallel就基本一样了
2.多机多gpu训练
在单机多gpu可以满足的情况下, 绝对不建议使用多机多gpu...根据官网的介绍, 如果是使用cpu的分布式计算, 建议使用gloo, 因为表中可以看到 gloo对cpu的支持是最好的, 然后如果使用gpu进行分布式计算, 建议使用nccl, 实际测试中我也感觉到,