link-web@知乎
https://zhuanlan.zhihu.com/p/86441879
编辑 极市平台
以下都在Ubuntu上面进行的调试, 使用的Ubuntu版本包括14, 18LST
1.单机多卡并行训练..., 然后才能使用DistributedDataParallel进行分发, 之后的使用和DataParallel就基本一样了
2.多机多gpu训练
在单机多gpu可以满足的情况下, 绝对不建议使用多机多gpu...我看一个github上面的人说在单机8显卡可以满足的情况下, 最好不要进行多机多卡训练。
建议看这两份代码, 实际运行一下, 才会真的理解怎么使用。...在进行多机多gpu进行训练的时候, 需要先使用torch.distributed.init_process_group()进行初始化. torch.distributed.init_process_group...使用这些的意图是, 让不同节点的机器加载自己本地的数据进行训练, 也就是说进行多机多卡训练的时候, 不再是从主节点分发数据到各个从节点, 而是各个从节点自己从自己的硬盘上读取数据.