910B使用的是单轨接入,单台测试HCCL实际是测试的机内HCCS的带宽,延迟。在多机情况下就需要通过ROCE交换机来互联,后面训练和推理的瓶颈也就在这里。
mpirun -f hostfile.2 -n 16 ./bin/all_reduce_test -p 8 -b 1G -e 1G
mpirun -f hostfile.4 -n 32 ./bin/all_reduce_test -p 8 -b 1G -e 1G
四台互联后HCCL测试带宽有所下降。
本文分享自 算力网络探索 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!