前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2021-4-28

2021-4-28

原创
作者头像
Hi0703
修改于 2021-04-29 02:24:29
修改于 2021-04-29 02:24:29
9380
举报
文章被收录于专栏:Hi0703Hi0703

1. Python中.format()常见的用法:

format()后面的内容,填入大括号中(可以按位置,或者按变量);

format():把传统的%替换为{}来实现格式化输出。

详细见:https://www.cnblogs.com/jc-home/p/11630710.html

2. 神经网络模型(Backbone):

自己搭建神经网络时,一般都采用已有的网络模型,在其基础上进行修改。从2012年的AlexNet出现,如今已经出现许多优秀的网络模型,如下图所示。 主要有三个发展方向:

Deeper:网络层数更深,代表网络VggNet

Module: 采用模块化的网络结构(Inception),代表网络GoogleNet

Faster: 轻量级网络模型,适合于移动端设备,代表网络MobileNet和ShuffleNet

Functional: 功能型网络,针对特定使用场景而发展出来。如检测模型YOLO,Faster RCNN;分割模型FCN, UNet

具体介绍:https://www.cnblogs.com/silence-cho/p/11620863.html

3. del是python关键字,就像def、and、or一样。它不是字典、列表的方法,但是可以用来删除字典、列表的元素。

4. from module import name,python种的模块、库、包

5. on.environ获取系统的各种信息

6. NCCL_IB_DISABLE是什么?参考:https://baijiahao.baidu.com/s?id=1581386178946489641&wfr=spider&for=pc

NCCL是什么?NVIDIA/nccl(https://github.com/NVIDIA/nccl)

Nvidia英伟达的Multi-GPU多卡通信框架NCCL。NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-gather, reduce, broadcast)库,Nvidia做了很多优化,以在PCIe、Nvlink、InfiniBand上实现较高的通信速度。

深度学习中常常需要多GPU并行训练,而Nvidia的NCCL库在各大深度学习框架(Caffe/Tensorflow/Torch/Theano)的多卡并行中经常被使用。

NCCL的性能参数

https://blog.csdn.net/yunlianglinfeng/article/details/105088324

NCCL_IB_DISABLE为1时禁止使用ib设备

7. Gloo-项目地址:https://github.com/facebookincubator/gloo

是一个类似MPI的通信库,你不需要考虑内存数据的拷贝,只需要实现逻辑就可以。

初始化

torch.distributed.init_process_group(backend, init_method='env://', **kwargs)

参数说明:

backend(str): 后端选择,包括上面那几种 tcp mpi gloo

init_method(str,optional): 用来初始化包的URL我理解是一个用来做并发控制的共享方式

world_size(int, optional):参与这个工作的进程数

rank(int,optional): 当前进程的rank

group_name(str,optional): 用来标记这组进程名的

参考:https://blog.csdn.net/u010557442/article/details/79431520

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Pytorch 分布式训练
即进程组。默认情况下,只有一个组,一个 job 即为一个组,也即一个 world。
肉松
2020/09/07
2.5K0
Pytorch 分布式训练
torch.distributed.init_process_group()
torch.distributed.init_process_group(backend, init_method=None, timeout=datetime.timedelta(0, 1800), world_size=-1, rank=-1, store=None, group_name='')[source]
狼啸风云
2020/05/09
6.9K0
【教程】PyTorch多机多卡分布式训练的参数说明 | 附通用启动脚本
🔹 2. --nproc_per_node(Processes Per Node)
小锋学长生活大爆炸
2025/04/18
9140
[源码解析] PyTorch 分布式(4)------分布式应用基础概念
本文以 PyTorch 官方文档 https://pytorch.org/tutorials/intermediate/dist_tuto.html 为基础,对如何编写分布式进行了介绍,并且加上了自己的理解。
罗西的思考
2021/11/16
2.8K1
[源码解析] PyTorch 分布式(4)------分布式应用基础概念
[源码解析] PyTorch 分布式(7) ----- DistributedDataParallel 之进程组
关于分布式通信,PyTorch 提供的几个概念是:进程组,后端,初始化,Store。
罗西的思考
2021/11/24
1.9K0
[源码解析] PyTorch 分布式(7) ----- DistributedDataParallel 之进程组
PyTorch分布式训练简介
分布式训练已经成为如今训练深度学习模型的一个必备工具,但pytorch默认使用单个GPU进行训练,如果想用使用多个GPU乃至多个含有多块GPU的节点进行分布式训练的时候,需要在代码当中进行修改,这里总结一下几种使用pytorch进行分布式训练的方式。
狼啸风云
2020/02/13
5K0
Pytorch Distributed 初始化
https://pytorch.org/docs/master/distributed.html 初始化
狼啸风云
2020/02/13
1.6K0
【知识】torchrun 与 torch.multiprocessing.spawn 的对比
torchrun 和 torch.multiprocessing.spawn 都是在 PyTorch 中用于并行化和分布式训练的工具,但它们在使用场景和实现方式上有所不同。
小锋学长生活大爆炸
2025/04/09
1840
PyTorch多GPU并行训练方法及问题整理
以下都在Ubuntu上面进行的调试, 使用的Ubuntu版本包括14, 18LST
公众号机器学习与AI生成创作
2020/09/14
15K0
PyTorch多GPU并行训练方法及问题整理
class torch.nn.parallel.DistributedDataParallel()
torch.nn.parallel.DistributedDataParallel(module, device_ids=None, output_device=None, dim=0, broadcast_buffers=True, process_group=None, bucket_cap_mb=25, find_unused_parameters=False, check_reduction=False)[source]
狼啸风云
2020/05/11
1.9K0
[源码解析] PyTorch分布式(6) -------- DistributedDataParallel -- 初始化&store
本文是 PyTorch 分布式系列的第六篇, 介绍 DistributedDataParallel 所依赖的初始化方法和Store这两个概念。
罗西的思考
2021/11/22
1.3K0
[源码解析] PyTorch分布式(6) -------- DistributedDataParallel -- 初始化&store
Pytorch 分布式模式介绍
数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多GPU的分布式训练。
狼啸风云
2020/02/13
5.3K1
分布式深度学习最佳入门(踩坑)指南
本文主要介绍了分布式深度学习的各框架以及一些分布式深度学习训练中的常见问题,如:docker及ssh环境问题、nccl多机通信问题等。
计算机视觉
2021/01/14
3.6K0
分布式深度学习最佳入门(踩坑)指南
[源码解析] PyTorch 分布式(1)------历史和概述
本文主要在对PyTorch官方文档的翻译之上加入了自己的理解,希望给大家一个PyTorch分布式的历史脉络和基本概念,有兴趣的朋友可以仔细研究一下历史,看看一个机器学习系统如何一步一步进入分布式世界 / 完善其功能。
罗西的思考
2021/11/04
1.4K0
深入理解Pytorch中的分布式训练
作者:台运鹏 (正在寻找internship...) 主页:https://yunpengtai.top
zenRRan
2023/01/12
1.4K0
深入理解Pytorch中的分布式训练
【他山之石】“最全PyTorch分布式教程”来了!
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
马上科普尚尚
2020/12/15
3.3K0
【他山之石】“最全PyTorch分布式教程”来了!
nccl-test 使用指引
nccl-test 工具是 nvidia 开源的一项用于测试 NCCL 集合通信的工具。可以用于检测集合通信是否正常、压测集合通信速率。官方开源地址:https://github.com/NVIDIA/nccl-tests
quincyhu
2023/11/21
20.3K3
[源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么
Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架,在业界得到了广泛应用。
罗西的思考
2021/06/17
3.7K0
[源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么
Pytorch中多GPU训练指北
在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情。Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用Pytorch多GPU训练的方式以及一些注意的地方。
老潘
2023/10/19
1.8K0
Pytorch中多GPU训练指北
cuDNN和NCCL
在Training方面比较重要的库是cuDNN。cuDNN是深度学习基础模块加速库,可以支持所有主流的深度学习框架,比如Caffe、Tensorflow、CNTK、Theano、PyTorch等,这些基础模块指的是深度学习框架中常用的一些layer(神经网络层)操作,比如卷积、LSTM、全连接、Pooling(池化层)等。那么cuDNN的优势有什么呢?首先它将layer专门针对GPU进行了性能调优;第二是cuDNN以调用库函数的方式进行神经网络设计,能够大大节省开发者的时间,让大家可以将时间和精力集中在
GPUS Lady
2018/04/02
4.7K0
cuDNN和NCCL
相关推荐
Pytorch 分布式训练
更多 >
LV.1
这个人很懒,什么都没有留下~
作者相关精选
加入讨论
的问答专区 >
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档