Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >高性能PyTorch是如何炼成的?过来人吐血整理的10条避坑指南

高性能PyTorch是如何炼成的?过来人吐血整理的10条避坑指南

作者头像
CDA数据分析师
发布于 2020-06-29 08:40:14
发布于 2020-06-29 08:40:14
46200
代码可运行
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师
运行总次数:0
代码可运行

作者:Eugene Khvedchenya

机器之心编译

参与:小舟、蛋酱、魔王

高性能 PyTorch 的训练管道是什么样的?是产生最高准确率的模型?是最快的运行速度?是易于理解和扩展?还是容易并行化?答案是,包括以上提到的所有。

如何用最少的精力,完成最高效的 PyTorch 训练?一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议

在 Efficient PyTorch 这一部分中,作者提供了一些识别和消除 I/O 和 CPU 瓶颈的技巧。第二部分阐述了一些高效张量运算的技巧,第三部分是在高效模型上的 debug 技巧。

在阅读这篇文章之前,你需要对 PyTorch 有一定程度的了解。

好吧,从最明显的一个开始:

建议 0:了解你代码中的瓶颈在哪里

命令行工具比如 nvidia-smi、htop、iotop、nvtop、py-spy、strace 等,应该成为你最好的伙伴。你的训练管道是否受 CPU 约束?IO 约束?GPU 约束?这些工具将帮你找到答案。

这些工具你可能从未听过,即使听过也可能没用过。没关系。如果你不立即使用它们也可以。只需记住,其他人可能正在用它们来训练模型,速度可能会比你快 5%、10%、15%-…… 最终可能会导致面向市场或者工作机会时候的不同结果。

数据预处理

几乎每个训练管道都以 Dataset 类开始。它负责提供数据样本。任何必要的数据转换和扩充都可能在此进行。简而言之,Dataset 能报告其规模大小以及在给定索引时,给出数据样本。

如果你要处理类图像的数据(2D、3D 扫描),那么磁盘 I/O 可能会成为瓶颈。为了获取原始像素数据,你的代码需要从磁盘中读取数据并解码图像到内存。每个任务都是迅速的,但是当你需要尽快处理成百上千或者成千上万个任务时,可能就成了一个挑战。像 NVidia 这样的库会提供一个 GPU 加速的 JPEG 解码。如果你在数据处理管道中遇到了 IO 瓶颈,这种方法绝对值得一试。

还有另外一个选择,SSD 磁盘的访问时间约为 0.08–0.16 毫秒。RAM 的访问时间是纳秒级别的。我们可以直接将数据存入内存。

建议 1:如果可能的话,将数据的全部或部分移至 RAM。

如果你的内存中有足够多的 RAM 来加载和保存你的训练数据,这是从管道中排除最慢的数据检索步骤最简单的方法。

这个建议可能对云实例特别有用,比如亚马逊的 p3.8xlarge。该实例有 EBS 磁盘,它的性能在默认设置下非常受限。但是,该实例配备了惊人的 248Gb 的 RAM。这足够将整个 ImageNet 数据集存入内存了!你可以通过以下方法达到这一目标:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class RAMDataset(Dataset):
  def __init__(image_fnames, targets):
    self.targets = targets
    self.images = []
    for fname in tqdm(image_fnames, desc="Loading files in RAM"):
      with open(fname, "rb") as f:
        self.images.append(f.read())

  def __len__(self):
    return len(self.targets)

  def __getitem__(self, index):
    target = self.targets[index]
    image, retval = cv2.imdecode(self.images[index], cv2.IMREAD_COLOR)
    return image, target

我个人也面对过这个瓶颈问题。我有一台配有 4x1080Ti GPUs 的家用 PC。有一次,我采用了有 4 个 NVidia Tesla V100 的 p3.8xlarge 实例,然后将我的训练代码移到那里。鉴于 V100 比我的 oldie 1080Ti 更新更快的事实,我期待看到训练快 15–30%。出乎意料的是,每个时期的训练时间都增加了。这让我明白要注意基础设施和环境差异,而不仅仅是 CPU 和 GPU 的速度。

根据你的方案,你可以将每个文件的二进制内容保持不变,并在 RAM 中进行即时解码,或者对未压缩的图像进行讲解码,并保留原始像素。但是无论你采用什么方法,这里有第二条建议:

建议 2:解析、度量、比较。每次你在管道中提出任何改变,要深入地评估它全面的影响。

假设你对模型、超参数和数据集等没做任何改动,这条建议只关注训练速度。你可以设置一个魔术命令行参数(魔术开关),在指定该参数时,训练会在一些合理的数据样例上运行。利用这个特点,你可以迅速解析管道。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Profile CPU bottlenecks
python -m cProfile training_script.py --profiling

# Profile GPU bottlenecks
nvprof --print-gpu-trace python train_mnist.py

# Profile system calls bottlenecks
strace -fcT python training_script.py -e trace=open,close,read

Advice 3: *Preprocess everything offline*

建议 3:离线预处理所有内容

如果你要训练由多张 2048x2048 图像制成的 512x512 尺寸图像,请事先调整。如果你使用灰度图像作为模型的输入,请离线调整颜色。如果你正在进行自然语言处理(NLP),请事先做分词处理(tokenization),并存入磁盘。在训练期间一次次重复相同的操作没有意义。在进行渐进式学习时,你可以以多种分辨率保存训练数据的,这还是比线上调至目标分辨率更快。

对于表格数据,请考虑在创建 Dataset 时将 pd.DataFrame 目标转换为 PyTorch 张量。

建议 4:调整 DataLoader 的工作程序

PyTorch 使用一个 DataLoader 类来简化用于训练模型的批处理过程。为了加快速度,它可以使用 Python 中的多进程并行执行。大多数情况下,它可以直接使用。还有几点需要记住:

每个进程生成一批数据,这些批通过互斥锁同步可用于主进程。如果你有 N 个工作程序,那么你的脚本将需要 N 倍的 RAM 才能在系统内存中存储这些批次的数据。具体需要多少 RAM 呢?

我们来计算一下:

  1. 假设我们为 Cityscapes 训练图像分割模型,其批处理大小为 32,RGB 图像大小是 512x512x3(高、宽、通道)。我们在 CPU 端进行图像标准化(稍后我将会解释为什么这一点比较重要)。在这种情况下,我们最终的图像 tensor 将会是 512 * 512 * 3 * sizeof(float32) = 3,145,728 字节。与批处理大小相乘,结果是 100,663,296 字节,大约 100Mb;
  2. 除了图像之外,我们还需要提供 ground-truth 掩膜。它们各自的大小为(默认情况下,掩膜的类型是 long,8 个字节)——512 * 512 * 1 * 8 * 32 = 67,108,864 或者大约 67Mb;
  3. 因此一批数据所需要的总内存是 167Mb。假设有 8 个工作程序,内存的总需求量将是 167 Mb * 8 = 1,336 Mb。

听起来没有很糟糕,对吗?当你的硬件设置能够容纳提供 8 个以上的工作程序提供的更多批处理时,就会出现问题。或许可以天真地放置 64 个工作程序,但是这将消耗至少近 11Gb 的 RAM。

当你的数据是 3D 立体扫描时,情况会更糟糕。在这种情况下,512x512x512 单通道 volume 就会占 134Mb,批处理大小为 32 时,8 个工作程序将占 4.2Gb,仅仅是在内存中保存中间数据,你就需要 32Gb 的 RAM。

对于这个问题,有个能解决部分问题的方案——你可以尽可能地减少输入数据的通道深度:

  1. 将 RGB 图像保持在每个通道深度 8 位。可以轻松地在 GPU 上将图像转换为浮点形式或者标准化。
  2. 在数据集中用 uint8 或 uint16 数据类型代替 long。
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class MySegmentationDataset(Dataset):
  ...
  def __getitem__(self, index):
    image = cv2.imread(self.images[index])
    target = cv2.imread(self.masks[index])

    # No data normalization and type casting here
    return torch.from_numpy(image).permute(2,0,1).contiguous(),
           torch.from_numpy(target).permute(2,0,1).contiguous()

class Normalize(nn.Module):
    # https://github.com/BloodAxe/pytorch-toolbelt/blob/develop/pytorch_toolbelt/modules/normalize.py
    def __init__(self, mean, std):
        super().__init__()
        self.register_buffer("mean", torch.tensor(mean).float().reshape(1, len(mean), 1, 1).contiguous())
        self.register_buffer("std", torch.tensor(std).float().reshape(1, len(std), 1, 1).reciprocal().contiguous())

    def forward(self, input: torch.Tensor) -> torch.Tensor:
        return (input.to(self.mean.type) - self.mean) * self.std

class MySegmentationModel(nn.Module):
  def __init__(self):
    self.normalize = Normalize([0.221 * 255], [0.242 * 255])
    self.loss = nn.CrossEntropyLoss()

  def forward(self, image, target):
    image = self.normalize(image)
    output = self.backbone(image)

    if target is not None:
      loss = self.loss(output, target.long())
      return loss

    return output

通过这样做,会大大减少 RAM 的需求。对于上面的示例。用于高效存储数据表示的内存使用量将为每批 33Mb,而之前是 167Mb,减少为原来的五分之一。当然,这需要模型中添加额外的步骤来标准化数据或将数据转换为合适的数据类型。但是,张量越小,CPU 到 GPU 的传输就越快。

DataLoader 的工作程序的数量应该谨慎选择。你应该查看你的 CPU 和 IO 系统有多快,你有多少内存,GPU 处理数据有多快。

多 GPU 训练 & 推理

神经网络模型变得越来越大。今天,使用多个 GPU 来增加训练时间已成为一种趋势。幸运的是,它经常会提升模型性能来达到更大的批处理量。PyTorch 仅用几行代码就可以拥有运行多 GPU 的所有功能。但是,乍一看,有些注意事项并不明显。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
model = nn.DataParallel(model) # Runs model on all available GPUs

运行多 GPU 最简单的方法就是将模型封装在 nn.DataParallel 类中。除非你要训练图像分割模型(或任何生成大型张量作为输出的其他模型),否则大多数情况下效果不错。在正向推导结束时,nn.DataParallel 将收集主 GPU 上所有的 GPU 输出,来通过输出反向运行,并完成梯度更新。

于是,现在就有两个问题:

  • GPU 负载不平衡;
  • 在主 GPU 上聚合需要额外的视频内存

首先,只有主 GPU 能进行损耗计算、反向推导和渐变步骤,其他 GPU 则会在 60 摄氏度以下冷却,等待下一组数据。

其次,在主 GPU 上聚合所有输出所需的额外内存通常会促使你减小批处理的大小。nn.DataParallel 将批处理均匀地分配到多个 GPU。假设你有 4 个 GPU,批处理总大小为 32;然后,每个 GPU 将获得包含 8 个样本的块。但问题是,尽管所有的主 GPU 都可以轻松地将这些批处理放入对应的 VRAM 中,但主 GPU 必须分配额外的空间来容纳 32 个批处理大小,以用于其他卡的输出。

对于这种不均衡的 GPU 使用率,有两种解决方案:

  1. 在训练期间继续在前向推导内使用 nn.DataParallel 计算损耗。在这种情况下。za 不会将密集的预测掩码返回给主 GPU,而只会返回单个标量损失;
  2. 使用分布式训练,也称为 nn.DistributedDataParallel。借助分布式训练的另一个好处是可以看到 GPU 实现 100% 负载。

如果想了解更多,可以看看这三篇文章:

  • https://medium.com/huggingface/training-larger-batches-practical-tips-on-1-gpu-multi-gpu-distributed-setups-ec88c3e51255
  • https://medium.com/@theaccelerators/learn-pytorch-multi-gpu-properly-3eb976c030ee
  • https://towardsdatascience.com/how-to-scale-training-on-multiple-gpus-dae1041f49d2

建议 5: 如果你拥有两个及以上的 GPU

能节省多少时间很大程度上取决于你的方案,我观察到,在 4x1080Ti 上训练图像分类 pipeline 时,大概可以节约 20% 的时间。另外值得一提的是,你也可以用 nn.DataParallel 和 nn.DistributedDataParallel 来进行推断。

关于自定义损失函数

编写自定义损失函数是一项很有趣的练习,我建议大家都不时尝试一下。提到这种逻辑复杂的损失函数,你要牢记一件事:它们都在 CUDA 上运行,你应该会写「CUDA-efficient」代码。「CUDA-efficient」意味着「没有 Python 控制流」。在 CPU 和 GPU 之间来回切换,访问 GPU 张量的个别值也可以完成这些工作,但是性能表现会很差。

前段时间,我实现了一个自定义余弦嵌入损失函数,是从《Segmenting and tracking cell instances with cosine embeddings and recurrent hourglass networks》这篇论文中来的,从文本形式上看它非常简单,但实现起来却有些复杂。

我编写的第一个简单实现的时候,(除了 bug 之外)花了几分钟来计算单个批的损失值。为了分析 CUDA 瓶颈,PyTorch 提供了一个非常方便的内置分析器,非常简单好用,提供了解决代码瓶颈的所有信息:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def test_loss_profiling():
    loss = nn.BCEWithLogitsLoss()
    with torch.autograd.profiler.profile(use_cuda=True) as prof:
        input = torch.randn((8, 1, 128, 128)).cuda()
        input.requires_grad = True

        target = torch.randint(1, (8, 1, 128, 128)).cuda().float()

        for i in range(10):
            l = loss(input, target)
            l.backward()
    print(prof.key_averages().table(sort_by="self_cpu_time_total"))

建议 9: 如果设计自定义模块和损失——配置并测试他们

在对最初的实现进行性能分析之后,就能够提速 100 倍。关于在 PyTorch 中编写高效张量表达式的更多信息,将在 Efficient PyTorch — Part 2 进行说明。

时间 VS 金钱

最后但非常重要的一点,有时候投资功能更强大的硬件,比优化代码可能更有价值。软件优化始终是结果无法确定的高风险之旅,升级 CPU、RAM、GPU 或者同时升级以上硬件可能会更有效果。金钱和时间都是资源,二者的均衡利用是成功的关键。

通过硬件升级可以更轻松地解决某些瓶颈。

写在最后

懂得充分利用日常工具是提高熟练度的关键,尽量不要制造「捷径」,如果遇到不清楚的地方,请深入挖掘,总有机会发现新知识。正所谓「每日一省」:问问自己,我的代码还能改进吗?这种精益求精的信念和其他技能一样,都是计算机工程师之路的必备品。

原文链接:https://towardsdatascience.com/efficient-pytorch-part-1-fe40ed5db76c

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Pytorch中的分布式神经网络训练
随着深度学习的多项进步,复杂的网络(例如大型transformer 网络,更广更深的Resnet等)已经发展起来,从而需要了更大的内存空间。经常,在训练这些网络时,深度学习从业人员需要使用多个GPU来有效地训练它们。在本文中,我将向您介绍如何使用PyTorch在GPU集群上设置分布式神经网络训练。
deephub
2021/01/12
1.5K0
Pytorch中的分布式神经网络训练
独家|pytorch模型性能分析和优化
照片由 Torsten Dederichs 拍摄,上传到 Unsplash
数据派THU
2023/09/07
1.3K0
独家|pytorch模型性能分析和优化
Pytorch 多卡并行训练
DataParallel 使用起来非常方便,我们只需要用 DataParallel 包装模型,再设置一些参数即可。需要定义的参数包括:参与训练的 GPU 有哪些,device_ids=gpus;用于汇总梯度的 GPU 是哪个,output_device=gpus[0] 。DataParallel 会自动帮我们将数据切分 load 到相应 GPU,将模型复制到相应 GPU,进行正向传播计算梯度并汇总:
为为为什么
2022/08/09
4.2K0
Pytorch 多卡并行训练
PyTorch模型性能分析与优化
训练深度学习模型,尤其是大型模型,可能是一项昂贵的支出。我们可以使用的管理这些成本的主要方法之一是性能优化。性能优化是一个迭代过程,我们不断寻找提高应用程序性能的机会,然后利用这些机会。在之前的文章中(例如此处),我们强调了拥有适当工具来进行此分析的重要性。工具的选择可能取决于许多因素,包括训练加速器的类型(例如 GPU、HPU 或其他)和训练框架。
数据科学工厂
2023/09/06
4980
PyTorch模型性能分析与优化
PyTorch 模型性能分析和优化 - 第 2 部分
这是有关分析和优化在 GPU 上运行的 PyTorch 模型主题的系列文章的第二部分。在第一篇文章中,我们演示了使用 PyTorch Profiler 和 TensorBoard 迭代分析和优化 PyTorch 模型的过程以及巨大潜力。在这篇文章中,我们将重点关注 PyTorch 中由于使用急切执行而特别普遍的特定类型的性能问题:模型执行部分对 CPU 的依赖。识别此类问题的存在和根源可能非常困难,并且通常需要使用专用的性能分析器。在这篇文章[1]中,我们将分享一些在使用 PyTorch Profiler 和 PyTorch Profiler TensorBoard 插件时识别此类性能问题的技巧。
数据科学工厂
2023/09/06
6870
PyTorch 模型性能分析和优化 - 第 2 部分
pytorch中一些最基本函数和类
这些基本函数和类构成了PyTorch框架的基础,能够帮助用户高效地进行深度学习模型的构建和训练。此外,PyTorch还提供了丰富的API文档和教程,以供进一步学习和探索.
用户11315985
2024/10/16
4260
pytorch中一些最基本函数和类
最新翻译的官方 PyTorch 简易入门教程
https://github.com/fengdu78/machine_learning_beginner/tree/master/PyTorch_beginner
用户1737318
2019/11/19
1.6K0
最新翻译的官方 PyTorch 简易入门教程
Github项目推荐 | PyTorch代码规范最佳实践和样式指南
AI 科技评论按,本文不是 Python 的官方风格指南。本文总结了使用 PyTorch 框架进行深入学习的一年多经验中的最佳实践。本文分享的知识主要是以研究的角度来看的,它来源于一个开元的 github 项目。
AI科技评论
2019/05/14
2.3K0
《算力狂飙!万亿参数模型推理加速全攻略 》
家人们,如今 AI 界 “卷” 得那叫一个厉害,万亿参数模型如雨后春笋般不断涌现。这些模型虽然超级强大,但对算力的要求,简直就是 “无底洞”。想要让它们在实际应用中,又快又稳地运行,推理优化就成了关键!今天,小编就带着大家,一起探索万亿参数模型推理优化的秘籍,从混合精度计算到分布式显存调度,为大家奉上全链路加速指南!
小白的大数据之旅
2025/04/03
2040
《算力狂飙!万亿参数模型推理加速全攻略 》
PyTorch 实现数据并行的 BERT
在这篇文章里,我们要把 BERT(Bidirectional Encoder Representations from Transformers) 和 PyTorch 的数据并行(DataParallel) 这两位重量级选手拉到一起,手把手教你如何高效地在多张显卡上训练 BERT 模型。不管你是 PyTorch 小白,还是刚接触深度学习,这篇文章都能让你轻松理解它们的底层逻辑,并且学会如何在实际项目中使用它们。
繁依Fanyi
2025/03/28
2060
讲解pytorch 优化GPU显存占用,避免out of memory
在深度学习任务中,对于复杂的神经网络和大规模的训练数据,显存占用成为一个常见的问题。当我们的模型和数据超出GPU显存的限制时,就会出现"out of memory"的错误。为了解决这个问题,我们可以采取一些优化策略来降低显存的占用。
大盘鸡拌面
2023/12/26
7.4K0
Pytorch中的Distributed Data Parallel与混合精度训练(Apex)
Distributed data parallel training in Pytorchyangkky.github.io
磐创AI
2021/01/12
1.2K0
Pytorch中的Distributed Data Parallel与混合精度训练(Apex)
深度学习性能飙升的秘密——GPU优化的小窍门
大家好,我是Echo_Wish,这篇文章将和大家聊聊深度学习中一个不可或缺的话题:如何优化GPU的使用,让你的训练任务快如闪电。如果你也曾因训练模型太慢,望着进度条抓狂,那么接下来的内容可能会帮到你。本文用简单明了的语言,并结合代码实例,分享一些GPU优化的小窍门,让你的深度学习任务效率翻倍。
Echo_Wish
2025/03/31
3150
深度学习性能飙升的秘密——GPU优化的小窍门
点赞收藏:PyTorch常用代码段整理合集
PyTorch 将被安装在 anaconda3/lib/python3.7/site-packages/torch/目录下。
机器之心
2019/05/10
1.7K0
快速入门PyTorch(3)--训练一个图片分类器和多 GPUs 训练
这是快速入门 PyTorch 的第三篇教程也是最后一篇教程,这次将会在 CIFAR10 数据集上简单训练一个图片分类器,将会简单实现一个分类器从网络定义、数据处理和加载到训练网络模型,最后测试模型性能的流程。以及如何使用多 GPUs 训练网络模型。
kbsc13
2019/08/16
1.2K0
Transformer注解及PyTorch实现(下)
我们使用标准WMT 2014英语-德语数据集进行了训练,该数据集包含大约450万个句子对。使用字节对的编码方法对句子进行编码,该编码具有大约37000个词的共享源-目标词汇表。对于英语-法语,我们使用了WMT 2014 英语-法语数据集,该数据集由36M个句子组成,并将词分成32000个词片(Word-piece)的词汇表。
YoungTimes
2022/04/28
9910
Transformer注解及PyTorch实现(下)
最完整的PyTorch数据科学家指南(2)
因此,Conv2d图层需要使用Cin通道将高度为H且宽度为W的图像作为输入 。现在,对于卷积网络中的第一层,的数量in_channels将为3(RGB),并且out_channels用户可以定义数量。kernel_size大多采用3×3是,并且stride通常使用为1。
计算机与AI
2020/12/14
1.3K0
最完整的PyTorch数据科学家指南(2)
PyTorch 模型性能分析和优化 - 第 3 部分
这[1]是关于使用 PyTorch Profiler 和 TensorBoard 分析和优化 PyTorch 模型主题的系列文章的第三部分。我们的目的是强调基于 GPU 的训练工作负载的性能分析和优化的好处及其对训练速度和成本的潜在影响。特别是,我们希望向所有机器学习开发人员展示 PyTorch Profiler 和 TensorBoard 等分析工具的可访问性。您无需成为 CUDA 专家即可通过应用我们在帖子中讨论的技术获得有意义的性能提升。
数据科学工厂
2023/09/06
5690
PyTorch 模型性能分析和优化 - 第 3 部分
AI加速引擎PAI-TorchAcc-整体介绍与性能概述
在当今深度学习的快速发展中,模型训练和推理的效率变得尤为重要。为了应对计算需求不断增长的挑战,AI加速引擎应运而生。其中,PAI-TorchAcc作为一个新兴的加速引擎,旨在提升PyTorch框架下的计算性能。本文将详细介绍PAI-TorchAcc的基本概念、主要特性,并通过代码实例展示其性能优势。
一键难忘
2024/10/05
3070
教程 | PyTorch经验指南:技巧与陷阱
项目地址:https://github.com/Kaixhin/grokking-pytorch
机器之心
2018/08/07
1.6K0
教程 | PyTorch经验指南:技巧与陷阱
相关推荐
Pytorch中的分布式神经网络训练
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验