首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >训练yolov5会导致CUDNN_STATUS_NOT_INITIALIZED错误

训练yolov5会导致CUDNN_STATUS_NOT_INITIALIZED错误
EN

Stack Overflow用户
提问于 2021-03-08 10:38:20
回答 3查看 627关注 0票数 2

我在跟踪本指南而没有改变任何东西。我正在使用aws服务器和深度学习ami:深度学习AMI (Ubuntu18.04)版本40.0

我尝试将我的自定义数据集更改为coco数据集,并将其更改为自定义数据集的一个小子集。批量大小似乎并不重要,数据自动化系统和其他驱动程序似乎有效。

当批处理启动培训过程时,会引发异常。这是完整的堆栈跟踪:

代码语言:javascript
运行
复制
Logging results to runs/train/exp66
Starting training for 5 epochs...

     Epoch   gpu_mem       box       obj       cls     total   targets  img_size
  0%|                                                                                                                                                                                                                 | 0/22 [00:00<?, ?it/s]
Traceback (most recent call last):
  File "train.py", line 533, in <module>
    train(hyp, opt, device, tb_writer, wandb)
  File "train.py", line 298, in train
    pred = model(imgs)  # forward
  File "/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/home/ubuntu/yolov5/models/yolo.py", line 121, in forward
    return self.forward_once(x, profile)  # single-scale inference, train
  File "/home/ubuntu/yolov5/models/yolo.py", line 137, in forward_once
    x = m(x)  # run
  File "/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/home/ubuntu/yolov5/models/common.py", line 113, in forward
    return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))
  File "/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/home/ubuntu/yolov5/models/common.py", line 38, in forward
    return self.act(self.bn(self.conv(x)))
  File "/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.8/site-packages/torch/nn/modules/conv.py", line 399, in forward
    return self._conv_forward(input, self.weight, self.bias)
  File "/usr/local/lib/python3.8/site-packages/torch/nn/modules/conv.py", line 395, in _conv_forward
    return F.conv2d(input, weight, bias, self.stride,
RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED
EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2021-03-08 12:29:05

我用conda对它进行了修复,我克隆了与图像一起出现的pytorch环境,它工作得很完美。但我还是不知道原因。

票数 0
EN

Stack Overflow用户

发布于 2021-03-18 08:24:40

我不知道为什么,但似乎火炬1.8是建立在旧版本的库达。同样,由于Py手电筒有自己的cuda,它似乎不关心您的机器上有什么版本。改变火炬版本(并匹配兼容的视觉)解决了我的问题。

就我而言,我所做的如下:

  1. 更改了“requirements.txt”中的两行:

torch==1.7.1

torchvision==0.8.2

  1. 使用python=3.8创建新的conda环境
  2. 激活环境
  3. 根据修改后的文件安装的要求:

$ pip安装-r requirements.txt

希望能对某人有所帮助:)

票数 1
EN

Stack Overflow用户

发布于 2021-06-21 06:03:51

当我尝试在脚本中训练yolov5时,我遇到了类似的情况。我发现升级到torch==1.9.0和torchvision==0.10.0也有效(如果您不想像上面提到的那样降级)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66528261

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档