前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPU云服务器ubuntu系统配置深度学习pytorch框架(一)

GPU云服务器ubuntu系统配置深度学习pytorch框架(一)

原创
作者头像
用户9697813
发布2022-05-30 21:49:52
1.9K0
发布2022-05-30 21:49:52
举报
文章被收录于专栏:配置环境

一、基础配置

GPU服务器:Tesla T4(显存16G)

CPU:20核80G

操作系统:ubuntu18.04

系统盘:100G硬盘

二、环境配置

1)安装显卡驱动

1.删除原有驱动

代码语言:javascript
复制
sudo apt-get purge nvidia*
sudo apt-get autoremove

2.禁用noveau

创建并编辑文件

代码语言:javascript
复制
sudo vim /etc/modprobe.d/blacklist-nouveau.conf

禁用

代码语言:javascript
复制
blacklist nouveau
options nouveau modeset=0
ONBOOT=yes

/etc/sysconfig/network-scripts/ifcfg-eth0的配置文件中,ONBOOT=yes必须设置,这样可以保证系统重启时进行ssh连接时,网络服务也会自启动,否则会导致网络不通。

重启

代码语言:javascript
复制
sudo reboot

3.安装指定版本驱动

通过网址查看对应版本,并下载对应显卡驱动

https://www.nvidia.cn/Download/index.aspx?lang=cn

使用 wget 命令,下载

代码语言:javascript
复制
wget 驱动网址

修改权限

代码语言:javascript
复制
chmod +x NVIDIA-Linux-x86_64-xxxx.run

关于失败报错问题

代码语言:javascript
复制
ERROR: Failed to find dkms on the system!


ERROR: Failed to install the kernel module through DKMS. No kernel module was
       installed; please try installing again without DKMS, or check the DKMS
       logs for more information.


ERROR: Installation has failed.  Please see the file
       '/var/log/nvidia-installer.log' for details.  You may find suggestions on
       fixing installation problems in the README available on the Linux driver
       download page at www.nvidia.com.

解决办法

代码语言:javascript
复制
sudo apt-get install dkms
# 查看版本号
cd /usr/src 
ls
# 重新生成对应驱动模块
sudo dkms install -m nvidia -v xxx(版本号)

利用nvidia-smi 检查

成功!

2)CUDA和cuDNN

1.安装CUDA

nvidia-smi查看已显示cuda版本,为防止后续出现问题,选取了相同版本下载

官网 https://developer.nvidia.com/

代码语言:javascript
复制
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run

添加环境变量并检查cuda安装版本

代码语言:javascript
复制
export PATH=$PATH:/usr/local/cuda/bin  #添加环境变量
nvcc -V  #检查CUDA版本

多个cuDNN切换

查看安装位置

代码语言:javascript
复制
cd /usr/local/
stat cuda

建立连接(xxx代表版本号)

代码语言:javascript
复制
sudo rm -rf cuda
sudo ln -s /usr/local/cuda-xxx /usr/local/cuda

2.安装cuDNN

下载对应版本cuDNN https://developer.nvidia.com/

(注意关于ubuntu三项均需下载)

安装

代码语言:javascript
复制
cd 文件夹
sudo dpkg -i cudnn文件

测试cudnn是否安装成功

代码语言:javascript
复制
cp -r /usr/src/cudnn_samples_v7/ /home/wdong/
cd /home/wdong/cudnn_samples_v7/mnistCUDNN
make clean && make
./mnistCUDNN

出现 Test passed!成功

3.conda

4.torch环境

5.库导入环境迁移

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、基础配置
  • 二、环境配置
    • 1)安装显卡驱动
      • 1.删除原有驱动
      • 2.禁用noveau
      • 3.安装指定版本驱动
    • 2)CUDA和cuDNN
      • 1.安装CUDA
      • 2.安装cuDNN
    • 3.conda
      • 4.torch环境
        • 5.库导入环境迁移
        相关产品与服务
        云服务器
        云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档