GPU服务器:Tesla T4(显存16G)
CPU:20核80G
操作系统:ubuntu18.04
系统盘:100G硬盘
sudo apt-get purge nvidia*
sudo apt-get autoremove
创建并编辑文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
禁用
blacklist nouveau
options nouveau modeset=0
ONBOOT=yes
/etc/sysconfig/network-scripts/ifcfg-eth0的配置文件中,ONBOOT=yes必须设置,这样可以保证系统重启时进行ssh连接时,网络服务也会自启动,否则会导致网络不通。
重启
sudo reboot
通过网址查看对应版本,并下载对应显卡驱动
https://www.nvidia.cn/Download/index.aspx?lang=cn
使用 wget 命令,下载
wget 驱动网址
修改权限
chmod +x NVIDIA-Linux-x86_64-xxxx.run
关于失败报错问题
ERROR: Failed to find dkms on the system!
ERROR: Failed to install the kernel module through DKMS. No kernel module was
installed; please try installing again without DKMS, or check the DKMS
logs for more information.
ERROR: Installation has failed. Please see the file
'/var/log/nvidia-installer.log' for details. You may find suggestions on
fixing installation problems in the README available on the Linux driver
download page at www.nvidia.com.
解决办法
sudo apt-get install dkms
# 查看版本号
cd /usr/src
ls
# 重新生成对应驱动模块
sudo dkms install -m nvidia -v xxx(版本号)
利用nvidia-smi 检查
成功!
nvidia-smi查看已显示cuda版本,为防止后续出现问题,选取了相同版本下载
官网 https://developer.nvidia.com/
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run
添加环境变量并检查cuda安装版本
export PATH=$PATH:/usr/local/cuda/bin #添加环境变量
nvcc -V #检查CUDA版本
多个cuDNN切换
查看安装位置
cd /usr/local/
stat cuda
建立连接(xxx代表版本号)
sudo rm -rf cuda
sudo ln -s /usr/local/cuda-xxx /usr/local/cuda
下载对应版本cuDNN https://developer.nvidia.com/
(注意关于ubuntu三项均需下载)
安装
cd 文件夹
sudo dpkg -i cudnn文件
测试cudnn是否安装成功
cp -r /usr/src/cudnn_samples_v7/ /home/wdong/
cd /home/wdong/cudnn_samples_v7/mnistCUDNN
make clean && make
./mnistCUDNN
出现 Test passed!成功
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。