Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Linux下GPU云服务器安装 NVIDIA Tesla 驱动

Linux下GPU云服务器安装 NVIDIA Tesla 驱动

原创
作者头像
tinkerli
修改于 2020-01-06 03:21:58
修改于 2020-01-06 03:21:58
5.3K0
举报

背景介绍:

本篇介绍腾讯云环境GPU云服务器nvidia tesla驱动安装步骤。有很多腾讯云的使用者,在使用GPU服务器过程中,对驱动安装或者使用中有一些疑惑,比如系统kernel更新了,驱动失效了等问题。

驱动安装途径:

目前腾讯云环境下支持安装GPU驱动的方式如下:

  1. 使用预装 GPU 驱动的镜像,参考链接:https://cloud.tencent.com/document/product/560/30129
  2. 使用公共镜像的时候,支持后台自动安装GPU驱动。
  3. 自定义机器初始化,设置自定义数据来安装GPU驱动,https://cloud.tencent.com/document/product/213/17525
  4. 很多公司,有初始化流程或者配置流程平台,可以创建出干净环境的机器,后边自定义安装驱动。
  5. 目前官网控制台支持,后台自动安装GPU驱动,如下图:

安装驱动:

NVIDIA Telsa GPU 的 Linux 驱动在安装过程种需要编译 kernel module,所以要求系统安装好了 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。

  • 登录NVIDIA 驱动下载或打开链接 http://www.nvidia.com/Download/Find.aspx 。
  • 选择操作系统和安装包。以 P4 为例,搜寻驱动,然后选择要下载的驱动版本。

注意:操作系统选择 Linux 64-bit 代表下载的是 shell 安装文件,如果选择具体的发行版下载的文件则是对应的包安装文件。

  • 选择特定的版本跳转后,单击【DOWNLOAD】。
  • 再次跳转后,如有填写个人信息的页面可选择直接跳过,出现下面页面时,右击【AGREE&DOWNLOAD】,右键菜单里复制链接地址。
  • 登录 GPU 实例,使用 wget 命令, 粘贴上述步骤复制的链接地址下载安装包;或通过在本地系统下载 NVIDIA 安装包, 上传到 GPU 实例的服务器
代码语言:shell
AI代码解释
复制
# wget http://us.download.nvidia.com/tesla/440.33.01/NVIDIA-Linux-x86_64-440.33.01.run
  • 对安装包加执行权限。 例如,对文件名为NVIDIA-Linux-x86_64-440.33.01.run加执行权限:
代码语言:shell
AI代码解释
复制
# chmod +x NVIDIA-Linux-x86_64-440.33.01.run 
  • 安装当前系统对应的 gcc 和 kernel-devel 包
代码语言:shell
AI代码解释
复制
# sudo yum install -y gcc kernel-devel-xxx

xxx是内核版本号,可以通过 uname -r 查看。

  • 安装dkms
代码语言:shell
AI代码解释
复制
# sudo yum install dkms -y

dkms的作用:nvidia-installer can optionally register the NVIDIA kernel module sources, if installed, with DKMS, then build and install a kernel module using the DKMS-registered sources. This will allow the DKMS infrastructure to automatically build a new kernel module when changing kernels. During installation, if DKMS is detected, nvidia-installer will ask the user if they wish to register the module with DKMS; the default response is 'no'. This option will bypass the detection of DKMS, and cause the installer to attempt a DKMS-based installation regardless of whether DKMS is present.

白话文翻译:即注册nvidia驱动到dkms中,通过dkms管理,当内核更新的时候,会自动build新的nvidia内核模块。

  • 运行驱动安装程序后按提示进行后续操作。
代码语言:shell
AI代码解释
复制
#  ./NVIDIA-Linux-x86_64-440.33.01.run --dkms --silent

其中--silent的作用,不弹出UI界面,单台安装还好,否则批量操作,就比较尴尬了。

  • 验证驱动安装是否正常
代码语言:shell
AI代码解释
复制
# nvidia-smi 
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            Off  | 00000000:00:06.0 Off |                  Off |
| N/A   39C    P8     7W /  75W |      0MiB /  8121MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
  • 查看系统已安装的module
代码语言:shell
AI代码解释
复制
# lsmod|grep nvidia
nvidia_drm             43714  0 
nvidia_modeset       1110184  1 nvidia_drm
nvidia              19893642  13 nvidia_modeset
ipmi_msghandler        46608  2 ipmi_devintf,nvidia
drm_kms_helper        159169  2 cirrus,nvidia_drm
drm                   370825  5 ttm,drm_kms_helper,cirrus,nvidia_drm
i2c_core               40756  4 drm,i2c_piix4,drm_kms_helper,nvidia
  • 查看nvidia的路径与版本等信息
代码语言:shell
AI代码解释
复制
# modinfo nvidia
filename:       /lib/modules/3.10.0-693.el7.x86_64/extra/nvidia.ko.xz
alias:          char-major-195-*
version:        440.33.01
supported:      external
license:        NVIDIA
rhelversion:    7.4
srcversion:     A5E9226CB2A7B16B12DA2CA
alias:          pci:v000010DEd*sv*sd*bc03sc02i00*
alias:          pci:v000010DEd*sv*sd*bc03sc00i00*
depends:        ipmi_msghandler,i2c-core
vermagic:       3.10.0-693.el7.x86_64 SMP mod_unload modversions 
parm:           NvSwitchRegDwords:NvSwitch regkey (charp)
parm:           NVreg_Mobile:int
parm:           NVreg_ResmanDebugLevel:int
parm:           NVreg_RmLogonRC:int
parm:           NVreg_ModifyDeviceFiles:int
parm:           NVreg_DeviceFileUID:int
parm:           NVreg_DeviceFileGID:int
parm:           NVreg_DeviceFileMode:int
parm:           NVreg_InitializeSystemMemoryAllocations:int
parm:           NVreg_UsePageAttributeTable:int
parm:           NVreg_MapRegistersEarly:int
parm:           NVreg_RegisterForACPIEvents:int
parm:           NVreg_EnablePCIeGen3:int
parm:           NVreg_EnableMSI:int
parm:           NVreg_TCEBypassMode:int
parm:           NVreg_EnableStreamMemOPs:int
parm:           NVreg_EnableBacklightHandler:int
parm:           NVreg_RestrictProfilingToAdminUsers:int
parm:           NVreg_PreserveVideoMemoryAllocations:int
parm:           NVreg_DynamicPowerManagement:int
parm:           NVreg_EnableUserNUMAManagement:int
parm:           NVreg_MemoryPoolSize:int
parm:           NVreg_KMallocHeapMaxSize:int
parm:           NVreg_VMallocHeapMaxSize:int
parm:           NVreg_IgnoreMMIOCheck:int
parm:           NVreg_NvLinkDisable:int
parm:           NVreg_RegisterPCIDriver:int
parm:           NVreg_RegistryDwords:charp
parm:           NVreg_RegistryDwordsPerDevice:charp
parm:           NVreg_RmMsg:charp
parm:           NVreg_GpuBlacklist:charp
parm:           NVreg_TemporaryFilePath:charp
parm:           NVreg_AssignGpus:charp

按照本文安装,可以保障系统内核更新的时候,驱动自动build,不会出现驱动不可用状态。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯云GPU云服务器配置初体验
GPU 云服务器(GPU Cloud Computing)是基于 GPU 的快速、稳定、弹性的计算服务,因此,可以广泛应用到深度学习训练/推理、图形图像处理以及科学计算等场景中。 GPU 云服务器提供和标准 CVM 云服务器一致的方便快捷的管理方式。GPU 云服务器通过其强大的快速处理海量数据的计算性能,有效解放用户的计算压力,提升业务处理效率与竞争力。腾讯云的GPU云服务器分为两类,一个是计算型实例服务器,一个是渲染型实例服务器。不管是何种类型的GPU云服务器,都需要配置和安装必要的组件才能正常工作和使用。
liuzhen007
2022/04/11
25.4K0
Ubuntu 14.04 16.04 Linux nvidia 驱动下载与安装
但是有时候,驱动不够新,比如14.04用的是340.98版本,如果手动安装驱动可以参考官网指南。
zhangrelay
2019/01/23
4.7K0
GPU云服务器ubuntu系统配置深度学习pytorch框架(一)
/etc/sysconfig/network-scripts/ifcfg-eth0的配置文件中,ONBOOT=yes必须设置,这样可以保证系统重启时进行ssh连接时,网络服务也会自启动,否则会导致网络不通。
用户9697813
2022/05/30
2K0
ubuntu16.04 部署GPU环境
参考文档 https://blog.csdn.net/nwpushuai/article/details/79935740 https://blog.csdn.net/qq_43030766/article/details/91513501 https://blog.csdn.net/zhqh100/article/details/77646497 https://www.cnblogs.com/zixuan-L/p/11023051.html https://blog.csdn.net/huangfei
三杯水Plus
2019/09/23
6350
Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU
简介: Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU
姚华
2022/06/29
1.2K0
基于GPU实例的Nanopore数据预处理
纳米孔是一个纳米级的小孔,在其设备中,Oxford Nanopore 使离子电流通过纳米孔,并测量当生物分子通过或靠近纳米孔时的电流变化。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,因此不同碱基通过蛋白纳米孔时对电流产生的干扰不同,通过实时监测并解码这些电流信号便可确定碱基序列,从而实现测序。
4BasesTeam
2022/04/23
2.9K1
基于GPU实例的Nanopore数据预处理
Ubuntu sever20.04 LTS版本GPU服务器深度学习环境配置
在非图形界面的Ubuntu server20.04的GPU服务器上配置环境,包括Nvidia驱动,cuda,cuDNN的安装,Anaconda的安装和开发环境创建。最好的参考文档是各软件的官方文档。
GIS指北
2022/11/14
2.9K0
Ubuntu sever20.04 LTS版本GPU服务器深度学习环境配置
【玩转腾讯云】GPU云服务器(驱动篇)
如何选购腾讯云GPU实例?如何优雅地安装驱动等底层开发工具库?这些问题给深度学习等领域研究/开发人员带来了不少困惑。本篇教程将从实践出发,给出基于腾讯云GPU实例的Best Practice,彻底解决以上问题。
溪歪歪
2020/04/01
31.1K9
【玩转腾讯云】GPU云服务器(驱动篇)
RDMA - GDR GPU Direct RDMA快速入门1
NVIDIA GPUDirect 是一系列技术, 用于增强 GPU间(P2P)或GPU与第三方设备(RDMA)间的数据移动和访问, 无论您是在探索海量数据、研究科学问题、训练神经网络还是为金融市场建模,您都需要一个具有最高数据吞吐量的计算平台。GPU 的数据处理速度比 CPU 快得多,随着 GPU 计算能力的提高,对 IO 带宽的需求也随之增加。NVIDIA GPUDirect®是Magnum IO的一部分,可增强 NVIDIA 数据中心 GPU 的数据移动和访问。使用 GPUDirect,网络适配器和存储驱动器可以直接读取和写入 GPU 内存,从而消除不必要的内存复制、减少 CPU 开销和延迟,从而显着提高性能。这些技术(包括 GPUDirect Storage(GDS)、GPUDirect RDMA(GDR)、GPUDirect 点对点 (P2P) 和 GPUDirect Video)通过一套全面的 API 呈现
晓兵
2025/03/30
1.6K0
RDMA - GDR GPU Direct RDMA快速入门1
OpenEuler 系统安装 docker 和 nvidia-docker
1.查看系统自带的驱动,如果有结果,则说明存在nouveau,没有则直接跳过这一步。
运维晓柏
2025/04/25
5390
在GPU计算型实例中安装Tesla驱动超详细过程
摘要:在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下,安装了Tesla驱动的GPU才可以发挥高性能计算能力,或提供更流畅的图形显示效果。如果您在创建GPU计算型实例(Linux)时未同时安装Tesla驱动,则需要在创建GPU实例后,单独安装Tesla驱动(Linux)。每次按照Tesla驱动的时候,上面都是英文,不太懂意思,本文为您介绍详细过程,希望对大家有帮助。
正在走向自律
2024/12/18
6520
在GPU计算型实例中安装Tesla驱动超详细过程
『开发技巧』全网最详尽解决Ubuntu安装NVIDIA驱动报错“nvidia-drm”或“nvidia-modeset”的方法
在Ubuntu系统使用Nvidia的RTX3090显卡时偶尔会遇到显卡驱动的问题,此时就需要通过重装驱动方法解决。
小宋是呢
2021/09/10
5.9K0
2010年之前电脑ubuntu安装nvidia驱动黑屏处理
这个链接指向的是Launchpad上的一个个人仓库,名为nvidia-legacy,由用户kelebek333维护。Launchpad是Ubuntu社区的一个网站,它提供了托管项目、构建软件包、跟踪bug等功能。
zhangrelay
2024/05/25
2490
2010年之前电脑ubuntu安装nvidia驱动黑屏处理
在Linux服务器上更换Nvidia驱动
本文记录在Linux服务器更换Nvidia驱动的流程。 需求 Linux 服务器上的 1080Ti 显卡驱动为387, CUDA 9,比较老旧,需要更换成可以运行pytorch 1.6的环境。 确定当前显卡型号\操作系统版本\目标环境 查看显卡信息,确定自己的显卡型号: $ nvidia-smi 或 $ lspci | grep -i vga 输出的设备信息并不是我们熟悉的型号,比如我的输出为: 02:00.0 VGA compatible controller: NVIDIA Corpo
为为为什么
2022/08/05
6.4K0
在Linux服务器上更换Nvidia驱动
【TKE】GPU 节点 NVIDIA Tesla 驱动重新安装
默认情况下,用户在 TKE 添加 GPU 节点时,会自动预装特定版本 GPU 驱动,但是目前默认安装 GPU 驱动版本是固定的,用户还不能选择要安装的 GPU 驱动版本,当用户有其他版本的 GPU 驱动使用需求时,就需要在节点上重新安装,下面将介绍在 TKE 节点中如何重新安装 GPU 驱动程序。
Jokey
2021/06/01
1.8K0
如何在ubuntu 16.04 下安装 Tensorflow
如果系统没有安装 gcc 则会提示 command not found。这时要先安装 gcc。
流川枫
2018/11/07
1.6K0
Ubuntu16安装Nvidia驱动(GTX1060显卡)
本篇概览 台式机是2018年购买的惠普暗隐精灵3代,显卡GTX1060,本文记录了此机器安装Ubuntu 16.04.7 LTS,再安装Nvidia驱动的过程; 另外还有一些避坑的小结,如果您遇到了类似问题可以拿来参考; 纯净Ubuntu系统 先安装Ubuntu16 LTS桌面版 U盘安装,我这里是惠普台式机,启动时出现惠普LOGO的时候,多次点击F10,进入bios,启动顺序选择U盘启动,然后在页面指导下顺利安装Ubuntu系统 需要注意的地方 网上很多安装文档中提到了要在BIOS设置中关闭secure
程序员欣宸
2021/12/07
9340
Ubuntu16安装Nvidia驱动(GTX1060显卡)
安装 nvidia 显卡驱动及故障排查
在一台旧一点的服务器 (CentOS 8.5.2111) 上安装 NVIDIA 显卡驱动及 CUDA 工具包。
叶子Tenney
2024/10/25
1.2K0
安装 nvidia 显卡驱动及故障排查
Ubuntu下显卡驱动安装
安装完毕后跳出一个界面,选择lightdm,再sudo service lightdm stop。
数据科学工厂
2023/01/19
3.7K0
简单几步,轻松完成 GPU 云服务器开发环境搭建
在深度学习和图形处理等领域,GPU相较于CPU有着数十倍到上百倍的算力,能够为企业提供更高的计算效率及更低廉的IT成本,但同时也有不少研究与开发人员对GPU云服务器有着不少困惑。 以深度学习为例,如何选购腾讯云GPU云服务器并优雅地安装驱动等底层开发工具库,以及如何实现远程开发和调试Python代码呢? 我们将从实践出发,提出基于腾讯云GPU实例的最佳实践,基于腾讯云GPU服务器打造远程Python/PyTorch开发环境。其实,开发者们完全可以在“本地开发一致的体验”和“服务器端更高质量资源”这二
腾讯云计算产品团队
2020/06/28
4.4K0
推荐阅读
相关推荐
腾讯云GPU云服务器配置初体验
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档