高性能应用服务 HAI 管理系统 CUDA

CUDA 是 NVIDIA 开发的一种编程技术，它允许开发者使用 NVIDIA 的图形处理单元（GPU）进行高效的并行计算。CUDA 具有很多发行版本，用户在使用时 Pytorch 2.0.0 应用实例时，可能有对系统 CUDA 版本进行查看和修改的需求。本次，我们将介绍如何在 Pytorch 2.0.0 应用实例中查看和修改系统 CUDA。
查看系统支持的最高 CUDA 版本
1. 登录 高性能应用服务 HAI 控制台。
2. 选择需要连接的算力，然后单击算力连接。在下拉菜单中，单击 JupyterLab。
﻿
3. 进入 JupyterLab 后，选择 Other > Terminal，进入终端界面。
﻿
﻿
﻿
4. 在终端输入如下命令，查看系统 GPU 驱动版本。系统 GPU 驱动版本和系统支持的最高 CUDA 版本存在对应关系。
nvidia-smi
得到的终端输出如下，在这个例子中，Driver Version 为 525.105.17，CUDA Version 为 12.0。这里显示的 CUDA Version 指的是系统支持的最高 CUDA 版本，兼容 CUDA <= 12.0 的任何版本。
﻿
﻿
﻿
查看系统 CUDA 版本
在终端输入如下命令，查看系统实际安装的 CUDA 的版本。
nvcc --version
得到的终端输出如下，我们可以读出，这个例子中，系统实际安装的 CUDA 的版本为11.7。
﻿
﻿
﻿
升级系统 CUDA 版本
不同项目需要的系统 CUDA 版本依赖是不同的。为了适配不同项目的需求，我们可能需要升级系统 CUDA 到更新的版本。下面讲展示如何将系统 CUDA 版本升级到 11.8 。
注意：
升级后的系统 CUDA 版本，不能超过系统支持的最高 CUDA 版本。例如，在本例中，用户可以对11.7版本的 CUDA 进行升级，但升级后的 CUDA 版本不能超过12.0。
1. 在英伟达的 CUDA 发行版本页面，找到目标 CUDA 版本，这里我们选择11.8的版本。
﻿
﻿
﻿
2. 选择合适的系统信息，之后会生成安装命令。
Operating System：选择 Linux。
Architecture：选择 x86_64。
Distribution：应用搭载 Ubuntu 20.04，因此选择 Ubuntu。
Version：选择 20.04。
Installer Type： 选择 runfile (local)。
﻿
﻿
﻿
3. 将上一步得到的安装命令复制到终端执行。这一步，wget命令拉取安装文件，之后sh命令安装下载文件。注意删去sudo，因为HAI实例里用户默认已经是root用户了。
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sh cuda_11.8.0_520.61.05_linux.run
4. sh命令执行后，稍等片刻，终端显示以下内容。输入accept，回车键确认。
﻿
﻿
﻿
5. 弹出以下内容，请注意，不要直接安装，取消默认选中的 Driver 复选框，然后再选择 Install。使用上下箭头键移动光标，回车键进行勾选或取消勾选。
﻿
6. 弹出以下内容，询问是否替代原有的 CUDA 安装。选择Yes。
﻿
﻿
﻿
7. 弹出以下内容，说明安装完成。
﻿
﻿
﻿
8. 在终端输入nvcc --version，查看系统当前安装的 CUDA 的版本，得到现安装版本是11.8，这验证了我们的安装是成功的。
﻿
﻿
﻿
﻿
管理系统 CUDA

本页目录：

查看系统支持的最高 CUDA 版本

查看系统 CUDA 版本

升级系统 CUDA 版本