操作场景
在使用 TKE Nvidia Gpu 资源过程中需要对资源使用状态进行监控,以便了解 Nvidia Gpu 服务是否运行正常,排查 Nvidia Gpu 资源故障。Prometheus 监控服务提供基于 Exporter 的方式来监控 Nvidia Gpu 运行状态,并提供了开箱即用的 Grafana 监控大盘。本文为您介绍如何使用 Prometheus 监控服务 Nvidia Gpu。
操作步骤
1. 登录 Prometheus 控制台。
2. 在实例列表中,选择对应的 Prometheus 实例。
3. 进入实例详情页,选择数据采集 > 集成中心。
4. 在集成中心找到并点击 Nvidia Gpu,即会弹出一个安装窗口,在安装页面填写集成名称,选取待监控的 Nvidia Gpu 所在的集群以及它的实例名,然后单击保存。
配置说明
名称 | 描述 |
名称 | 集成名称,命名规范如下: 名称具有唯一性。 名称需要符合下面的正则:'^[a-z0-9]([-a-z0-9]*[a-z0-9])?(\\.[a-z0-9]([-a-z0-9]*[a-z0-9])?)*$'。 |
集群 | 选取待监控的 Nvidia Gpu 所在的集群 |
查看监控
待部署成功后(1分钟之内),在 Prometheus 相关联的 Grafana 里,找到 tke-gpu 文件夹,在其中就可以看到 Nvidia Gpu 相关面板,即可观察 Nvidia Gpu 相关监控。