节点初始化流程 FAQ

最近更新时间:2023-08-22 16:33:01

我的收藏
本文主要介绍普通节点初始化流程中的常见报错信息和潜在原因。

安装节点组件相关

描述:Cloud init failed: call common server failed, please confirm node network and security group is correctly.
说明:Cloud Init 执行失败,节点有特殊安全组或节点网络存在问题。

描述:TKE agent lost: please confirm CVM status is normal and network is connection.
说明:节点 agent 失联,可能是机器启动慢或启动失败,或节点有错误的网络、安全组设置、自定义镜像未清理 cloud init。

描述:Install package failed: command yum didn't complete in 60 seconds
说明:节点安装系统包超时,需要检查安全组配置、是否是自定义镜像修改过 yum/apt 源。

描述:Download resource failed: resource %s download failed, network xxx.
说明:检查是否为网络问题导致资源下载失败。

描述:Node check failed: failed to resolve address of common server, please confirm node network and security group is correctly.
说明:节点检查失败,agent server 无法访问。

描述:Node check failed: GPU inforom corrupted, please re-purchase or contact us
说明:节点检查失败,可能为 GPU inforom 损坏,并无法自修复。

描述:Start service failed: service %s start failed
说明:一般在使用自定义镜像场景出现,需检查镜像。

描述:Mount disk failed:
说明:挂盘失败,需根据具体情况分析。

等待节点注册相关

描述:Kubelet start failed: failed to run Kubelet: unknown policy: "xx"
举例:Kubelet start failed: failed to parse kubelet flag: invalid argument "Inplace" for "--feature-gates" flag: malformed pair, expect string=bool
说明:kubelet 参数设置导致启动失败。

GPU 相关

描述:GPU component not found: daemonset %s not found, please make sure the %s component is installed
说明:一般是 GPU Device Plugin 没安装,例如开启 qgpu、或者运行过程中把 Device Plugin 删掉。

描述:GPU component start failed: please ensure node has enough resources and daemonset %s has correct node selector
说明:GPU Device Plugin 没调度,可能是由于节点资源不够、Device Plugin 被修改等原因,需保证 Device Plugin 能调度到节点上。

描述:GPU component start failed: pod of %s is not running, please check node status and GPU driver
说明:GPU pod 启动失败,自定义 Device Plugin 有问题、节点使用自定义镜像、驱动安装有问题、nvidia runtime hook 有问题等。

描述:GPU resource register failed: gpu resource not found on node or in GPU device plugin
说明:GPU 资源注册失败,可能是节点或 pod 看不到 GPU 卡导致:如果在节点上执行 nvidia-smi 报错或看不到显卡,则是机型或驱动安装问题;如果在 Device Plugin 中执行 nvidia-smi 报错或看不到显卡,可能是 nvidia-runtime 或者自定义 Device Plugin 环境变量 NVIDIA_DRIVER_CAPABILITIES 设置有问题。