原因:node 层级的 cpu/memory 分配量指标依赖节点上各个 pod 的 cpu/memory request 来计算,在计算时没有把 failed 的 pod 排除。
示例:节点规格是 4c8g,节点上目前运行3个 pod(资源 request 用量如下):
此时节点剩余可调度资源为 4-2-1=1c、8-4-2=2g,pod4 request 为 0.8c1.5g,满足调度器筛选,正常被调度到该节点上。此时节点上共4个 pod,3个正常1个异常,此时 node 层级的分配量为 4.3c8.5g(因计算时没有把 failed 的 pod 排除,因此超过了节点规格)。
该问题已在5月新版本中修复,即计算 node 资源分配量已把异常 pod 排除。
相似问题