作者蔡靖,腾讯高级后台开发工程师,拥有多年大规模 Kubernetes 集群开发运维经验。目前负责腾讯云 TKE 存储组件的功能特性实现,以及稳定性与性能的提升。本次分享以 controller manager 未能正常挂载 volume 致使 pod 启动失败的案例展开,通过问题根因分析过程以及如何制定解决方案等内容,帮助大家深入理解 k8s attach/detach controller。
本文主要通过深入学习 k8s attach/detach controller 源码,挖掘出 controller manager 未能正常挂载 volume 致使 pod 启动失败这一案例发生 attach/detach controller bug 的根因,进而给出解决方案。
看完本文你将学习到:
本节我们首先了解下案例的问题和现象;然后去深入理解 ad controller 维护的数据结构;之后根据数据结构与 ad controller 的代码逻辑,再来详细分析案例出现的原因和解决方案,从而深入理解整个 ad controller。
ContainerCreating
。kubectl describe pod
kubectl get node xxx -oyaml
的volumesAttached
和volumesInUse
volumesAttached:
- devicePath: /dev/disk/by-id/virtio-disk-6w87j3wv
name: kubernetes.io/qcloud-cbs/disk-6w87j3wv
volumesInUse:
- kubernetes.io/qcloud-cbs/disk-6w87j3wv
- kubernetes.io/qcloud-cbs/disk-7bfqsft5
k8s 中 attach/detach controller 负责存储插件的 attach/detach。本文结合一个具体案例来分析 ad controller 的源码逻辑,该案例是因 k8s 的 ad controller bug 导致的 pod 创建失败。
k8s 中涉及存储的组件主要有:attach/detach controller、pv controller、volume manager、volume plugins、scheduler。每个组件分工明确:
控制器模式是 k8s 非常重要的概念,一般一个 controller 会去管理一个或多个 API 对象,以让对象从实际状态/当前状态趋近于期望状态。
所以 attach/detach controller 的作用其实就是去 attach 期望被 attach 的 volume,detach 期望被 detach 的 volume。
后续 attach/detach controller 简称 ad controller。
对于 ad controller 来说,理解了其内部的数据结构,再去理解逻辑就事半功倍。ad controller 在内存中维护 2 个数据结构:
actualStateOfWorld
—— 表征实际状态(后面简称 asw)desiredStateOfWorld
—— 表征期望状态(后面简称 dsw)很明显,对于声明式 API 来说,是需要随时比对实际状态和期望状态的,所以 ad controller 中就用了 2 个数据结构来分别表征实际状态和期望状态。
actualStateOfWorld
包含2个 map:
attachedVolumes
:包含了那些 ad controller 认为被成功 attach 到 nodes 上的 volumes。nodesToUpdateStatusFor
:包含要更新node.Status.VolumesAttached
的 nodes。1、在启动 ad controller 时,会 populate asw,此时会 list 集群内所有 node 对象,然后用这些 node 对象的node.Status.VolumesAttached
去填充attachedVolumes
。
2、之后只要有需要 attach 的 volume 被成功 attach 了,就会调用MarkVolumeAsAttached
(GenerateAttachVolumeFunc
中)来填充到attachedVolumes中
。
只有在 volume 被 detach 成功后,才会把相关的 volume 从attachedVolumes
中删掉。(GenerateDetachVolumeFunc
中调用MarkVolumeDetached
)。
detach volume 失败后,将 volume add back 到nodesToUpdateStatusFor
- GenerateDetachVolumeFunc
中调用AddVolumeToReportAsAttached
。
如何删除数据?
在 detach volume 之前会先调用RemoveVolumeFromReportAsAttached
从nodesToUpdateStatusFor
中先删除该 volume 相关信息。
desiredStateOfWorld
中维护了一个 map:
nodesManaged
:包含被 ad controller 管理的 nodes,以及期望 attach 到这些 node 上的 volumes。
1、在启动 ad controller 时,会 populate asw,list 集群内所有 node 对象,然后把由 ad controller 管理的 node 填充到nodesManaged
。
2、ad controller 的nodeInformer
watch 到 node 有更新也会把 node 填充到nodesManaged
。
3、另外在 populate dsw 和podInformer
watch 到 pod 有变化(add, update)时,往nodesManaged
中填充 volume 和 pod 的信息。
4、desiredStateOfWorldPopulator
中也会周期性地去找出需要被 add 的 pod,此时也会把相应的 volume 和 pod 填充到nodesManaged
。
如何删除数据?
1、当删除 node 时,ad controller 中的nodeInformer
watch 到变化会从 dsw 的nodesManaged
中删除相应的node。
2、当 ad controller 中的podInformer
watch 到 pod 的删除时,会从nodesManaged
中删除相应的 volume 和 pod。
3、desiredStateOfWorldPopulator
中也会周期性地去找出需要被删除的 pod,此时也会从nodesManaged
中删除相应的 volume 和 pod。
ad controller 的逻辑比较简单:
1、首先,list 集群内所有的 node 和 pod,来populate actualStateOfWorld
(attachedVolumes
)和desiredStateOfWorld
(nodesManaged
)。
2、然后,单独开个 goroutine 运行reconciler
,通过触发 attach, detach 操作周期性地去 reconcile asw(实际状态)和 dws(期望状态)。
3、之后,又单独开个 goroutine 运行DesiredStateOfWorldPopulator
,定期去验证 dsw 中的 pods 是否依然存在,如果不存在就从 dsw 中删除。
接下来结合上面所说的案例,来详细看看reconciler
的逻辑。
Volume not attached according to node status
,也就是说 kubelet 认为 cbs 没有按照 node 的状态去挂载。这个从 node info 也可以得到证实:volumesAttached
中的确没有这个 cbs 盘(disk-7bfqsft5)。volumesInUse
中还有这个 cbs。说明没有 unmount 成功很明显,cbs 要能被 pod 成功使用,需要 ad controller 和 volume manager 的协同工作。所以这个问题的定位首先要明确:
volumesAttached
和volumesInUse
在 ad controller 和 kubelet 之间充当什么角色?这里只对分析 volume manager 做简要分析。
Volume not attached according to node status
在代码中找到对应的位置,发现在GenerateVerifyControllerAttachedVolumeFunc
中。仔细看代码逻辑会发现,volume manager 的 reconciler 会先确认该被 unmount 的 volume 被 unmount 掉,然后确认该被 mount 的 volume 被 mount。volumesToMount
的podsToMount
);volumeToMount
是否已经 attach 了。这个volumeToMount
是由podManager
中的podInformer
加入到相应内存中,然后desiredStateOfWorldPopulator
周期性同步到 dsw 中的;GenerateVerifyControllerAttachedVolumeFunc
中会去遍历本节点的node.Status.VolumesAttached
,如果没有找到就报错(Volume not attached according to node status
);node.Status.VolumesAttached
中来判断volume 有无被 attach 成功。node.Status.VolumesAttached
?ad controller 的数据结构nodesToUpdateStatusFor
就是用来存储要更新到node.Status.VolumesAttached
上的数据的。node.Status.VolumesAttached
,而又新建了 pod,desiredStateOfWorldPopulator
从podManager中的内存把新建 pod 引用的 volume 同步到了volumesToMount
中,在验证 volume 是否 attach 时,就会报错(Volume not attached according to node status)。WaitForAttachAndMount
去等待 volumeattach 和 mount 成功,由于前面一直无法成功,等待超时,才会有会面timeout expired
的报错。所以接下来主要需要看为什么 ad controller 那边没有更新node.Status.VolumesAttached
。
reconciler
详解接下来详细分析下 ad controller 的逻辑,看看为什么会没有更新node.Status.VolumesAttached
,但从事件看 ad controller 却又认为 volume 已经挂载成功。
从流程简述中表述可见,ad controller 主要逻辑是在reconciler
中。
一、reconciler
定时去运行reconciliationLoopFunc
,周期为 100ms。
二、reconciliationLoopFunc
的主要逻辑在reconcile()
中:
1. 首先,确保该被 detach 的 volume 被 detach 掉
attachedVolumes
,对于每个 volume,判断其是否存在于 dsw 中:根据 nodeName 去 dsw.nodesManaged 中判断 node 是否存在;存在的话,再根据 volumeName 判断 volume是否存在。node.Status.VolumesInUse
来判断 volume 是否已经 unmount 完成,unmount 完成或者等待 6min timeout 时间到后,会继续 detach 逻辑;
RemoveVolumeFromReportAsAttached
从 asw 的nodesToUpdateStatusFor
中去删除要 detach 的 volume;
node.status.VolumesAttached
删除这个 volume;
backoffError
。
2. 之后,确保该被 attach 的 volume 被 attach 成功
nodesManaged
,判断 volume 是否已经被 attach 到该 node,如果已经被 attach 到该 node,则跳过 attach 操作;attachedConfirmed
;
attachedConfirmed
是由 asw 中AddVolumeNode
去设置的,MarkVolumeAsAttached
设置为 true(true 即代表该 volume 已经被 attach 到该 node 了);之后判断是否禁止多挂载,再由 operator_excutor 去执行 attach。
3. 最后,UpdateNodeStatuses
去更新 node status。
node.status.VolumesAttached
交互。node.status.VolumesAttached
新增或删除 volume,新增表明已挂载,删除表明已删除node.status.VolumesAttached
中,则表明验证 volume 已挂载成功;不存在,则表明还未挂载成功。attachedVolumes
中删除node.status.VolumesAttached
中删除 volume,之后才去执行 detachbackoffError
不会把该 volumeadd back node.status.VolumesAttached
nodesManaged
(nodeName 和 volumeName 都没变)attachedConfirmed
为 truedsw.nodesManaged
了(由于 nodeName 和 volumeName 都没变),这样 volume 同时存在于 asw 和 dsw 中了,实际状态和期望状态一致,被认为就不需要进行 detach 了。node.status.VolumesAttached
。所以就出现了现象中的 node info 中没有该 volume,而 ad controller 又认为该 volume 被 attach 成功了node.status.VolumesAttached
,所以volume manager在验证volume是否attach成功,发现node.status.VolumesAttached
中没有这个 voume,也就认为没有 attach 成功,所以就有了现象中的报错Volume not attached according to node status
syncPod
在等待 pod 所有的 volume attach 和 mount 成功时,就超时了(现象中的另一个报错timeout expired wating...
)。ContainerCreating
。node.status.VolumesAttached
中删除该 volume,再去执行真正的DetachVolume
。backoff 期间直接返回backoffError
,跳过DetachVolume
,不会 add back;node.status.VolumesAttached
中添加该 volume;node.status.VolumesAttached
,所以 kubelet 认为没有 attach 成功,新创建的 pod 就一直处于ContianerCreating
了。node.status.VolumesAttached
和以下两个逻辑:AD Controller 负责存储的 Attach、Detach。通过比较 asw 和 dsw 来判断是否需要 attach/detach。最终 attach 和 detach 结果会体现在node.status.VolumesAttached
。以上案例出现的现象,是 k8s ad controller 的 bug 导致,目前社区并未修复。
node.status.VolumesAttached
中删除,从而导致创建新 pod 时,kubelet 检查时认为该 volume 没有 attach 成功,致使 pod 就一直处于ContianerCreating
。