首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >k8s集群经历断电后无法启动的故障处理分享

k8s集群经历断电后无法启动的故障处理分享

作者头像
SRE运维手记
发布2024-12-10 14:00:51
发布2024-12-10 14:00:51
78300
代码可运行
举报
文章被收录于专栏:SRE运维手记SRE运维手记
运行总次数:0
代码可运行

故障应急总让人充满心跳,有时交换机故障、有时光缆被挖断,这次却是机房意外断电。。。

01、背景

前阵子有个兄弟求助,他们的机房遭遇了意外断电。恢复供电后,k8s集群却无法启动。经过一番“截图分析诊断法”的默契配合,最终成功解决了故障。今天通过这篇文章,和大家分享一下这个过程。

02、问题呈现

故障发生后,很多指令无法正常回显,容器的元数据也无法正常加载,故障现象主要呈现为如下3点:

1. 执行指令的时候会报错couldn't get xxx list。

2. Pod运行时间无法正常获取,出现大量的<Invalid> ago。

3. 其中一个节点master-6-77的ApiServer Pod创建失败启动

通过上述的现象,一般会初步判断为Etcd或者ApiServer出现故障,由于Etcd的Pod状态是正常,但ApiServer的容器状态异常,所以我们把排查范围暂时锁定在ApiServer上。

03、故障排查

  • 首先查询ApiServer Pod的事件日志kubectl describe pod kube-apiserver-k8s-master-6-77 -n kube-system,提示failed to reserve container name xxx: name xxx is reserved for xxx,看样子是容器名冲突了。
  • 从Pod列表中,我们并没有发现重名的Pod,所以可能是断电的时候未能及时释放容器,需要排查底层的容器是否有名称冲突。
  • 在了解到是Containerd容器运行时后,让其在master-6-77这个节点上通过crictl ps -a查看所有的容器,果然发现有冲突的ApiServer容器,但是状态不一样,正是由于其中一个容器的状态为Exited,kubectl才允许新的容器创建,导致这个故障。

04、解决方法

解决的方法其实很简单,把Exited状态的容器删除即可,操作指令如下:

  • 将Exited状态的ApiServer容器删除
代码语言:javascript
代码运行次数:0
运行
复制
crictl rm <容器ID>

05、结 语

这个故障影响了集群的自动治愈,让运维人员血液加速,但总算能够快速地解决,并恢复集群的运作,本期分享就到这里,谢谢!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SRE运维手记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档