精彩！！！Deepseek 重写 K8s 故障处理案例，文笔真好，屌~

SRE运维进阶之路

发布于 2025-03-20 18:10:16

2470

🌟 一次让我蜕变的K8s故障排查实录：从“线程泄漏”到全局PID耗尽 🌟

作为一名SRE，最深刻的成长往往源于“踩坑”后的反思。今天分享一次让我在面试中收获最多、成长最快的K8s故障复盘经历——一次由全局PID耗尽引发的Calico网络崩溃事件。

面试官抛出一个经典问题：“遇到过哪些K8s集群的‘玄学’故障？”我立刻回想起那次线下环境的“连环暴雷”场景：

• 现象1：某物理节点（node-xx）上的Pod突然网络不可达，但节点本身状态正常。
• 现象2：Calico组件反复重启，事件日志显示Readiness/Liveness Probe Failed，报错Resource temporarily unavailable。
• 现象3：kubelet日志提示runtime: failed to create new OS thread，并建议调整ulimit -u。

面试官追问：“第一反应是什么排查方向？”我回答：“资源限制——线程、进程数、内核参数，但需要数据支撑。”

• Prometheus数据：通过container_threads指标发现，故障节点的容器总线程数飙升至46k，远超日常基线。
• 物理机限制核查：ulimit -u显示单用户限制为204k，看似安全，但忽略了一个关键参数——全局PID上限（/proc/sys/kernel/pid_max）仅49k！而46k容器线程+其他系统进程已突破此阈值。

• 应用代码漏洞：某业务Pod存在线程泄漏，导致线程数持续增长。
• PID分配机制：Linux内核的PID是全局分配的，当pid_max耗尽时，任何新建进程（包括探针）均会失败，这正是Calico探针报错的根源。

面试官点头：“很多人会误以为是ulimit问题，但忽略了全局限制。你是如何想到PID的？”我答：“日志中的fatal error: newosproc提示了进程创建失败，而Prometheus线程监控锁定了泄漏源头。”

• 监控强化：在Node-Exporter中启用--collector.processes，监控node_processes_threads并设置阈值告警（如>80%触发）。
• K8s资源限制：启用Pod PID限制（通过kubelet --pod-max-pids），避免单Pod耗尽资源。
• 内核参数调优：根据业务负载动态调整pid_max和threads-max，避免硬编码默认值。