首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场

SRE运维进阶之路

记录SRE运维、云原生
专栏成员
35
文章
10174
阅读量
13
订阅数
企业级 Kubernetes 监控体系设计与实践
主要都是 kube-state-metrics 收集的, K8s 内置的资源对象 , 只需要添加启动参数即可
SRE运维进阶之路
2025-04-01
1610
精彩!!!Deepseek 重写 K8s 故障处理案例,文笔真好,屌~
作为一名SRE,最深刻的成长往往源于“踩坑”后的反思。今天分享一次让我在面试中收获最多、成长最快的K8s故障复盘经历——一次由全局PID耗尽引发的Calico网络崩溃事件。
SRE运维进阶之路
2025-03-20
900
KubeVirt + Calico 实现  VMI 固定 IP
以下是 PersistentPodState 系统的调谐逻辑和 webhook 拦截逻辑的流程图:
SRE运维进阶之路
2025-03-06
1590
10分钟搭建本机 k8s、docker 环境,这款神器真香
没了docker, 在容器里面运行应用跑测试,用 docker build 镜像等最基本的功能都不能用了,如何解?
SRE运维进阶之路
2025-01-10
2161
KubeVirt 进阶:设置超卖比、CPU/MEM 升降配、在线磁盘扩容
前两篇文章,我们分别介绍 Kubevirt 的安装、基本使用 以及 将 oVirt 虚拟机迁移到 KubeVirt,我们留了两个ToDo,一个是本地磁盘的动态分配,一个是固定 IP 的需求,本期我们先解决第一个,本地磁盘的动态分配。
SRE运维进阶之路
2025-01-08
1590
高并发下报错 "java.net.UnknownHostException" 案例分析
错误关键词 Operation not permitted、nf_conntrack: table full, dropping packet,问题出现在 代理层,conntrack table满了。
SRE运维进阶之路
2024-11-19
870
别关心美国大事了,学点知识吧,兄嘚~【故障排查 之 单点登录跳转失败(Ingress 相关)】
问题要点是:单点登录失败,看代码是 request 和 response 的 RedirectUri 不一样导致的。
SRE运维进阶之路
2024-11-07
1090
K8s 负载感知调度实践(koordinator & crane)
上篇 6 张图带你深入了解 kube-scheduler ,已经知道 kube-scheduler 的工作流程,以及如何实现自定义插件。koordinator 和 crane 都是基于Scheduler Framework 进行实现的 负载感知插件。本文不再赘述,感兴趣可以看上篇文章。
SRE运维进阶之路
2024-10-25
3280
6 张图带你深入了解 kube-scheduler
2)同一时间如果有大量待调度的 Pod,如果处理,如果保证不能漏掉,应该先处理哪个 Pod,调度过程中,如果失败,如何处理, 所以得加个队列,有重试机制等
SRE运维进阶之路
2024-09-10
2280
HR 再问 运维是干啥的, 你就把这个丢给她
运维,这里指互联网运维,通常属于技术部门,与研发、测试同为互联网产品技术支撑的3大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
SRE运维进阶之路
2024-08-27
1760
K8s 集群巡检
上次发文 K8s 无备份,不运维!,文章开篇,插入了一张 K8s 集群巡检的图片,好多小伙伴私信留言,问我要开源地址。由于其通用性不高,大多数公司需要结合自身的架构情况进行不同的巡检,所以我没有开源。
SRE运维进阶之路
2024-08-27
1950
K8s CPU Throttle 优化方案
受内核调度控制周期(cfs_period)影响,容器的 CPU 利用率往往具有一定的欺骗性,下图展示了某容器一段时间的 CPU 使用情况(单位为0.01核),可以看到在 1s 级别的粒度下(图中紫色折线),容器的 CPU 用量较为稳定,平均在 2.5 核左右。根据经验,管理员会将 CPU Limit设置为 4 核。本以为这已经保留了充足的弹性空间,然而若我们将观察粒度放大到 100ms 级别(图中绿色折线),容器的 CPU 用量呈现出了严重的毛刺现象,峰值达到 4 核以上。此时容器会产生频繁的 CPU Throttle,进而导致应用性能下降、RT 抖动,但我们从常用的 CPU 利用率指标中竟然完全无法发现!
SRE运维进阶之路
2024-08-05
2820
将 oVirt 虚拟机迁移到 KubeVirt
创建 source 为 imageio 的 DataVolume 对象,先创建依赖,Secret 认证信息、tls-certs 证书信息
SRE运维进阶之路
2024-07-04
1590
从0开始装一套 KubeVirt 1.2.1
数据持久化:dataVolume、hostDisk、PVC ,这里选用 dataVolume,可以动态创建 PVC, 并将镜像填充进去
SRE运维进阶之路
2024-06-19
1880
K8s 多集群思考、实践和探索
把联邦的所有配置信息都写到 annotations 里,整个创建流程与 K8s 类似。配置信息先到 Federated API Server,Federated Controller 把应用创建到各子集群。
SRE运维进阶之路
2024-05-11
3190
CoreDNS 概述及运维实践
域名系统(英语:Domain Name System,缩写:DNS)是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。DNS使用TCP和UDP端口53。
SRE运维进阶之路
2024-05-01
5210
Etcd 概述
Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。
SRE运维进阶之路
2024-04-23
3240
评估 Etcd 性能及可靠性
SLI(Service Level Indicator):服务等级指标,其实就是我们选择哪些指标来衡量我们的稳定性。
SRE运维进阶之路
2024-04-23
2770
弹性伸缩落地实践
HPA(Horizontal Pod Autoscaler)是 Kubernetes 中的一种资源自动伸缩机制,用于根据某些指标动态调整 Pod 的副本数量。
SRE运维进阶之路
2024-04-23
2640
云原生实践总结
CLOUD NATIVE LANDSCAPE https://cncf.landscape2.io/?group=projects-and-products
SRE运维进阶之路
2024-04-23
1910
点击加载更多
活动推荐
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档