首页
学习
活动
专区
工具
TVP
发布

SRE运维手记

云原生技术和实战经验分享
专栏成员
24
文章
4071
阅读量
17
订阅数
docker-mirror:支持多加速仓库地址配置,及k8s镜像拉取
在上一篇文章《docker-mirror:神奇指令,一键把镜像拉回“家”》中,我们介绍了docker-mirror的使用,可以帮助我们拉取镜像并转存到私有的镜像仓库中,减少了不少重复的运维工作,也在期间收到了使用该工具的小伙伴积极反馈和优化建议,如,不带仓库名的镜像拉取会报错,典型的就是k8s镜像;还有不支持配置多个加速仓库地址等,所以更新了该版本,用于解决上述问题。
SRE运维手记
2024-10-29
1490
docker-mirror:神奇指令,一键把镜像拉回“家”
在dockerHub无法访问后,无疑给运维工作带来了不少麻烦,期间有人问我,我们是怎么应对的?很庆幸的是,我们在问题发生之前,就已经把核心服务的容器镜像转存到本地的Harbor仓库中,在问题发生后只需要更新边缘服务的镜像即可。
SRE运维手记
2024-10-21
960
k8s容器的定向调度与亲和性
Kubernetes(k8s)是一个开源的容器编排工具,而容器调度是其非常重要的特性,所谓的调度是指将容器(Pod)分配到集群中的节点上运行的过程。为了更好地控制容器的调度,k8s提供了多种调度策略,其中包括定向调度和亲和性策略。在实际的k8s集群维护场景中,合理使用这些调度策略,对集群的稳定性至关重要。本文将通过分享实践案例,帮助你更好地理解和使用这些功能。
SRE运维手记
2024-10-14
1190
k8s-java-thread-dumper新版发布:支持Prometheus啦!!!
在前面的文章《开源!Pod高负载自动打印JAVA线程堆栈》中我发布了k8s-java-thread-dumper的第一个版本,并获得小伙伴们通过微信和Github issue的积极反馈与建议,其中有几个不错的建议都在本次发布的新版本中实现,具体功能介绍和使用方法请见下文。
SRE运维手记
2024-09-26
1280
k8s容器的钩子与优雅停机
在 Kubernetes 中,每次微服务的代码发布都意味着创建新版本的 pod 并删除旧 pod,如果部署不够优雅的话,可能出现如下两个问题:
SRE运维手记
2024-09-25
910
k8s集群备份与迁移
Velero 是一个用Go语言开发的开源工具,用于 Kubernetes 集群的备份、恢复、灾难恢复和迁移。
SRE运维手记
2024-09-13
1950
运维降本增效!大规模k8s集群的潮汐调度
有一个渲染应用场景,单一个工作负载(Deployment)就有数百个副本,为了降低运维成本,选择了某云商的弹性容器实例产品作为载体,其按pod数量以小时计费,相较于准备大量的Node的方式要划算得多。
SRE运维手记
2024-09-06
2140
一文看懂 Kubernetes 弹性伸缩
在 Kubernetes 集群中,自动化资源管理和伸缩是保持应用高效运行的关键。Kubernetes 提供了几种不同的机制来帮助实现这一目标:水平自动伸缩(HPA, Horizontal Pod Autoscaler)、垂直自动伸缩(VPA, Vertical Pod Autoscaler)和集群自动伸缩(CA, Cluster Autoscaler)。这些伸缩器在功能和使用场景上有所不同:
SRE运维手记
2024-09-06
1800
开源!Pod高负载自动打印JAVA线程堆栈
在实际的k8s维护场景中,我们时常会遇到 Pod CPU 突刺的现象。由于信息捕获依赖人工采集,有时甚至还未完成信息捕获,问题就已经恢复了,这让人非常头大。因此,我们需要一个可以自动捕获信息的工具。在GitHub上,我们发现了一个不错的项目k8s-java-debug-daemon,但由于年久失修,已无法满足当前环境的运行需求,所以我们决定对该项目进行二次开发。
SRE运维手记
2024-08-30
1210
超实用!k8s网络抓包技巧,事半功倍
在前面的文章《k8s网络延迟排查与优化实战分享》中,我们介绍了网络延迟的排查过程,从中深刻体会到网络抓包和分析网络包在故障排查和性能优化中的重要性。因此,本期将向大家介绍如何在K8s环境中高效进行网络抓包,以达到事半功倍的效果。
SRE运维手记
2024-08-30
1780
Ingress出现诡异的HTTP状态码“000”
近日,有朋友提到他们的ingress出现了“000”状态码,我一开始是不信的,认为他们可能是打印日志的姿势不对,因为http状态码压根就没有000的说法,于是要求对方上图,没想到,还真有。。。是怎么回事呢?让我们继续往下看。
SRE运维手记
2024-08-30
1100
临时存储超限导致的Pod集体驱逐故障排查
在某天的下午,我们突然收到告警,埋点服务的接口报大量502,持续了大约2分钟,然后就自动恢复了,于是便开始排查问题所在。
SRE运维手记
2024-08-30
1220
Prometheus Alertmanager告警数据持久化及可视化看板
Prometheus Alertmanager 作为 Prometheus 生态系统中的核心告警管理组件,主要专注于实时告警的接收、去重、分组和路由。然而,由于其设计上并未对告警数据进行持久化存储,这虽然简化了系统的复杂性,但也带来了一些局限性。
SRE运维手记
2024-08-30
1290
Nginx这个信息暴露,无异于向攻击者明牌
在网络安全领域,服务器信息的暴露常常被视为一种潜在的风险。具体来说,Nginx服务器的版本号暴露无异于向攻击者明牌,增加了被针对性攻击的风险。本文将介绍如何减少服务器信息的泄露,并进一步增强服务器的隐蔽性。本文将介绍一种比关闭server_tokens更灵活、更隐蔽的方法 。
SRE运维手记
2024-08-30
1950
Nginx编译安装秘笈:实用模块与自动化部署的完美结合
Nginx是一款高性能的HTTP和反向代理服务器,它的模块化设计使其功能可以通过插件进行扩展。本文将详细介绍如何编译安装Nginx,并集成Lua模块及其他比较实用的第三方插件,构建一个功能强大的Nginx服务器,满足日常业务需求。接下来,让我们一起来了解Nginx的实用模块有哪些?如何一键快速编译部署吧。
SRE运维手记
2024-08-30
1510
Prometheus Operator心得
随着云原生的崛起,Kubernetes的资源监控变得尤为重要, Prometheus因其强大的功能和丰富的生态系统,成为了Kubernetes监控的事实标准。然而,Prometheus的配置和管理在复杂的Kubernetes环境中可能面临一些挑战,例如手动配置监控目标和报警规则等。为了解决这些问题,Prometheus Operator应运而生。
SRE运维手记
2024-08-30
660
从k8s容器丢包事件中掌握内核参数优化技巧
线上业务反馈接口偶发性返回502状态码,从请求日志和监控系统看,有好几个微服务的接口都有出现,期间容器资源使用率平稳并无异常,而502的发生主要聚焦在业务高峰阶段,所以暂时排除了是微服务性能问题,优先尝试通过压测的方式在非生产环境复现。
SRE运维手记
2024-08-30
1420
k8s网络延迟排查与优化实战分享
这是早前的一个案例,那时候随着微服务数量的增加和请求量的上涨,我们当时从监控注意到业务高峰时线上接口的慢请求越来越多,原本毫秒级响应的接口偶尔会出现请求延迟超过1秒的现象,严重影响了用户体验。为了解决这一问题,我们在非生产环境通过压测工具进行复现,如下是具体排查和优化过程。
SRE运维手记
2024-08-30
1120
一款快速部署和高效维护k8s集群利器
在当今的云原生时代,Kubernetes已经成为容器编排的事实标准。然而,对于许多组织或个人来说,部署和管理Kubernetes集群依然是一个复杂且繁琐的过程。为了简化这一过程,我们需要选择一款可靠的、易用的、高效的工具来帮助我们去打破这个局面,在这里我推荐一款工具--kubeasz。
SRE运维手记
2024-08-30
1340
Docker in Docker容器化版的“盗梦空间”
Kubernetes集群计划迁移至1.24版本的集群,底层容器运行时换成了Containerd,然而当前的CI/CD流水线大多地方使用到了docker指令,要改成Containerd指令成本巨大,如何以最小的改动,最为高效地完成迁移便成了难题,为了攻克这个难题我们引入了DinD的方案进行实现,流水线都不用做任何改动,简直完美。
SRE运维手记
2024-08-30
1170
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档