SRE运维手记

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

 AI已然成为当今的热门话题。过去，由于私有化部署成本极高，大多数使用者仅停留在简单的问答阶段，极少有人尝试训练大模型。然而，随着DeepSeek R1的问世，其部署成本仅为chatGPT的十分之一，这让许多企业和个人看到了参与的希望。未来，必将有越来越多的垂直领域AI大模型或应用出现，这或许是一个巨大的机遇。那么，普通人要如何参与呢？要如何训练自己的AI呢？本文将介绍一种简单且无需编写代码的方法，帮助您轻松训练AI应用。

快速搭建dify和deepseek，让普通人也能轻松训练AI

 在k8s集群的维护工作中，我们难免会遇到多节点维护的场景，如规格升级、集群迁移等，通过直接排空节点的操作将变得繁琐，且有风险，容易出现服务中断、集群抖动等情况，那么如何在多节点维护（下线）时保障应用的可用性及集群的稳定性将至关重要，接下来为大家分享多节点维护如何做到安全排空的方法。

高效运维！k8s多节点自动安全排空

 黑盒监控和白盒监控，是在运维监控中常用的两种方法，黑盒主外，白盒主内，二者主要区别和应用场景为：

Prometheus Operator Blackbox（黑盒）监控

 在k8s场景中，我们通常的做法是给多个微服务的Pod共享挂载持久化存储，用于存储OOM heapdump，这将会带来一些痛点，例如，强依赖持久化存储，如果持久化存储出现故障，将影响多个微服务正常启动，此外，运维通常需要打包heapdump文件，拉取并发送给开发人员，这种工作不仅枯燥乏味，还容易让运维人员感到心累。因此，我们希望在 OOM 生成 heapdump 文件时，不再依赖持久化存储，并能够将 heapdump 文件的下载链接直接推送给开发人员。本文将详细介绍如何实现这一目标。

运维救星！一键开启k8s微服务OOM heapdump自动化之旅

 前阵子有个兄弟求助，他们的机房遭遇了意外断电。恢复供电后，k8s集群却无法启动。经过一番“截图分析诊断法”的默契配合，最终成功解决了故障。今天通过这篇文章，和大家分享一下这个过程。


k8s集群经历断电后无法启动的故障处理分享

 本次分享的是一个基于JAVA的微服务应用场景。后端使用SkyWalking进行链路监控，前端使用Sentry进行性能和异常监控。然而，在排查用户侧问题和优化站点性能时，前后端请求的关联性较差。因此，我们考虑使用Nginx的RequestID作为链路TrackID，将前后端链路打通，从而实现更高效的监控和问题排查。

全链路监控：打通前后端链路的最后一公里

 在k8s集群的维护工作中，我们难免会遇到多节点维护的场景，如规格升级、集群迁移等，通过打污点和排空的操作将变得繁琐，且有风险，容易出现服务中断、集群抖动等情况，那么如何在多节点维护（下线）时保障应用的可用性及集群的稳定性将至关重要，接下来为大家分享网上或者教程极少提及的多节点维护安全排空的方法。

k8s节点的批量维护与安全排空

 在上一篇文章《docker-mirror：神奇指令，一键把镜像拉回“家”》中，我们介绍了docker-mirror的使用，可以帮助我们拉取镜像并转存到私有的镜像仓库中，减少了不少重复的运维工作，也在期间收到了使用该工具的小伙伴积极反馈和优化建议，如，不带仓库名的镜像拉取会报错，典型的就是k8s镜像；还有不支持配置多个加速仓库地址等，所以更新了该版本，用于解决上述问题。

docker-mirror：支持多加速仓库地址配置，及k8s镜像拉取

 在dockerHub无法访问后，无疑给运维工作带来了不少麻烦，期间有人问我，我们是怎么应对的？很庆幸的是，我们在问题发生之前，就已经把核心服务的容器镜像转存到本地的Harbor仓库中，在问题发生后只需要更新边缘服务的镜像即可。

docker-mirror：神奇指令，一键把镜像拉回“家”

    Kubernetes（k8s）是一个开源的容器编排工具，而容器调度是其非常重要的特性，所谓的调度是指将容器（Pod）分配到集群中的节点上运行的过程。为了更好地控制容器的调度，k8s提供了多种调度策略，其中包括定向调度和亲和性策略。在实际的k8s集群维护场景中，合理使用这些调度策略，对集群的稳定性至关重要。本文将通过分享实践案例，帮助你更好地理解和使用这些功能。

k8s容器的定向调度与亲和性

 在前面的文章《开源！Pod高负载自动打印JAVA线程堆栈》中我发布了k8s-java-thread-dumper的第一个版本，并获得小伙伴们通过微信和Github issue的积极反馈与建议，其中有几个不错的建议都在本次发布的新版本中实现，具体功能介绍和使用方法请见下文。

k8s-java-thread-dumper新版发布：支持Prometheus啦！！！

    在 Kubernetes 中，每次微服务的代码发布都意味着创建新版本的 pod 并删除旧 pod，如果部署不够优雅的话，可能出现如下两个问题：

k8s容器的钩子与优雅停机

    Velero 是一个用Go语言开发的开源工具，用于 Kubernetes 集群的备份、恢复、灾难恢复和迁移。

k8s集群备份与迁移

有一个渲染应用场景，单一个工作负载（Deployment）就有数百个副本，为了降低运维成本，选择了某云商的弹性容器实例产品作为载体，其按pod数量以小时计费，相较于准备大量的Node的方式要划算得多。

运维降本增效！大规模k8s集群的潮汐调度

 在 Kubernetes 集群中，自动化资源管理和伸缩是保持应用高效运行的关键。Kubernetes 提供了几种不同的机制来帮助实现这一目标：水平自动伸缩（HPA, Horizontal Pod Autoscaler）、垂直自动伸缩（VPA, Vertical Pod Autoscaler）和集群自动伸缩（CA, Cluster Autoscaler）。这些伸缩器在功能和使用场景上有所不同：

一文看懂 Kubernetes 弹性伸缩

    在实际的k8s维护场景中，我们时常会遇到 Pod CPU 突刺的现象。由于信息捕获依赖人工采集，有时甚至还未完成信息捕获，问题就已经恢复了，这让人非常头大。因此，我们需要一个可以自动捕获信息的工具。在GitHub上，我们发现了一个不错的项目k8s-java-debug-daemon，但由于年久失修，已无法满足当前环境的运行需求，所以我们决定对该项目进行二次开发。

开源！Pod高负载自动打印JAVA线程堆栈

 在前面的文章《k8s网络延迟排查与优化实战分享》中，我们介绍了网络延迟的排查过程，从中深刻体会到网络抓包和分析网络包在故障排查和性能优化中的重要性。因此，本期将向大家介绍如何在K8s环境中高效进行网络抓包，以达到事半功倍的效果。

超实用！k8s网络抓包技巧，事半功倍

    近日，有朋友提到他们的ingress出现了“000”状态码，我一开始是不信的，认为他们可能是打印日志的姿势不对，因为http状态码压根就没有000的说法，于是要求对方上图，没想到，还真有。。。是怎么回事呢？让我们继续往下看。

Ingress出现诡异的HTTP状态码“000”

在某天的下午，我们突然收到告警，埋点服务的接口报大量502，持续了大约2分钟，然后就自动恢复了，于是便开始排查问题所在。

临时存储超限导致的Pod集体驱逐故障排查

    Prometheus Alertmanager 作为 Prometheus 生态系统中的核心告警管理组件，主要专注于实时告警的接收、去重、分组和路由。然而，由于其设计上并未对告警数据进行持久化存储，这虽然简化了系统的复杂性，但也带来了一些局限性。

Prometheus Alertmanager告警数据持久化及可视化看板

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了SRE运维手记专栏，为你提供了SRE运维手记的相关文章，致力于帮助开发者快速成长与发展。

SRE运维手记

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐