你有没有经历过这样的场景:凌晨三点,运维同事打电话说线上挂了,你迷迷糊糊打开电脑,发现是下午某次部署改坏了什么东西,但没人记得改了什么,也没人知道怎么回滚。于是...
本次更新不仅增强了服务器日志中用户数据的隐私保护,还显著提升了集群模式下的稳定性与内存管理能力。下面我们将从安全修复、Bug 修复、性能优化以及配置参数改进等多...
Oracle运维常见崩溃场景:监控显示异常空闲会话,执行Kill命令报错ORA-00030(会话ID不存在),OS层强杀进程后,GV$SESSION仍有“鬼影”...
比如电商平台的「全国商品销量榜」,用户广泛分布于华北、华东、华南三大核心区域,需在这三个地域分别部署 Kafka 集群,各区域用户行为数据直接写入本地 Kafk...
本文内容基于以太网联盟2025年TEF(Ethernet for AI)大会上,Meta AI架构师Halil Cirit的主题演讲《Transit...
我把话放这儿:只要你有一台能联网的Linux机器(甚至虚拟机),跟着我这篇走,半小时内你要是跑不起来一个带Ingress、带存储的K8s集群,我把键盘吃了。
外网一位技术博主曾录制过一期趣味十足的技术视频,视频中他详细分享了自己从4台NVIDIA DGX Spark硬件入手,逐步扩展至8台、搭建大模型训练与推理集群的...
A: NVIDIA 最近在 GitHub 上发布了详细的性能指南,可以在 build.nvidia.com/spark 页面找到链接。该指南提供了如何使用不同框...
2026年2月10日,Kubernetes 社区一次性发布了4个重要版本的更新:v1.35.1、v1.34.4、v1.33.8 和 v1.32.12。这是今年首...
ClusterIP 是 Kubernetes 服务网格的基石。它屏蔽了后端 Pod 的动态变化(IP 会变、数量会变),为集群内部提供了稳定的服务入口和自动负载...
如果说 ClusterIP 是为集群内部提供服务的“内网地址”,那么 NodePort 就是为集群外部打开的一扇“窗户”。它允许外部流量通过集群中每个节点(No...
如果说 ClusterIP 是内网地址,NodePort 是在每个节点上开窗户,那么 LoadBalancer 就是云厂商为你专门搭建的一座外部桥梁。它会自动请...
为什么想起来看版本发布文档,因为集群从1.34升级到1.35版本的时候发现升级失败了,就回头来看官方发布文档,找到了关键内容,具体的升级内容,这边重新再写一篇分...
Etcd数据库对于运维来说,最重要的是就集群状态的维护,但是etcd不光有集群维护的命令,还有其他想的命令,本小节做个简单介绍。
配额是什么:它是一个主动熔断阈值。当BoltDB文件大小达到配额时,etcd主动拒绝所有写请求,集群进入维护模式(仅读/删),并在日志中输出明确的mvcc: d...
虽然节点独立生成快照是常态,但某些场景下Leader必须向Follower发送快照——典型情况是新节点加入集群,或落后节点被Leader的日志压缩操作“甩开”太...
我们还是以我们刚刚搭建的节点Etcd集群来实现,3节点的集群目前只有100这个节点还在运行,另外2个节点无法恢复。
我们今天采用的是使用自己手动生成证书来部署Etcd集群,如果是Kubernetes可以使用kubeadmin来自动生成证书,但是我们如果我们是需要把Etcd集群...
作者介绍:简历上没有一个精通的运维工程师,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。
在分布式系统的世界里,Elasticsearch 以其强大的搜索和分析能力著称,但其运维复杂度也让不少工程师“头秃”。曾经,只有购买了高级订阅的用户才能享受 E...