首页
学习
活动
专区
圈层
工具
发布

#集群

我终于理解,为什么很多 Kubernetes 运维离不开 K9s

一根头发丝的宽度

它不是 GUI,也不是 Web Dashboard,而是一种非常典型的 Linux 运维风格工具。

000

从物理逃到AI的天才说:别把时间浪费在伺候"老登"上

江南一点雨

这是有小伙伴在群里推荐的一个B站视频,松哥花了一整个下午听完,4个小时的访谈,信息密度高到炸裂,但也真的过瘾。

100

一文分清 NVIDIA 三大专家认证AII/AIO/AIN,拿捏 AI 基建时代职场红利

GPUS Lady

当前算力基建已是 AI 领域核心风口,国内2026年度投资规模预估将突破 1.5 万亿元,行业预测未来五年的复合年均增长率保守超 40%,至2030年将超过5万...

200

7250亿美元的AI军备竞赛:四大科技巨头疯狂砸钱,到底在赌什么?

老周聊架构

这是 Meta、Amazon、Microsoft、Alphabet 四家公司在 2026 年的资本开支总额。几乎全部砸向同一个方向——数据中心、自研芯片、GPU...

200

华为AI芯片-昇腾310安装k8s+KubeSphere进行NPU统一管理和调度

编码如写诗

昇腾310是华为发布的首款NPU人工智能芯片,其增强版昇腾310B提供了20TOPS的算力,功耗却仅为8W,是一款面向边缘推理场景的AI处理器。这里我们将多颗昇...

8610

故障演练 EP.3:让 etcd 多数派失效,Kubernetes 控制平面还能恢复吗?

一根头发丝的宽度

前两篇演练,分别演示了Master和负载均衡器的故障,K8s集群都稳如老狗。今天,对整个集群的“命脉”——etcd下手!

14310

OFC 2026: 光模块的可靠性与失效模式

光学小豆芽

今年的OFC大会上,多个云服务商作为光模块使用方,分享了其在数据中心部署过程中观测到的光模块失效模式以及可靠性数据。对于AI集群,数万颗GPU协同运行,如果某条...

16410

词元时代算力先行,摩尔线程云边端产品全面亮相

芯智讯

5月18日,摩尔线程在北京举办主题为“词元时代,万物智能”的年度产品发布会。在Agentic AI驱动词元(Token)需求呈指数级跃升的关键节点,万物智能处于...

14210

新一代通信网,到底指的是什么?

FPGA技术江湖

值得一提的是,这个算力网,不仅仅是算内(算力集群内部的高速互联)和算间(算力集群之间的高速互联,两者都主要服务于模型训练),还包括入算(即用户终端与算力集群之间...

15510

故障演练 EP.2:我把 Keepalived 和 HAProxy 一起打挂了,Kubernetes 还能活吗?

一根头发丝的宽度

如果这台 LB 挂了,VIP 漂不走、HAProxy 起不来,那你精心设计的 3 Master 就瞬间变成了 “看得见却摸不着”的集群。

9310

故障演练 EP.1:一台 Master 宕机,Kubernetes 居然毫无感知

一根头发丝的宽度

在动手之前,最重要的一件事就是: 确认整个集群当前完全健康,并记录下每一个关键状态。

9410

从单 Master 到企业级 HA:我用 HAProxy + Keepalived 手动扛起 VIP,脚本化拉起 3 Master Kubernetes 集群

一根头发丝的宽度

18910

从零学习Kafka:消费者组重平衡

Jackeyzhe

Kafka 通过多次小的调整,来避免整个集群长时间停止工作,以此来减少重平衡对于整体集群的影响。这一进化是不是有点像 JVM 的 GC 从传统垃圾回收器进化到 ...

10710

4节点DGX Spark分布式大模型推理集群搭建、实测数据与踩坑总结

GPUS Lady

本次集群采用「计算节点+控制节点+高速网络+管理网络」的分层架构,兼顾算力性能、网络传输效率与集群稳定性,具体硬件配置如下:

34810

告别 HPA 抖动:十个技巧让你的 Pod 扩缩容稳定到哭

东风微鸣

这玩意儿,Kubernetes HPA,说简单也简单,只要一个 kubectl autoscale 就能搞定。但是,真正上了生产,你才会发现,那该死的“抖动”有...

10210

万亿参数模型到底多烧钱?国产AI芯片能不能跑?算力国产替代的大棋局

老周聊架构

美团 LongCat-2.0 更是全程用国产算力集群完成训练,动用 5-6万张算力卡,创下国产算力训练万亿参数模型的最大规模纪录。

57810

100多G数据同步引发的MySQL集群“连环炸”,我是如何一步步恢复的?

悟空聊架构

五一上线期间,我们迎来了一场不小的挑战:新系统需要将旧系统(SQL Server)中 100 多 G 的历史数据同步过来,同步方式采用了 DataX 工具 与 ...

10210

3-4月产品月报 | CKafka 公网架构与管理能力全面升级,RocketMQ 5.x 集群能力增强

腾讯云中间件团队

1-2月产品月报 | TDMQ CKafka Serverless 形态正式商业化,TDMQ MQTT 版推出铂金版

9110

从 0 到企业级私有云 | 跑通 GitOps 了:ArgoCD + Gitea 实战全记录

一根头发丝的宽度

18410
领券