它不是 GUI,也不是 Web Dashboard,而是一种非常典型的 Linux 运维风格工具。
这是有小伙伴在群里推荐的一个B站视频,松哥花了一整个下午听完,4个小时的访谈,信息密度高到炸裂,但也真的过瘾。
当前算力基建已是 AI 领域核心风口,国内2026年度投资规模预估将突破 1.5 万亿元,行业预测未来五年的复合年均增长率保守超 40%,至2030年将超过5万...
这是 Meta、Amazon、Microsoft、Alphabet 四家公司在 2026 年的资本开支总额。几乎全部砸向同一个方向——数据中心、自研芯片、GPU...
昇腾310是华为发布的首款NPU人工智能芯片,其增强版昇腾310B提供了20TOPS的算力,功耗却仅为8W,是一款面向边缘推理场景的AI处理器。这里我们将多颗昇...
前两篇演练,分别演示了Master和负载均衡器的故障,K8s集群都稳如老狗。今天,对整个集群的“命脉”——etcd下手!
今年的OFC大会上,多个云服务商作为光模块使用方,分享了其在数据中心部署过程中观测到的光模块失效模式以及可靠性数据。对于AI集群,数万颗GPU协同运行,如果某条...
5月18日,摩尔线程在北京举办主题为“词元时代,万物智能”的年度产品发布会。在Agentic AI驱动词元(Token)需求呈指数级跃升的关键节点,万物智能处于...
值得一提的是,这个算力网,不仅仅是算内(算力集群内部的高速互联)和算间(算力集群之间的高速互联,两者都主要服务于模型训练),还包括入算(即用户终端与算力集群之间...
如果这台 LB 挂了,VIP 漂不走、HAProxy 起不来,那你精心设计的 3 Master 就瞬间变成了 “看得见却摸不着”的集群。
在动手之前,最重要的一件事就是: 确认整个集群当前完全健康,并记录下每一个关键状态。
Kafka 通过多次小的调整,来避免整个集群长时间停止工作,以此来减少重平衡对于整体集群的影响。这一进化是不是有点像 JVM 的 GC 从传统垃圾回收器进化到 ...
本次集群采用「计算节点+控制节点+高速网络+管理网络」的分层架构,兼顾算力性能、网络传输效率与集群稳定性,具体硬件配置如下:
这玩意儿,Kubernetes HPA,说简单也简单,只要一个 kubectl autoscale 就能搞定。但是,真正上了生产,你才会发现,那该死的“抖动”有...
美团 LongCat-2.0 更是全程用国产算力集群完成训练,动用 5-6万张算力卡,创下国产算力训练万亿参数模型的最大规模纪录。
五一上线期间,我们迎来了一场不小的挑战:新系统需要将旧系统(SQL Server)中 100 多 G 的历史数据同步过来,同步方式采用了 DataX 工具 与 ...
1-2月产品月报 | TDMQ CKafka Serverless 形态正式商业化,TDMQ MQTT 版推出铂金版