首页
学习
活动
专区
圈层
工具
发布

#集群

ICT设备端口链路与配置合规性巡检手册(多厂商命令版)

ICT系统集成阿祥

阿祥汇总了一下啊华为、华三(H3C)、思科(Cisco)主流厂商设备,按“端口与链路状态巡检”“配置合规性巡检”两大核心模块整理,包含各厂商对应操作命令、关键信...

1000

当 GPU 成为主角:解锁 AI 集群中那 85% 的闲置 CPU 算力

深度学习与Python

近年来,全球 AI 算力规模按接近指数级的幅度增长,GPU 已然是整个数据中心的绝对主角,而 CPU 一般被认为只是承担数据预处理、任务调度和通信协同的次要部分...

3400

Google Jupiter DCN揭秘:Apollo OCS光交换,重构传统CLOS迈向百万卡集群的范式革命

AGI小咖

本文深度剖析Google Jupiter DCN 在迈向 Exaflops(百亿亿次)算力时代的架构演进,揭示其如何利用 Apollo OCS 光交换技术实现从...

5510

如何保证在云上传输的消息绝对不丢失?

gavin1024

5310

一文吃透 Redis:主从复制 / 哨兵 / 集群模式 + 缓存 + 分布式锁

用户11719958

广义上的集群,是指多个机器,构成的分布式系统,就可以称为一个集群,所以前面的主从复制和哨兵模式也可以看作是一个集群。

14630

【融合创新】六成TOP10券商选择腾讯云大数据平台,加速适配AI场景

腾讯QQ大数据

在架构演进上,TBDS大数据支持经典集群与云原生集群并行运行,券商可根据自身节奏逐步升级,同时还可通过统一元数据实现不同架构集群之间的数据互访,在保证业务连续性...

9810

零运维Kafka解决方案:腾讯云CKafka如何破解自建集群痛点?

gavin1024

Kafka作为实时数据流的核心基础设施,其自建集群面临运维复杂、成本高昂、弹性不足等难题。本文深入分析企业使用Kafka的痛点,提出云原生托管服务的解决方案,并...

9710

使用 Patroni + HAProxy + Keepalived + ETCD 搭建高可用的 PostgreSQL 集群

小徐

单机 PG 面临服务器硬件故障、操作系统崩溃或网络中断,便会导致业务中断,无法连续性的提供服务。单机架构缺乏高可用机制,无法自动故障转移,恢复依赖人工干预,操作...

16010

用Kubebuilder开发Operator ,写一个会自己运维的监控应用!

希里安

希里安这里已经有现成的集群了,如果大家不想手动,直接在如上环境准备内容中安装kind后一键式创建,执行以下命令快速创建一个测试集群吧!

12910

Cerebras的晶圆级算力革命

光芯

在AI与高性能计算(HPC)向更深层次、更复杂场景演进的今天,算力与延迟的矛盾日益凸显。Cerebras Systems自2016年成立以来,始终专...

8910

用Kubernetes Operator,将你的专业经验自动标准化!

希里安

可能有些人实际工作中在k8s集群中已经用了很多Operator,但是可能不太了解具体是怎么开发,不要着急,今天希里安就先和大家一起研究学习下,看看Operato...

7810

【探索实战】从分治到统一:Kurator统一应用分发功能重塑我们的跨云应用交付体验

用户11964452

准备集群:我们首先准备了一个运行在私有云中的Kubernetes集群作为主集群,并准备了另外两个分别位于阿里云和腾讯云的集群作为待接入的成员集群。

12210

【贡献经历】从提交第一个PR到深度共建:我在Kurator社区的成长与收获

用户11964452

作为一名云原生技术爱好者,我始终坚信,真正的技术成长不仅源于对知识的学习,更来自于在真实项目中的实践与贡献。在众多的开源项目中,我选择了Kurator——一个旨...

8410

英伟达Run:ai没做到的,被华为开源方案实现了

深度学习与Python

尽管 Run:ai 在宣布被收购时曾公布开源计划,并承诺逐步开放对 NVIDIA GPU 之外芯片的支持,但截至目前,其集群在硬件兼容性上仍高度受限,仅支持 N...

11010

Valkey 9.0 引入多数据库集群、原子级槽位迁移,并带来大幅性能提升

深度学习与Python

编号数据库(numbered databases) 长期用于隔离数据、防止键冲突,但在 Redis 以及之前的 Valkey 版本中,集群模式只能使用单一数据库...

12910

CDH集群Hue监控指标active requests异常上升分析与优化

用户4128047

在大数据平台日常运维中,Hue的active requests监控指标异常上升是一个常见且关键的性能问题,它不仅影响用户体验,更可能波及整个集群的稳定性。

8310

Apache Flink集群架构:核心角色与协同机制

用户4128047

引言作为分布式流处理领域的标杆框架,Flink通过精细的职责划分实现高效数据处理。其集群架构包含JobManager、TaskManager、ResourceM...

8600

hbase高可用部署

用户4128047

        要实现HBase集群的高可用部署(High Availability, HA),核心在于消除单点故障(特别是HMaster节点),并确保数据冗余...

7710

Doris 元数据恢复步骤

用户4128047

        以下是基于实际运维场景的 Doris 元数据恢复操作指南,综合备份恢复与紧急处理方案:

9210

elasticsearch高可用实现原理

用户4128047

        Elasticsearch 的高可用性主要通过分布式架构、数据冗余和自动故障转移机制实现,具体原理如下:

16110
领券