前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云消息队列(Ckafka)监控最佳指南

腾讯云消息队列(Ckafka)监控最佳指南

作者头像
腾讯云可观测平台
发布于 2020-12-18 08:11:00
发布于 2020-12-18 08:11:00
3.8K0
举报

作者:朱丹阳,腾讯云监控开发工程师

腾讯云消息队列 CKafka 简介

消息队列 CKafka(Cloud Kafka)是基于开源 Apache Kafka 消息队列引擎,提供高吞吐性能、高可扩展性的消息队列服务。消息队列 CKafka 完美兼容 Apache Kafka 0.9、0.10、1.1、2.4 版本接口,在性能、扩展性、业务安全保障、运维等方面具有超强优势,让您在享受低成本、超强功能的同时,免除繁琐运维工作。

产品特点:

  • 收发解耦:有效解耦生产者、消费者之间的关系。在确保同样的接口约束的前提下,允许独立扩展或修改生产者 / 消费者间的处理过程。
  • 削峰填谷:消息队列 CKafka 能够抵挡突增的访问压力,不会因为突发的超负荷的请求而完全崩溃,有效提升系统健壮性。
  • 顺序读写:消息队列 CKafka 能够保证一个 Partition 内消息的有序性。和大部分的消息队列一致,消息队列 CKafka 可以保证数据按照顺序进行处理,极大提升磁盘效率。
  • 异步通信:很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。

CKafka 基本概念和技术特征

01

基本概念

Producer 和 Consumer

  • Producer (生产者):生产者即数据的发布者,该角色将消息发布到 Kafka 的 topic 中。broker 接收到生产者发送的消息后,broker 将该消息追加到当前用于追加数据的 segment 文件中。生产者发送的消息,存储到一个 partition 中,生产者也可以指定数据存储的 partition。
  • Consumer (消费者):消费者可以从 broker 中读取数据。消费者可以消费多个 topic 中的数据。

Broker 与 Cluster

  • Broker:Kafka 集群包含一个或多个服务器,服务器节点称为 broker。
  • Cluster:多个 Broker 组成一个 Cluster。

Topic 与 Partition

  • Topic:(主题)是一个逻辑的概念,就是作为消息的归类,每一条发送到 Kafka 的消息都有一个类别,这就是 topic。producer 负责将消息发送到特定的 topic(发送到 Kafka 集群中的每一条消息都必须指定一个 topic),而 consumer 负责订阅 topic 并进行消费。
  • Partition:(分区)是物理的概念,每个 topic 包含一个或多个 Partition。一个分区只属于一个主题。

02

技术特征

高吞吐

消息队列 CKafka 中存在大量的网络数据持久化到磁盘和磁盘文件通过网络发送的过程。这一过程的性能直接影响 Kafka 的整体吞吐量,主要通过以下几点实现:

1. 高效使用磁盘:磁盘中顺序读写数据,提高磁盘利用率。

  • 写 message:消息写到 page cache,由异步线程刷盘。
  • 读 message:消息直接从 page cache 转入 socket 发送出去。
  • 当从 page cache 没有找到相应数据时,此时会产生磁盘 IO,从磁盘加载消息到 page cache,然后直接从 socket 发出去。

2. Broker 的零拷贝(Zero Copy)机制:使用 sendfile 系统调用,将数据直接从页缓存发送到网络上。

3. 减少网络开销

  • 数据压缩降低网络负载。
  • 批处理机制:Producer 批量向 Broker 写数据、Consumer 批量从 Broker 拉数据。

数据持久化

消息队列 CKafka 的数据持久化主要通过如下原理实现:

  • Topic 中 Partition 存储分布 在消息队列 CKafka 文件存储中,同一 Topic 有多个不同 Partition,每个 Partition 在物理上对应一个文件夹,用户存储该 Partition 中的消息和索引文件。例如,创建两个 Topic,Topic1 中存在 5 个 Partition,Topic2 中存在 10 个 Partition,则整个集群上会相应生成 5 + 10 = 15 个文件夹。
  • Partition 中文件存储方式 Partition 物理上由多个 segment 组成,每个 segment 大小相等,顺序读写,快速删除过期 segment, 提高磁盘利用率。

水平扩展(Scale Out)

  • 一个 Topic 可包含多个 Partition,分布在一个或多个 Broker 上。
  • 一个消费者可订阅其中一个或者多个 Partition。
  • Producer 负责将消息均衡分配到对应的 Partition。
  • Partition 内消息是有序的。

Consumer Group

  • 消息队列 CKafka 不删除已消费的消息。
  • 任何 Consumer 必须属于一个 Group。
  • 同一 Consumer Group 中的多个 Consumer 不同时消费同一个 Partition。
  • 不同 Group 同时消费同一条消息,多元化(队列模式、发布订阅模式)。

多副本

多副本设计可增强系统可用性、可靠性。

CKafka 架构 & 监控指标

01

架构图 & 监控指标

相关概念:

  • Broker:kafka 服务器
  • Topic:消息类别
  • Partition:物理上的概念,一个 Topic 可以包含多个 Partition
  • Offset:消息在 partition 的唯一序号
  • Producer:生产者,负责发布消息
  • Consumer:消费者,负责消费消息
  • Consumer Group:消费者分组,消费者标签,用于将消费者分类
  • Zookeeper 集群:存储 meta 数据、leader 选举、故障容错等

02

全量指标列表

Period 为 60 秒和 5min

注:上方表格加粗的为核心指标

03

告警核心指标 & 最佳阈值

最佳实践

01

配置告警的核心指标及建议阈值

1. 消息服务 CKafka - 实例

磁盘使用百分比 > 80%

注:代表集群容量使用率,集群容量使用率达到 100% 会被写封禁,影响用户写入,所以需要用户注意提前扩容。

实例连接数百分比 > 80%

注:预防实例连接数过多,导致实例无法建立更多连接造成客户端无法访问 Ckafka 集群。

实例生产带宽百分比 > 80%

注:实例生产带宽百分比 (占用配额百分比),预防生产带宽过高,导致生产消息失败。

实例消费带宽百分比 > 80%

注:实例消费带宽百分比 (占用配额百分比),预防消费带宽过高,导致消费消息失败。

2. CKafka-Topic

Topic 生产流量 > 6000MB

注:按照所选择的时间粒度统计求和,需要根据需求来设置阈值的大小,预防消息生产速度过慢。

Topic 消费流量 > 6000MB

注:按照所选择的时间粒度统计求和,需要根据需求来设置阈值的大小,预防消息消费速度过慢,同时预防客户端出现 Rebalance。

3. CKafka-ConsumerGroup-Topic

主题级别未消费消息个数 > 100000

注:需要根据需求来设置阈值的大小,防止消费数据过慢,导致消息积压,预防业务中消费消息的实时性。

4. CKafka-ConsumerGroup-Partition

消费分组未消费消息数 > 100000

注:需要根据需求来设置阈值的大小,防止消费数据过慢,导致消息积压,预防业务中消费消息的实时性,同时预防客户端出现 Rebalance。

注意:如何避免客户端出现 Rebalance?

消息队列 Kafka 的 Consumer 没有独立线程维持心跳,而是把心跳维持与 poll 接口耦合在一起,如果用户消费出现卡顿会导致心跳超时,引发 Rebalance。

解决方案:

1. 尽量提高消费速度;

2. max.poll.records 设置小一点,这个参数是配置控制心跳的超时事件,可以由客户端自行设置;

3. session.timeout.ms 设置大一点,这个参数控制每次 poll 返回的最大消息数量。

02

如何在腾讯云监控中配置 Dashboard 和告警,高效发现问题

1. 配置告警

https://console.cloud.tencent.com/monitor/overview 进入腾讯云监控,选择告警配置下告警策略,并新建告警策略。

设置消息队列告警:

1. 输入策略名称

2. 输入备注

3. 选择策略类型

4. 选择消息队列 Ckafka 实例

5. 设置告警指标及触发条件

6. 选择告警渠道,包括接收对象,接收渠道,有效时段,接收语言

7. 保存

配置的 Ckafka 实例告警总览

2. 配置 Dashboard

腾讯云监控 Dashboard 提供了消息队列 CKafka 的预设面板,点击 https://console.cloud.tencent.com/monitor/overview 进入腾讯云监控,选择 Dashboard,然后选择预设 Dashboard 下的消息队列 CKafka 预设面板。

设置 CKafka 的 Dashboard:

1. 选择 CKafka 实例

2. 选择 CKafka-Topic

3. 选择 CKafka-ConsumerGroup-Topic

4. 选择 CKafka-ConsumerGroup-Partition

选择完 CKafka 实例,CKafka-Topic,CKafka-ConsumerGroup-Topic,CKafka-ConsumerGroup-Partition 之后,会自动展示出预设的 Dashboard。

消息队列 CKafka 预设面板 总览:

欢迎联系云监控小助手微信号,加群讨论:)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云可观测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!
YOLO系列的核心思想就是把目标检测转变为一个回归问题,利用整张图片作为网络的输入,通过神经网络,得到边界框的位置及其所属的类别。
JOYCE_Leo16
2024/04/09
32.1K1
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!
YoloV8改进策略:AKConv即插即用,轻松涨点
提出了一种算法,用于生成任意尺寸卷积核的初始采样坐标。与常规卷积核相比,提出的AKConv实现了不规则卷积核的函数来提取特征,为各种变化目标提供具有任意采样形状和尺寸的卷积核,弥补了常规卷积的不足。在COCO2017和VisDrone-DET2021上进行目标检测实验,并进行了比较实验。结果表明,提出的AKConv方法在目标检测方面具有更好的性能。
AI浩
2024/10/22
1620
YoloV8改进策略:AKConv即插即用,轻松涨点
YoloV7改进策略:AKConv即插即用,轻松涨点
提出了一种算法,用于生成任意尺寸卷积核的初始采样坐标。与常规卷积核相比,提出的AKConv实现了不规则卷积核的函数来提取特征,为各种变化目标提供具有任意采样形状和尺寸的卷积核,弥补了常规卷积的不足。在COCO2017和VisDrone-DET2021上进行目标检测实验,并进行了比较实验。结果表明,提出的AKConv方法在目标检测方面具有更好的性能。
AI浩
2024/10/22
1580
YoloV7改进策略:AKConv即插即用,轻松涨点
Yolov8对接DCNV2
在计算机视觉领域中,目标检测是一项重要的任务。Yolov8是一种非常流行的目标检测算法,而DCNV2(Dilated Convolutional Network V2)则是一种卷积神经网络,被广泛用于语义分割任务。本文将介绍如何将Yolov8与DCNV2相结合,实现目标检测和语义分割的联合任务。
大盘鸡拌面
2023/11/22
6680
YOLOv8独家原创改进: AKConv(可改变核卷积),即插即用的卷积,效果秒杀DSConv | 2023年11月最新发表
💡💡💡💡💡💡​​​​​​​💡💡💡 论文作者邀请推广系列 💡💡💡💡💡💡💡💡💡💡💡💡💡💡💡💡💡💡
AI小怪兽
2023/11/27
1.7K0
YOLO家族系列模型的演变:从v1到v8(下)
昨天的文章中,我们回顾了 YOLO 家族的前 9 个架构。本文中将继续总结最后3个框架,还有本月最新发布的YOLO V8.
deephub
2023/02/01
2.9K0
YOLO-ELA 高效的局部注意建模,用于高性能实时缺陷检测 !
确保输电线路基础设施的可靠运行对保证稳定供电,满足个人和企业能源需求至关重要。因此,对输电塔组件(如绝缘子)的缺陷进行检查和维护对于确保电网系统安全运行至关重要。绝缘子为导体和支撑电缆提供绝缘,容易受到恶劣天气条件或电磁应力的损坏(Sanyal等人,2020年)。这可能扰乱输电网络的顺畅运行,因此需要定期检查和维护以识别并更换损坏的绝缘子。
未来先知
2024/10/29
4840
YOLO-ELA 高效的局部注意建模,用于高性能实时缺陷检测 !
可变形卷积DCN的深入解析及在PAMAP2数据集上的实战
可变形卷积网络(Deformable Convolutional Network,简称DCN)是计算机视觉领域中一种颇具创新性的神经网络模型。它结合了传统卷积神经网络(CNN)的局部特征提取能力,又通过引入可变形的卷积操作,赋予了模型更大的灵活性,在图像分类、目标检测等任务中展现出优异的表现。
是Dream呀
2025/04/22
1600
YOLO系列介绍(三)
YOLOV7 是 YOLOV4 的原班人马于 2022 年提出的最新的 YOLO 版本。 YOLOv7 的在速度和精度上的表现也优于 YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR 等多种目标检测器。
算法之名
2022/11/16
3.2K0
YOLO系列介绍(三)
ASF-YOLO开源 | YOLOv5范式永不言败,SSFF融合+TPE编码+CPAM注意力,再战精度巅峰!
随着样本制备技术和显微成像技术的快速发展,细胞图像的定量处理和分析在医学和细胞生物学等领域中发挥着重要作用。基于卷积神经网络(CNN),通过神经网络训练可以学习不同细胞图像的特征信息,具有较强的泛化性能。两阶段R-CNN系列及其一阶段变体是经典的基于CNN的实例分割任务框架。
集智书童公众号
2023/12/13
2K0
ASF-YOLO开源 | YOLOv5范式永不言败,SSFF融合+TPE编码+CPAM注意力,再战精度巅峰!
RCS-YOLO | 比YOLOv7精度提高了2.6%,推理速度提高了60%
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
集智书童公众号
2023/09/04
1.6K0
RCS-YOLO | 比YOLOv7精度提高了2.6%,推理速度提高了60%
CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
相关研究提出一种基于 YOLO 的水下图像目标检测方法,引入一种改进的无锚点 YOLO 检测方法,将检测特征与识别特征分离,以减少特征间的相互干扰,提高检测精度。还提出一种基于 Retinex 的图像增强算法用于水下图像增强,并通过在水下数据集上的相关实验,验证了增强型 YOLO 检测方法的有效性。
计算机视觉研究院
2025/02/07
3970
CEH-YOLO:基于 YOLO 的水下目标检测复合增强模型
基于三维点云的卷积运算综述
3D传感器(如激光雷达和深度相机)的普及引起了人们对3D视觉的广泛关注,这些传感器采集的3D数据可以提供丰富的几何结构和尺度细节,这也在许多领域得到了实际应用,包括自动驾驶技术[1]、机器人控制技术[2]等。
一点人工一点智能
2024/01/09
8051
基于三维点云的卷积运算综述
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
鉴于高发病率和死亡率,脑肿瘤是全球健康关注的重点问题。通过利用深度学习算法等最先进技术,自动化检测技术可以有效解决脑肿瘤识别的挑战。将自动化检测融入医疗流程,有望通过革新脑肿瘤的管理方式显著提高患者疗效和医疗服务,尤其是随着技术的发展。最先进的目标检测方法YOLO在估算每个网格单元的类别概率和边界框时,将输入图像划分为网格。
集智书童公众号
2024/05/17
8130
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
无人机航拍技术已广泛应用于城市规划、交通监控、灾害评估等领域。通过自动分析航拍图像中的目标(如车辆、行人、建筑物),我们可以快速获取地理信息、监测城市动态。然而,现有的检测算法在复杂环境下的小目标识别和准确率方面存在不足。针对这一问题,本文提出了一种基于YOLOv8的改进模型,即MPE-YOLO。
CoovallyAIHub
2025/04/29
4990
复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
综述:深度学习时代的目标检测算法
来源:https://zhuanlan.zhihu.com/p/33277354 目前目标检测领域的深度学习方法主要分为两类:two stage的目标检测算法;one stage的目标检测算法。前者是
朱晓霞
2018/04/18
8750
综述:深度学习时代的目标检测算法
基于改进 YOLOv10 的自助结算系统 !
受到数字革命的推动,传统零售商店面临着众多转型挑战与机遇。随着消费者需求的多样化以及购物行为的快速演变,传统零售店结账流程的低效率问题日益凸显,常常导致客户体验不佳。尤其是在高峰时段,顾客可能需要长时间等待支付,这负面影响了他们的购物体验,并限制了商店的容量和销售增长潜力。
未来先知
2024/08/13
3810
基于改进 YOLOv10 的自助结算系统 !
清华大学计图团队首创三角网格面片上的卷积神经网络,首次取得100%正确率
机器之心发布 清华大学计图团队 清华大学 Jittor 团队提出了一种基于细分结构的网格卷积网络 SubdivNet。该方法首先将输入网格进行重网格化(remesh),构造细分结构,得到一般网格的多分辨率表示,并提出了直观灵活的面片卷积方法、上 / 下采样方法,并将成熟的图像网络架构迁移到三维几何学习中。 近日,清华大学计图 (Jittor) 团队提出了一种针对三角网格的卷积神经网络,在两个网格分类数据集上首次取得 100% 正确率,在其他多个几何学习任务中,性能显著超过现有方法。 尤为重要的是,这种基于细
机器之心
2023/03/29
7310
清华大学计图团队首创三角网格面片上的卷积神经网络,首次取得100%正确率
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
MMYOLO采用了模块化的设计,这使得研究人员和开发者可以轻松地组合不同的模型组件(如backbone、neck、head)以构建新的检测器。框架支持多种流行的卷积神经网络(CNNs),如YOLOv5, YOLOv6, YOLOX等,并提供了训练、验证和推理的一体化解决方案。MMYOLO定位为YOLO系列热门开源库以及工业应用核心库。
CoovallyAIHub
2025/01/22
5200
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
作者提出了Mamba-YOLO,它基于SSM,为YOLO系列在目标检测方面建立了新的基准。实验结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力,在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。
马上科普尚尚
2024/07/05
3.5K0
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
推荐阅读
相关推荐
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档