背景信息
业务侧仅能获取分布式缓存数据库服务端监控数据,无法掌握从客户端发起请求到收到响应的完整链路耗时。当出现时延问题时,由于缺乏客户端视角的耗时数据,难以快速判断问题发生在哪个环节。此外,偶发性时延抖动难以捕捉,缺乏历史数据支撑回溯分析,运维人员只能借助抓包等工具辅助排查,效率低且成本高。
方案概述
业务全链路监控功能旨在将腾讯云账号下所有分布式缓存数据库实例的全生命周期时延数据,统一投递到日志服务(Cloud Log Service,CLS)进行集中分析。CLS 对分布式缓存数据库的监控数据进行聚合采集和结构化存储,将分散的时延指标转化为统一的日志格式进行展示,从而实现对分布式缓存数据库性能的全面监控与深度分析。
说明:
当前仅支持客户端使用 Spring Boot + Lettuce 框架的场景。

阶段 | 主要功能 | |
创建日志集 | 创建 CLS 日志集,用于以日志结构存储监控数据。 | |
| 分配监控数据上报专有通道 | 系统根据私有网络自动分配专有上报通道,返回以下信息: VIP:通道访问地址。 VPORT:通道访问端口。 Token:上报认证凭证。 |
配置环境 | 全链路监控功能仅支持 Spring Boot + Lettuce 框架,组件版本要求如下: Lettuce:6.4.2.RELEASE 及以上。 Spring Boot:3.4.3及以上。 | |
| 配置上报参数 | 配置专有通道访问地址与认证 Token。 配置需上报的请求延迟指标。 |
数据处理 | 数据采集并上报 | Lettuce 对每个命令进行延迟统计,并在统计窗口内对同类命令的延迟进行聚合。 Spring Boot 通过 OTLP(OpenTelemetry Protocol)协议上报时延数据。 说明: OTLP 作为 OpenTelemetry 项目的标准传输协议,具备高效、可扩展的特性,能够准确捕获每一次 分布式缓存数据库操作的时延信息,包括命令执行时间、网络传输延迟等关键指标。 |
| 数据聚合存储 | CLS 按时间窗口对原始监控指标进行聚合计算。 以键值对(Key-Value)的日志结构存储监控数据,便于检索查询和数据分析。 |
CLS 日志集 | 以柱状图形式直观展示日志分布和时延变化。 监控数据日志集展示,可进行检索分析 | |
| 全链路视图 | 基于聚合后的监控数据,分布式缓存数据库控制台提供全链路可视化展示: 时延趋势图:按时间维度展示时延变化趋势,便于发现性能波动。 监控日志表格:以表格形式统计展示各请求的详细时延数据。 |