文档中心>腾讯云数据库 AI 服务>实践教程>告警主动诊断推送至 IM 实践教程

告警主动诊断推送至 IM 实践教程

最近更新时间:2026-06-15 17:49:50

我的收藏

运维场景

在数据库日常运维中,企业通常面临以下告警管理挑战:
告警响应滞后:数据库告警需要人工登录控制台查看,缺少主动推送机制,故障发现和响应时间长,可能导致业务影响扩大。
告警噪音大、分析浅:传统告警系统仅推送原始告警事件,缺少智能聚合与根因分析能力,DBA 需花费大量时间逐条排查,效率低下。
告警处置经验难沉淀:告警处置依赖资深 DBA 的个人经验,难以形成标准化的自动诊断与处置流程。
腾讯云数据库 AI 服务 DatabaseClaw 提供 mysql-alert-inspector(告警订阅分析 Skill),能够自动拉取 Monitor + DBbrain 双路告警数据,进行汇总统计分析,并对 Top N 告警进行深度智能诊断,将包含事实、根因、建议和证据的完整分析报告主动推送至企业微信或飞书群,实现高危告警的实时诊断与感知。

解决方案

依托 DatabaseClaw 告警订阅分析、深度诊断双 Skill,自动聚合腾讯云可观测平台数据库智能管家 DBbrain 告警,精准筛选高危问题并输出含根因与建议的智能报告,实时推送到 IM 工具,实现高危告警的实时诊断与感知。
mysql-alert-inspector:MySQL(CDB)智能告警订阅分析,通过自然语言描述实例范围,自动拉取 Monitor + DBbrain 双路告警数据,进行汇总统计并对 Top N 告警进行深度智能诊断,支持定时任务和 IM 推送。
cdb-diagnose-tdai:MySQL(CDB)智能诊断,将问题描述直接交给 DatabaseClaw 诊断 Agent 处理,覆盖 CPU 高、慢 SQL、主从复制延迟、HA 切换四大场景的一键诊断。

方案优势

主动推送:告警诊断报告自动推送至企业微信或飞书群,无需人工登录控制台,故障感知从被动变为主动。
智能诊断:AI 自动对 Top N 高危告警调用专项诊断 Skill 进行深度分析,输出事实、根因、建议和证据的完整报告,诊断质量与资深 DBA 对齐。
灵活调度:支持滚动间隔和 Cron 表达式两种调度方式,可按业务需求灵活配置告警分析频率。
降噪聚合:通过多层数据聚合和优先级评分算法,从海量告警中精准筛选出最需关注的问题,有效减少告警噪音。

应用场景

场景
核心痛点
方案关键能力
推荐调度策略
高危告警无人响应
非工作时段告警无法及时触达
定时分析 + IM 主动推送
每小时,仅致命/Serious
告警风暴淹没关键信息
低优先级噪音大,高危告警被淹没
多层聚合 + 优先级评分 + Top N 深度诊断
每小时,Top 3~5 深度诊断
多地域告警碎片化
跨地域跨业务缺乏统一视角
按业务标签分组 + 分层订阅
业务线每小时 + 全局每天

实践建议

1. 合理规划订阅实例范围

单个定时任务建议通过业务标签区分接入,按业务维度进行告警订阅与分析。
如果业务地域明确,且实例分布较为集中,建议在任务中显式指定实例订阅范围
通过明确订阅范围并按业务分组,可以有效缩小实例数据量,提升 AI 从接口获取数据的效率,从而保障告警分析与诊断的时效性。

2. 优先订阅高危告警,减少噪音干扰

注意:
建议仅订阅高危告警,例如:
DBbrain:等级为致命的告警
可观测平台:等级为 Serious 的告警
同时,建议将默认推送策略设置为无风险不推送,避免大量信息推送 IM 渠道造成干扰。
通过聚焦高危问题,DatabaseClaw 可以更集中地进行深度诊断与结果推送,提升告警处理效率和问题响应质量。

3. 明确告警发送格式,提升订阅配置成功率

在配置告警订阅 Skill 时,建议在提示词中明确告警发送格式和发送方式,使用指定 Channel 或标准模板,避免仅让模型自行判断如何处理或推送告警。

自然语言指令样例

企业微信
帮我创建一个定时任务对MySQL 告警订阅分析
调用策略:5分钟一次
实例范围:清远地域所有 MySQL 实例(含只读)
告警范围:仅订阅高危告警
要求按照企业微信的指定格式推送给我,格式为: POST https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx Content-Type: application/json { "msgtype": "markdown", "markdown": { "content": "Agent 生成的 markdown 内容" } }
飞书
帮我创建一个定时任务对MySQL 告警订阅分析
调用策略:5分钟一次
实例范围:清远地域所有 MySQL 实例(含只读)
告警范围:仅订阅高危告警
要求按照飞书的指定格式推送给我,格式为:POST https://open.feishu.cn/open-apis/bot/v2/hook/xxx Body: {"msg_type":"interactive","card":{"elements":[{"tag":"markdown","content":"Agent 生成的 markdown 内容"}]}}

操作示例(企业微信)

步骤一:前置准备

下表列出了开始本实践前需满足的条件:
条件
说明
腾讯云账号
已完成 实名认证
腾讯云数据库 AI 服务
已开通腾讯云数据库 AI 服务,并创建了 DatabaseClaw 实例,参见 创建 DatabaseClaw 实例
CDB 实例
至少已创建一个云数据库 MySQL(CDB)实例,且实例处于运行状态。
DBbrain 服务
已为目标 MySQL 实例开通数据库智能管家(DBbrain)服务。
可观测平台
已为目标 MySQL 实例配置可观测平台(Monitor)告警策略。

步骤二:通过 IM 推送渠道接入企业微信

在企业微信创建机器人并加入群聊,具体操作请参见 接入企业微信
说明:
如果已经配置请忽略该步骤。

步骤三:自然语言订阅告警

2. 在左侧导航栏选择 DatabaseClaw > 实例管理
3. 单击目标实例卡片,进入对话页面。
4. 发送以下自然语言指令。
帮我创建一个定时任务对MySQL 告警订阅分析
调用策略:5分钟一次
实例范围:北京地域所有 MySQL 实例(含只读)
告警范围:仅订阅高危告警
不带 Delivery,让 Agent 在任务执行时自行通过 curl 按企微 webhook推送
通过webhook地址 https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=b044167e-1af8-4609-9d35-8d16f71ef419 要求按照企业微信webhook的指定格式推送给我,格式为: POST https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx Content-Type: application/json { "msgtype": "markdown", "markdown": { "content": "Agent 生成的 markdown 内容" } }
说明:
实例范围可以用自然语言描述,如果地域集中建议直接指定地域,AI 在调用接口的时候可以直接输入 region,减少访问所有地域的拉取实例的耗时。

5. 根据回显内容确认配置,系统即可自动创建任务。


步骤四:验证推送效果

当告警定时任务完成后,会直接将告警订阅分析报告推送至步骤二已经配置的企业微信机器人对应的群聊窗口,具体推送信息示例如下:

说明:
Skill 中默认无告警时不推送,如需验证通道是否打通可以先把参数无风险跳过推送改成 false。

mysql-alert-inspector 订阅告警 Skill 介绍

mysql-alert-inspector 通过自然语言描述实例范围,自动拉取可观测平台(Monitor)和数据库智能管家(DBbrain)双路告警数据,进行汇总统计分析,并对 Top N 告警进行深度智能诊断,生成包含事实、根因、建议和证据的完整分析报告。
分布式缓存数据库(兼容 Redis)的订阅告警 Skill 功能类似,不重复展开介绍。

核心能力

能力
说明
双路告警采集
同时拉取可观测平台(Monitor)和 DBbrain 两路告警数据,交叉覆盖不遗漏。
多实例批量分析
支持跨地域最多 500 个实例,可按地域全量、实例 ID、名称前缀、标签等维度筛选。
智能评分排序
基于严重等级 × 触发次数 × 持续时长的优先级评分算法,自动筛选最值得关注的 Top N 告警。
深度诊断
对 Top N 告警自动匹配专项诊断 Skill,输出事实、根因、建议、证据。
定时订阅
创建周期性自动巡检任务(支持滚动间隔 / cron 表达式),定期执行并推送结果。
IM 推送
分析结果可推送到企微/飞书群,无告警时自动跳过推送(可配置)。
报告归档
自动生成 Markdown 报告并上传 COS,生成预签名下载链接。

可配置参数

参数
默认值
说明
实例范围
必填
地域全量、指定实例 ID、名称前缀、标签过滤。
时间窗口
3600秒(1小时)
告警查询回溯时长,范围 60s ~ 30天。
DBbrain 风险等级
[1,2,3](致命/严重/告警)
可选 1-5:1=致命、2=严重、3=告警、4=提示、5=健康。
Monitor 告警等级
["Serious"]
Serious:高危、Warn:警告、Remind:提醒。
深度诊断条数
5
Top N 深度展开分析,范围 1-20。
无风险跳过推送
true
无告警时不推送,减少噪音。

常见问题

Q1:告警分析报告中没有 DBbrain 告警数据?

请确认以下几点:
目标 CDB 实例已开通 DBbrain 服务。
创建任务时 dbbrain_enabled 参数为 true
指定的时间窗口内确实存在 DBbrain 检测到的异常事件。
如果使用全量模式(未指定具体实例 ID),DBbrain 数据源将自动跳过,仅分析 Monitor 告警。建议显式指定实例范围以启用 DBbrain 数据源。

Q2:如何修改或删除已创建的定时任务?

目前可通过 DatabaseClaw 对话界面管理定时任务。您可以发送以下类型的指令:
查看定时任务:“查看当前所有告警订阅定时任务”
修改任务参数:“修改定时任务 cdb-alert-daily-0200 的执行时间为凌晨 3 点”
暂停/删除任务:“暂停定时任务 cdb-alert-daily-0200”