运维场景
在数据库日常运维中,企业通常面临以下告警管理挑战:
告警响应滞后:数据库告警需要人工登录控制台查看,缺少主动推送机制,故障发现和响应时间长,可能导致业务影响扩大。
告警噪音大、分析浅:传统告警系统仅推送原始告警事件,缺少智能聚合与根因分析能力,DBA 需花费大量时间逐条排查,效率低下。
告警处置经验难沉淀:告警处置依赖资深 DBA 的个人经验,难以形成标准化的自动诊断与处置流程。
腾讯云数据库 AI 服务 DatabaseClaw 提供 mysql-alert-inspector(告警订阅分析 Skill),能够自动拉取 Monitor + DBbrain 双路告警数据,进行汇总统计分析,并对 Top N 告警进行深度智能诊断,将包含事实、根因、建议和证据的完整分析报告主动推送至企业微信或飞书群,实现高危告警的实时诊断与感知。
解决方案
依托 DatabaseClaw 告警订阅分析、深度诊断双 Skill,自动聚合腾讯云可观测平台与数据库智能管家 DBbrain 告警,精准筛选高危问题并输出含根因与建议的智能报告,实时推送到 IM 工具,实现高危告警的实时诊断与感知。
mysql-alert-inspector:MySQL(CDB)智能告警订阅分析,通过自然语言描述实例范围,自动拉取 Monitor + DBbrain 双路告警数据,进行汇总统计并对 Top N 告警进行深度智能诊断,支持定时任务和 IM 推送。
cdb-diagnose-tdai:MySQL(CDB)智能诊断,将问题描述直接交给 DatabaseClaw 诊断 Agent 处理,覆盖 CPU 高、慢 SQL、主从复制延迟、HA 切换四大场景的一键诊断。
方案优势
主动推送:告警诊断报告自动推送至企业微信或飞书群,无需人工登录控制台,故障感知从被动变为主动。
智能诊断:AI 自动对 Top N 高危告警调用专项诊断 Skill 进行深度分析,输出事实、根因、建议和证据的完整报告,诊断质量与资深 DBA 对齐。
灵活调度:支持滚动间隔和 Cron 表达式两种调度方式,可按业务需求灵活配置告警分析频率。
降噪聚合:通过多层数据聚合和优先级评分算法,从海量告警中精准筛选出最需关注的问题,有效减少告警噪音。
应用场景
场景 | 核心痛点 | 方案关键能力 | 推荐调度策略 |
高危告警无人响应 | 非工作时段告警无法及时触达 | 定时分析 + IM 主动推送 | 每小时,仅致命/Serious |
告警风暴淹没关键信息 | 低优先级噪音大,高危告警被淹没 | 多层聚合 + 优先级评分 + Top N 深度诊断 | 每小时,Top 3~5 深度诊断 |
多地域告警碎片化 | 跨地域跨业务缺乏统一视角 | 按业务标签分组 + 分层订阅 | 业务线每小时 + 全局每天 |
实践建议
1. 合理规划订阅实例范围
单个定时任务建议通过业务标签区分接入,按业务维度进行告警订阅与分析。
如果业务地域明确,且实例分布较为集中,建议在任务中显式指定实例订阅范围。
通过明确订阅范围并按业务分组,可以有效缩小实例数据量,提升 AI 从接口获取数据的效率,从而保障告警分析与诊断的时效性。
2. 优先订阅高危告警,减少噪音干扰
注意:
建议仅订阅高危告警,例如:
DBbrain:等级为致命的告警
可观测平台:等级为 Serious 的告警
同时,建议将默认推送策略设置为无风险不推送,避免大量信息推送 IM 渠道造成干扰。
通过聚焦高危问题,DatabaseClaw 可以更集中地进行深度诊断与结果推送,提升告警处理效率和问题响应质量。
3. 明确告警发送格式,提升订阅配置成功率
在配置告警订阅 Skill 时,建议在提示词中明确告警发送格式和发送方式,使用指定 Channel 或标准模板,避免仅让模型自行判断如何处理或推送告警。
自然语言指令样例
企业微信
帮我创建一个定时任务对MySQL 告警订阅分析调用策略:5分钟一次实例范围:清远地域所有 MySQL 实例(含只读)告警范围:仅订阅高危告警要求按照企业微信的指定格式推送给我,格式为: POST https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx Content-Type: application/json { "msgtype": "markdown", "markdown": { "content": "Agent 生成的 markdown 内容" } }
飞书
帮我创建一个定时任务对MySQL 告警订阅分析调用策略:5分钟一次实例范围:清远地域所有 MySQL 实例(含只读)告警范围:仅订阅高危告警要求按照飞书的指定格式推送给我,格式为:POST https://open.feishu.cn/open-apis/bot/v2/hook/xxx Body: {"msg_type":"interactive","card":{"elements":[{"tag":"markdown","content":"Agent 生成的 markdown 内容"}]}}
操作示例(企业微信)
步骤一:前置准备
下表列出了开始本实践前需满足的条件:
条件 | 说明 |
腾讯云账号 | |
腾讯云数据库 AI 服务 | |
CDB 实例 | 至少已创建一个云数据库 MySQL(CDB)实例,且实例处于运行状态。 |
DBbrain 服务 | 已为目标 MySQL 实例开通数据库智能管家(DBbrain)服务。 |
可观测平台 | 已为目标 MySQL 实例配置可观测平台(Monitor)告警策略。 |
步骤二:通过 IM 推送渠道接入企业微信
说明:
如果已经配置请忽略该步骤。
步骤三:自然语言订阅告警
1. 登录 数据库 AI 服务控制台。
2. 在左侧导航栏选择 DatabaseClaw > 实例管理。
3. 单击目标实例卡片,进入对话页面。
4. 发送以下自然语言指令。
帮我创建一个定时任务对MySQL 告警订阅分析调用策略:5分钟一次实例范围:北京地域所有 MySQL 实例(含只读)告警范围:仅订阅高危告警不带 Delivery,让 Agent 在任务执行时自行通过 curl 按企微 webhook推送通过webhook地址 https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=b044167e-1af8-4609-9d35-8d16f71ef419 要求按照企业微信webhook的指定格式推送给我,格式为: POST https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx Content-Type: application/json { "msgtype": "markdown", "markdown": { "content": "Agent 生成的 markdown 内容" } }
说明:
实例范围可以用自然语言描述,如果地域集中建议直接指定地域,AI 在调用接口的时候可以直接输入 region,减少访问所有地域的拉取实例的耗时。

5. 根据回显内容确认配置,系统即可自动创建任务。

步骤四:验证推送效果

说明:
Skill 中默认无告警时不推送,如需验证通道是否打通可以先把参数无风险跳过推送改成 false。
mysql-alert-inspector 订阅告警 Skill 介绍
mysql-alert-inspector 通过自然语言描述实例范围,自动拉取可观测平台(Monitor)和数据库智能管家(DBbrain)双路告警数据,进行汇总统计分析,并对 Top N 告警进行深度智能诊断,生成包含事实、根因、建议和证据的完整分析报告。
分布式缓存数据库(兼容 Redis)的订阅告警 Skill 功能类似,不重复展开介绍。
核心能力
能力 | 说明 |
双路告警采集 | 同时拉取可观测平台(Monitor)和 DBbrain 两路告警数据,交叉覆盖不遗漏。 |
多实例批量分析 | 支持跨地域最多 500 个实例,可按地域全量、实例 ID、名称前缀、标签等维度筛选。 |
智能评分排序 | 基于严重等级 × 触发次数 × 持续时长的优先级评分算法,自动筛选最值得关注的 Top N 告警。 |
深度诊断 | 对 Top N 告警自动匹配专项诊断 Skill,输出事实、根因、建议、证据。 |
定时订阅 | 创建周期性自动巡检任务(支持滚动间隔 / cron 表达式),定期执行并推送结果。 |
IM 推送 | 分析结果可推送到企微/飞书群,无告警时自动跳过推送(可配置)。 |
报告归档 | 自动生成 Markdown 报告并上传 COS,生成预签名下载链接。 |
可配置参数
参数 | 默认值 | 说明 |
实例范围 | 必填 | 地域全量、指定实例 ID、名称前缀、标签过滤。 |
时间窗口 | 3600秒(1小时) | 告警查询回溯时长,范围 60s ~ 30天。 |
DBbrain 风险等级 | [1,2,3](致命/严重/告警) | 可选 1-5:1=致命、2=严重、3=告警、4=提示、5=健康。 |
Monitor 告警等级 | ["Serious"] | Serious:高危、Warn:警告、Remind:提醒。 |
深度诊断条数 | 5 | Top N 深度展开分析,范围 1-20。 |
无风险跳过推送 | true | 无告警时不推送,减少噪音。 |
常见问题
Q1:告警分析报告中没有 DBbrain 告警数据?
请确认以下几点:
目标 CDB 实例已开通 DBbrain 服务。
创建任务时
dbbrain_enabled 参数为 true。指定的时间窗口内确实存在 DBbrain 检测到的异常事件。
如果使用全量模式(未指定具体实例 ID),DBbrain 数据源将自动跳过,仅分析 Monitor 告警。建议显式指定实例范围以启用 DBbrain 数据源。
Q2:如何修改或删除已创建的定时任务?
目前可通过 DatabaseClaw 对话界面管理定时任务。您可以发送以下类型的指令:
查看定时任务:“查看当前所有告警订阅定时任务”
修改任务参数:“修改定时任务 cdb-alert-daily-0200 的执行时间为凌晨 3 点”
暂停/删除任务:“暂停定时任务 cdb-alert-daily-0200”