事件通知

最近更新时间:2023-12-26 15:35:21

我的收藏
事件通知功能是将 DBbrain 7 * 24小时异常诊断模块的诊断结果,通过渠道(目前支持短信、电话、微信、企业微信、邮件、站内信)通知给用户或通过webhook (目前支持企业微信群机器人 webhook、钉钉群机器人 webhook、飞书群机器人 webhook)通知给对应企业微信群、钉钉群、飞书群。
用户可根据需要配置通知中的诊断项、通知事件、方式、接收人员等。
说明:
DBbrain 事件通知和腾讯云可观测平台告警有本质区别,腾讯云可观测平台指标告警是对特定指标的监控,当指标达到监控阈值时,通知客户对应的指标告警,DBbrain 事件通知是将 DBbrain 异常诊断模块中的诊断结果通知给用户。如需按照指标精确值通知,请使用腾讯云可观测平台告警系统。
如果您之前创建过腾讯云可观测平台【DBbrain 智能异常事件】,会跟本系统异常事件冲突,建议本次创建后,删除腾讯云可观测平台【DBbrain 智能异常事件】,否则会收到多个事件通知。

创建事件通知策略

1. 登录 DBbrain 控制台
2. 在左侧导航选择监控告警 > 事件通知
3. 在页面上方选择 MongoDB 数据库类型,选择发送策略页签,单击新建策略


4. 根据界面提示配置策略。
4.1 选择数据库类型。
4.2 配置基础信息。
策略名称:必填,输入策略名称。命名规则:由中英文、数字、()_-()组成,不能以下划线开头,长度在60个字符以内。
4.3 关联实例。



单击选择实例,在弹出的对话框中选择实例,单击确定



选择是否开启动态关联实例:开启动态关联后,自动帮您选择所有实例,如您名下有新增实例,会动态加载进此策略配置中。
手动待关联的实例:支持选择一个或多个实例。
4.4 规则配置。
规则配置包括快速规则和自定义规则两种方式。
快速规则:DBbrain 提供了四个级别(通知级、告警级、严重级、致命级),每个级别包含对应的诊断事件内容,用户可选择四个级别中的任何一种,但不可修改其中的内容。



自定义规则:用户可根据需要灵活选择诊断事件名称、诊断事件级别和事件通知发送频率。
自定义规则默认勾选引用基础规则,可在基础规则上自由修改诊断事件名称、诊断事件级别和事件通知发送频率。若不需要引用基础规则,可去勾选引用基础规则
同时,支持单击添加指标继续添加诊断事件;支持单击删除,删除诊断事件。



4.5 事件通知配置。


通知模板包括选择已有通知模板和快速配置通知模板。
选择模板
单击选择模板,在弹出的对话框中选择模板名称,单击确定。该方式需在事件通知-通知模板页面已存在配置好的通知模板,具体操作请参见 管理通知模板
快速配置
4.5.1.1 单击快速配置。
4.5.1.2 配置用户通知。
4.5.1.2.1 快速配置通知模板对话框中,单击添加用户通知



4.5.1.2.2 在弹出的配置用户通知对话框中,选择接收方式、接收时段和接收人等信息后,单击确定



若想继续添加,请单击添加用户通知,最多允许配置5组用户通知。已添加的用户通知,支持编辑和删除操作。



4.5.1.3 配置 webhook URL。
说明:
可填写公网可访问到的企业微信群机器人 webhook、钉钉群机器人 webhook、飞书群机器人 webhook,DBbrain 事件通知将及时把告警信息推送到对应企业微信群、钉钉群、飞书群。
告警推送失败最多重试3次,每次推送请求的超时等待时间为1秒。
机器人均有消息发送限制,例如:企业微信群机器人每分钟最多发送20条,如果超过20条,消息会被丢弃。钉钉与飞书的限制请以其官网文档为准。
接口回调区域,输入 webhook 接口 URL,并选择通知接收时段。



若需要配置多个 webhook url,请单击添加接口回调,最多允许设置5个 webhook URL。已添加的 URL 通知,支持修改 URL 和删除操作。
4.5.1.4 快速配置通知模板对话框中确认用户通知信息,选择是否保存该模板为通知模板,单击保存


若开启保存模板,保存后,该模板将在事件通知-通知模板页面展示,并可供下次直接引用。
若不开启保存模板,则该用户通知为一次性配置,后续查看策略详情时,也无法查看配置的用户信息。
5. 策略配置完成后,在页面下方单击保存。


保存成功后,策略列表将展示已新建的策略名称且默认启动该策略。



管理事件策略、查看事件历史、管理事件通知模板

具体说明及操作请参见 事件通知

MongDB 支持的诊断事件说明

规则分类
诊断事件名称
通知级别划分
基础规则
WT 缓存使用率超过95
通知级:WT 缓存使用率超过95%,持续时间1分钟
告警级:WT 缓存使用率超过95%,持续时间5分钟
严重级:WT 缓存使用率超过95%,持续时间10分钟
致命级:WT 缓存使用率超过95%,持续时间30分钟
读等待队列>=64
通知级:读等待队列>=64,持续时间>=1分钟
告警级:读等待队列>=64,持续时间>=10分钟
严重级:读等待队列>=64,持续时间>=30分钟
致命级:读等待队列>=64,持续时间>=60分钟
活跃会话高
通知级:活跃会话>=2000
告警级:活跃会话>=100000
严重级:活跃会话>=400000
致命级:活跃会话>=900000
慢 SQL
通知级:发生慢 SQL,且 CPU 利用率<=40%
告警级:发生慢 SQL,且 CPU 利用率>40%,<=60%
严重级:发生慢 SQL,且 CPU 利用率>60%,<=80%
致命级:发生慢 SQL,且 CPU 利用率>80%
连接数利用率
通知级:连接数利用率>=60%
告警级:连接数利用率>=70%
严重级:连接数利用率>=80%
致命级:连接数利用率>=90%
Cache Dirty 超过20%
通知级:Cache Dirty 超过20%,持续时间1分钟
告警级:Cache Dirty 超过20%,持续时间5分钟
严重级:Cache Dirty 超过20%,持续时间10分钟
致命级:Cache Dirty 超过20%,持续时间30分钟
主从延迟
通知级:主从延迟>=1分钟
告警级:主从延迟>=10分钟
严重级:主从延迟>=30分钟
致命级:主从延迟>=60分钟
OpLog 保存时间
通知级:Oplog 保存时间>=120分钟且<480分钟
告警级:Oplog 保存时间>=60分钟且<120分钟
严重级:Oplog 保存时间>=30分钟且<60分钟
致命级:主 Oplog 保存时间<30分钟
节点入流量
通知级:节点入流量>=800M
告警级:节点入流量>=1000M
严重级:节点入流量>=1200M
致命级:节点入流量>=1500M
CPU 利用率
通知级:Cpu 利用率>=60%
告警级:Cpu 利用率>=80%
严重级:Cpu 利用率>=90%
致命级:Cpu 利用率>=95%
磁盘空间利用率
通知级:磁盘利用率>=60%
告警级:磁盘利用率>=80%
严重级:磁盘利用率>=90%
致命级:磁盘利用率>=95%
节点出流量
通知级:节点出流量>=800M
告警级:节点出流量>=1000M
严重级:节点出流量>=1200M
致命级:节点出流量>=1500M
内存利用率
通知级:内存利用率>=70%
告警级:内存利用率>=80%
严重级:内存利用率>=90%
致命级:内存利用率>=95%
写等待队列>=64
通知级:写等待队列>=64,持续时间>=1分钟
告警级:写等待队列>=64,持续时间>=10分钟
严重级:写等待队列>=64,持续时间>=30分钟
致命级:写等待队列>=64,持续时间>=60分钟
其他规则
连接性检查
致命级:无法连接数据库实例
节点内存超限
致命级:节点内存超限
节点 pageheap 内存过高
通知级:节点 pageheap 内存过高