登录【控制台】,选择【弹性MapReduce】进入左侧的【集群监控】,可以看到监控分为服务监控与主机监控
如下图可以看到服务监控主要是一些集群组件的监控:
下面的主机监控主要是CPU、内存、文件句柄、磁盘、网络、进程等指标的监控:
所谓告警策略,就是当你的集群发生异常时,你对集群进行了监控,也就是制定了策略,那么发生异常的这个事件将会告知给你选择的接收人,并且针对不同的策略类型做了不同的触发条件,同样也有不同的告警接受渠道。
告警触发条件是指标、比较关系、阈值、统计周期和持续周期组成的一个有语义的条件。例如指标为“CPU 利用率” 、比较关系为 > 、阈值为 80% 、统计周期为5分钟 、持续周期为 2个周期表示:每5分钟收集一次 CPU 利用率数据,若某台云服务器的 CPU 利用率连续三次大于80%则触发告警。
您可以为您的每一条告警规则设置重复通知策略。即当告警产生时,您可以定义告警以特定的频率重复通知。 可选:不重复、5分钟、10分钟、周期指数递增...等重复频率。 周期指数递增的含义是当该告警第1次、第2次、第4次、第8次...第2的N次方次被触发时,向您发送告警信息。意义是告警信息发送时长间隔将越来越长,一定程度上避免重复告警对您的骚扰。
重复告警默认逻辑:
进入【控制台】,【云监控】左侧【告警配置】如下图:
CPU利用率
、比较关系为 >
、阈值为 80%
、统计周期为 5 分钟
、持续周期为 2 个周期
表示:每 5 分钟收集一次CPU利用率数据,若某台云服务器的 CPU 利用率连续两次大于80%则触发告警。
您可以为您的每一条告警规则设置重复通知策略。即当告警产生时,您可以定义告警以特定的频率重复通知。
可选:不重复、5分钟、10分钟、周期指数递增...等重复频率。
周期指数递增的含义是当该告警第1次、第2次、第4次、第8次...第2的N次方次被触发时,向您发送告警信息。意义是告警信息发送时长间隔将越来越长,一定程度上避免重复告警对您的骚扰。
注意: 云服务器告警需要云服务器实例 安装监控控件 上报监控指标数据后才能正常发送。在云产品监控页面可以查看未安 装监控 agent 的云服务器,并下载 IP 列表。
注意:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。