动态阈值告警简介
动态阈值告警是一种基于实际监控数据和动态计算的告警机制,依托于腾讯云时间序列智能异常检测方案(Intelligent Anomaly Detection,IAD),采用业内领先的机器学习技术并结合业务特性来学习指标数据的历史变化规律,在不需要用户设定阈值的情况下,智能地检测指标异常并发送告警。
腾讯云可观测平台的动态阈值告警支持用户根据云产品实例的历史指标进行学习拟合,并对异常指标自动进行检测告警。动态阈值告警基于历史数据,从时间序列中分解指标变化趋势、变化周期、指标突发项等维度来进行机器训练。在实际预测工作中会根据指标特征以及资源消耗两个方面考虑来选择适合的算法。使得告警更加精准,更加智能,同时拥有更低的维护成本。
与静态阈值相比,动态阈值存在的优势
传统的静态阈值通过人为设定恒定阈值,在达到触发条件后发送告警。静态阈值仅适用于在一定范围内波动的监控指标,例如 CPU 利用率、内存利用率、磁盘利用率等指标,但对于网络流量、延时等波动较大或者不具有明显上下边界的指标,检测效果不佳。
动态阈值的优势主要体现在以下几个方面:
人力成本低:缓解静态阈值设定上对于开发或运维人员专家经验的强依赖,降低静态阈值配置成本。
维护成本低:根据指标数据的历史变化规律,自适应调整动态阈值上下边界,无需开发或运维人员定期手动维护阈值,降低维护成本。
告警更精准:内嵌多种检测模型,适用于多种形态的指标检测,通过对指标的趋势性、周期性等特征的捕获和学习,提供更加精准的告警。
使用限制
告警策略:允许用户配置的告警策略数量上限为20,每个策略下创建的告警对象数量上限为20。
时间粒度:目前动态阈值仅适用于1分钟粒度的指标检测,对于不同时间粒度的指标检测将逐步开放。
生效时间:为保证动态阈值检测效果,待检测的指标需要至少2000个历史数据点才能进行动态阈值检测。一般新购的资源需要等待两天以上才能满足历史数据要求。