首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

减少警报疲劳,提高 Kubernetes 监控效果

我们200多个使用 Prometheus Alertmanager 的团队交流过。许多团队面临来自无实际操作建议的无关紧要警报带来的警报疲劳问题。...警报应该可能影响业务的事情相关。如果您不确定警报是否重要,请谨慎地不要警报。 每个组织都应该关注特定的Prometheus Alertmanager指标并为它们设置警报。...不监控此指标会使我们对性能问题一无所知。如果我们的性能始终匹配我们的通常基准,我们可以将监控频率从每5分钟减少到每30分钟,以减少不必要的警报。...一个常被忽视的基本警报是没有警报pod重启。这一警报可以成为将其他服务修改潜在延迟关联起来的有价值工具。 将不受支持的节点连接到集群会导致意外的行为,并使故障排除变得困难。...在Zenduty,我们提供150多个应用程序和监控工具的集成。然而,一个最常用但配置错误的集成是Prometheus Alertmanager。

12810

《Prometheus监控实战》第6章 警报管理

第6章 警报管理 Prometheus是一个按功能划分的平台,指标的收集和存储警报是分开的。警报管理功能由名为Alertmanager的工具提供,该工具是监控体系中的独立组件。...对于监控来说,过多的警报相当于“狼来了”这样的故事 通常发送过多警报的原因可能包括 警报缺少可操作性,它只是提供信息。...监控作业一样,它指定目标列表,此处是主机名alertmanager加端口9093(Alertmanager默认端口)的形式。...Prometheus一样,Alertmanager暴露了自身的相关指标 代码清单:监控Alertmanager的Prometheus作业 - job_name: 'alertmanager' static_configs...labels子句允许我们指定要附加到警报的其他标签,这里我们添加了一个值 为warning的severity标签 警报上的标签警报的名称相结合,构成警报的标识。

3.2K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    有效的云安全警报

    警报系统是任何安全程序的首要组成部分。当一些问题出现的时候,警报通常都是最快和最有效的提醒方式,让你能够及时地采取补救措施。...但是警报有的时候过于“吵闹”:有时它会放出一些错误的信号;或者有时,你需要进行很多的微调,才能让它不再发出警报。...避开“噪音”:如何设置安全警报级别 当你的云环境中发生异常情况时,你希望警报能够作出提醒,以便你能及时应对。...例子: 核心模块被安装在产品上 产品僵尸网络相连 特权增加 注册错误 异常的IP的有效登陆 开发者(dev)安装程序包) 斩断杂草:消除错误警报 除了上面提到的类似的三层递进警报流程之外,为了避免误报...执行云安全警报系统 如上面所讲的一样,能对第一,第二或第三层警报的构成内容有清晰的了解是评估你所在组织的警报系统的最好方式。

    1.7K80

    云安全警报,你值得拥有!

    任何安全计划的第一个组成部分都应该是一个警报系统。因为警报系统通常是在出现问题时通知最快和最有效的方式,也方便您可以采取有效行动做出合理的解决措施。...但是,一堆关于异常行为的嘈杂警报,包括短暂的停机时间,也不会对你的问题产生任何益处。您需要持续准确的警报,并且之保持紧密联系,以便您可以快速决定是否需要采取行动。...以下是一个简单的三级升级流程: 消除“杂草”:消除假警报 除了上面提到的类似的三层警报升级过程之外,您应该不断对您系统的“正常”进行基准化,以避免误报。...要做到这一点,选择一个 云端安全平台 ,可以汇总历史数据,以建立一个基本的理解什么构成您的服务器上的“正常”“异常”活动。...实施您的云安全警报系统 评估贵组织的警报系统最好方法是清楚地了解在您的环境中构成第一,第二或第三层警报的内容,如上所述。

    1.1K100

    黑盒监控白盒监控

    序言 谈到监控,有各种各样的监控软件,有各种各样的存储数据的格式,最流行的莫过于将相关的监控数据存储在mysql中,建一个表,然后按照时间来进行监控,这种方式最大的缺点就是不能灵活的按照各种维度来统计数据...强大的监控,一眼看过去,就能知道是啥出了问题;强大的监控,易于使用,不用到处找啊找,躲猫猫了解一下。。。 黑白双煞 有一种监控方式,分为黑盒监控和白盒监控,看起来和测试好像。。。...黑盒监控,主要关注的现象,一般都是正在发生的东西,例如出现一个告警,某文件系统不可写入,那么这种监控就是站在用户的角度能看到的监控,重点在于能对正在发生的故障进行告警。...白盒监控,主要关注的是原因,也就是系统内部暴露的一些指标,例如redis的info中显示redis slave down,这个就是redis info显示的一个内部的指标,重点在于原因,可能是在黑盒监控中看到...一个监控系统的构建,如果没事就发出来告警,这种狗屎监控,留着有何用???信噪比如此之高,怎么玩。。。适当降低心理期望?一不小心就是一个故障,一不小心就是一个锅。。。

    3.8K31

    7种策略解除云风险警报

    从IT管理员的角度来说,企业的风险适应能力将会影响运维在尽职调查、持续监控以及投资降低风险措施方面的意愿。例如,运维可能会设置一个层级风险缓解法,从而最大化利用手头有限的资源。...04 汲取失败的教训 研究云有关的失败案例,从中汲取教训,这有助于降低云风险。...使用自动化工具检测云中的问题,并将配置进行标准化,员工可以把更多的时间集中在处理复杂问题上,例如培养并管理好云提供商的关系。 即便如此,当涉及到降低云风险时,转移到自动化也还是有很大的局限性。...(来源:SCDN云计算) 边缘计算模块化数据中心:天作之合 云计算和边缘计算,谁更依赖数据引力?

    1K10

    监控监控升级优化

    由于TKE集群需要业务维护Node节点,出于成本的考虑,云监控逐渐把TKE集群迁移至EKS集群,中间经历了自监控的升级优化,对于自监控建设有一定的参考意义,通过文章记录下来。...(备注:本文所描述的自监控指metric类监控,不涉及logtracing) 1、迁移引发的问题 - 自监控不可用了 云监控的自监控主要是业务程序使用Prometheus SDK通过export的方式进行上报...TKEEKS对比 2、自监控升级 既然DaemonSet不能使用,那么Agent能否使用Deployment方式部署呢?...但这种方式比较耗费资源(Agent业务Pod数量是1:1),在降本增效的背景下,也不是最佳的做法。...以上面截图标签为例,最终的采集路径是http://Pod IP:8080/metrics 3.3 区分Agent业务Pod 因为Agent的采集是基于一致性哈希实现的,Agent是一致性哈希里的真实节点

    3.4K20

    虹科分享 | 网络流量监控 | 使用 ntopng 收件人和端点进行灵活的警报处理

    在之前,ntopng引擎对所有警报的配置是单一的:进入偏好页面并指定警报的发送地点。但这是不理想的,原因有很多:包括不可能在不同的渠道向不同的收件人发送警报,或有选择地决定何时发送警报。...将收件人警报绑定现在我们已经定义了警报的传递地点,我们需要指定如何/何时将警报传递给指定的接收者。这是通过Pools实现的,你可以在系统菜单下访问。...如果现在你想为每个被监控的主机定义不同的收件人呢?那么你需要回到Pool页面,选择活动监控(这将适用于其他标签),并定义新的池子,如下图所示,并将不同的收件人联系起来。...你现在可以回到活动监控页面,为每台主机选择你喜欢的主机池,如下图所示让事情更复杂的是,你需要掌握主机池的定义方式。...主动监控相反,主机池可能相当复杂,因为你可能想根据IP地址、网络(CIDR)和Mac地址来定义Pool成员(对于IP浮动的DHCP网络来说是很好的)。

    70230

    Actuator服务监控

    在SpringCloud体系中,SpringCloud-Admin能够提供强大的服务监控功能。去年我也整理过SpringCloud-admin的相关文档。...因为微服务能够通过注册中心获取到服务的地址从而使得SpringCloud只需要对接到注册中心即可实现对服务的监控。但是考虑到有些系统目前处于另外一种状态。...我本人的想法是做一个即可以兼容微服务又可以兼容普通项目的监控平台。这样对于运维和开发来说都有重要的意义。 项目中如何整合Actuator?...=/monitor #监控地址的基础前缀 management.endpoints.web.base-path=/simple 设置好上边配置信息。...然后制作自己的监控系统。 ? 那么这些接口都提供哪些信息?要做好监控这些东西都是相当重要的。 在官网上我们发现 ?

    66820

    红色警报

    本题要求你编写一个报警程序,当失去一个城市导致国家被分裂为多个无法连通的区域时,就发出红色警报。...注意:若该国本来就不完全连通,是分裂的k个区域,而失去一个城市并不改变其他城市之间的连通性,则不要发出警报。...圆中的数字代表图的顶点编号,按照题中说的意思,如果某个城市被攻占(这个城市对应图顶点和其他图顶点之间的边被删除),会使得图的连通子图增加 2 个或者 2 个以上的话,那么发出红色警报,否则不发警报,举个例子...只增加了一个连通子图,因此这时不发警报。 同样的,当顶点 2 所代表的城市被攻占了之后,图的连通子图个数不变,也不发出警报。...这个时候的连通子图个数就变成了 5 个,比原来增加了两个,因此此时发出红色警报

    63830

    promethus监控系统

    其中的区别是,它不会主动推送监控数据到server端,而是被动等待server端定时来收集数据,即所谓的主动监控。...Push Gateway: 用于网络不可直达或者生命周期比较短的数据采集job,居于exporterserver端的中转站,将多个节点数据汇总到Push Gateway,再统一推送到server。...基于服务发现的过程并不复杂,通过第三方提供的接口,Prometheus查询到需要监控的Target列表,然后轮训这些Target获取监控数据。...Prometheus使用配置来抓取目标,收集和存储指标,然后通过允许仪表板,图形和警报的API提供这些指标。 以下命令使用prometheus配置启动容器。...prom/prometheus 0e8a6f9ec7ae41b79db3ab3638968f82f721752b83f4e90a2a12eea975e0377c --net=host代表直接打通容器网络本地网络

    1.8K53
    领券