首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >案例|华为对Zabbix的3个探索:水平扩展、数据实时消费及网络体验监控

案例|华为对Zabbix的3个探索:水平扩展、数据实时消费及网络体验监控

作者头像
Zabbix
发布于 2021-01-29 08:27:26
发布于 2021-01-29 08:27:26
7390
举报
文章被收录于专栏:Zabbix中国官方Zabbix中国官方

“和大家分享华为对Zabbix的三个探索实践,为了解决集群管理、Agent迁移、高可用管理问题,设计了水平扩展方案。为了实时监控数据实时呈现,设计了数据实时消费方案,还有为了构建万物互联的智能世界,设计了网络的体验监控方案。

——肖骏,

华为技术有限公司,SRE

本文整理自肖骏在2020Zabbix中国峰会的演讲,ppt可在网盘获取:https://pan.baidu.com/s/1KL58mpRWcYl4UmBtJbvFDg 密码:ew3p。更多演讲视频可关注官方Bilibili账号主页(ID:Zabbix中国)。

一 Zabbix在华为的实践历程

首先介绍华为IT生产环境,华为IT是内部支撑的IT,人数庞大,它对应的IT系统也很庞大,主要包括办公系统、HR系统、财经系统,还有运营商系统等等。

我现在负责华为的全链路压测服务,今天分享的内容包括:Zabbix建设历程,业务体量,架构设计,后面我会分享我们做的三个探索实践。主要是水平扩展,数据实时消费,还有网络的体验监控。

首先看一下华为的一个Zabbix的实践历程,在2015年,华为商城引入了Zabbix,当时使用的Zabbix2.2版本,主要是监控VMall公有云的主机,中间件数据库等,在2016年看到在VMall试点很成功之后,在内网也引入了Zabbix,引入的是3.0版本,覆盖的是主机中间件数据库监控,在2016年试点完之后,在2017年在内网全部铺开了,将ZabbixAgent作为主机监控的标准Agent,存量机器也全部覆盖了。

在全部覆盖之后,在2017年和2018年替换掉原来的Patrol监控,Patrol监控是一个比较老的软件,它面临一些问题,它的监控配置是需要人工手工去上面配的,每新加一个监控项,或者说修改一个监控项。都得上Patrol的界面,去每一个Agent的上面配一下,太影响效率了,而且它的监控数据不能实时消费,也是比较影响监控效率的,用Zabbix把Patrol替换掉之后,可以实现监控策略的自动下发,监控数据是可以实时消费的,就极大地提升了监控效率。

在2017~2018的时候,尝试了做一些网络体验监控,在华为的市场大会都有做的网络设备的监控,在那种运营大屏上展示,当大规模展开之后,单靠Zabbix是满足不了需求的,就得搭很多套的Zabbix,就会有一个Zabbix集群。在2018年做了一个探索,做了一个高可用建设,实现了多套Zabbix的集中管理,就是说Agent可以在集群间自由迁移。

二 业务体量

接下来看一下我们的业务体量,我们的业务范围主要分为三大块,第一块主要是主机/中间件监控,第二块主要是端口拨测监控,第三块是网络监控。其中主机/中间件监控主要使用的是Zabbix Agent功能,端口波次监控和网络监控使用的是Zabbix proxy ping监控能力。

大家可以看一下我们的数量级,主要的监控数量级都是10万级以上的,这种规模还比较大,监控频率主要都是按需,有的是分钟级,有的是一分钟级,那种要求最高的是网络体验监控,是一秒级。我在后面会讲到。

三 架构设计

接下来讲一下我们监控的整体架构,监控的覆盖范围是很广的,它覆盖了I层P层S层的监控,左边可以看我们的业务范围是很广的。为了做这些监控,有一个监控策略,统一管理平台,类似于对标Zabbix 的trigger,但是它肯定不只,就是说Zabbix因为有很多的监控工具,它其实就是一个告警阈值项。在监控策略管理平台上统一管理,监控策略会下发到监控探针,由所有的探针去做数据采集,并且做告警,我们的Zabbix就在监控探针这一层。当监控探针采集完数据之后,会把监控数据受到一个监控数据底座中做一些更高阶的处理,包括一些实时计算、聚合分析,把它生成那种更高阶的一些运营数据,供用户和领导查看。

我们的告警数据走的是另外一条路,有一个统一告警平台,会做一些 告警的处理,包括它会生成事件,给到指定的责任人去进行处理,会跟自动化平台做结合,做治愈处理。就是监控数据跟告警数据都会统一汇聚在用户入口。有一个IT Monitor门户网站,用户可以在这个门户网站上进行查看,也提供标准的消费API,监控数据跟告警数据都是可以通过API实时消费出去的,就从监控数据的生产到加工,到消费到展示整个一条链路都拉通了。

讲完监控的整体架构之后,讲一下Zabbix的整个架构,从下往上看,Zabbix就分为Agent层,Proxy层,Server层,因为是全球分布式的一个公司,我们的Agent跟Proxy都是分布于全球的,Server可能主要集中在我们的数据中心,东莞的数据中心上,为了管理这么多的集群,在上面还有一个数据跟服务层,这数据跟服务层它主要有一个就是Zabbix高可用管理,因为你这么多集群它是要管理的。

还有一个监控策略管理,也就是刚才我说到的监控策略统一管理平台,还有监控数据的存储分析和处理,这种是监控数据的一个更高阶的分析功能。还有告警信息处理,在数据跟服务层上面还有一个可视层,给用户去查看,做一些操作,还有告警的通知和自动修复,类似于这样一些功能。

四 水平扩展方案

讲完架构之后,后面就讲几个我们自己做的一些探索。当Zabbix Agent的数量多了之后,那么就会面临问题,就是一套Zabbix Agent是满足不了我们的情况的。在2017年的时候做了一下调研,发现业界最佳实践一套Zabbix监控的主机数量大概是2万左右。昨天在这里会议交流的时候,发现好像有公司能把一套Zabbix的NVPS做到6万,是比较厉害的,待会应该会有讲师会讲到,也想学习一下。

这里我先讲一下我们的一个解决方案。因为Zabbix的瓶颈是在数据库上,就在MySQL那一层做了一些优化,用物理机加上存储的方案提升数据库的性能,这样可以将单套Zabbix的监控数量从2万提升到4万,但是4万这个量级还是不能满足需求。

因此就必须要构建多套Zabbix,但它会带来一个集群管理的困难,你有单套的时候你比较好看,你每天上班去一套Zabbix上面点一点,你就知道整个情况。当你数量很多的时候,你就没法说我上班的时候我这一套点一点,那一套点一点,你就点了很多,希望有一个统一管理的页面去看所有Zabbix性能情况。

第二个问题,当你多套Zabbix的时候,Agent是打到标准镜像里面去,新增一台主机,Agent会自动连到一套Zabbix。比如说Zabbix01上,业务规模扩大很大,Agent真的很多,所有的Agent的都会往Zabbix01上面挤,这样Zabbix01是永远就面临它的性能瓶颈问题的。这时候就需要有一个水平迁移的功能,将Zabbix01上面的Agent无损地迁移到另外一套Zabbix去,就保持所有的监控都不丢。

还有一个问题,Zabbix它作为生长环境的主要监控工具之后,它的重要性是日益提升的,你每一套Zabbix都不能出问题,因为你一出问题,就会有很多机器的基础建构是失效的,这种风险是很高的。Zabbix的高可用也提上了日程。

为了解决上面三个问题,第一个是集群管理的问题,第二个是Agent迁移的问题,还有一个高可用管理的问题,所以设计了一套方案。

大家可以看一下示意图,我们在进行迁移的时候,定义了一下每一个Host它会有标准项和非标准项。标准项是那种配置了主机的自动发现,在自动发现的时候它会自动关联一些基础模板,基础模板主要是比如说CPU、内存文件系统类似于这些标准的监控,但是每一个主机它还有一些非标准的监控,因为Zabbix它这种自定义监控是很强大的,你可以在每个主机上配置很多那种自定义监控,但自定义监控你没法用统一的那种策略管理去管理,你只能把它留在Zabbix上面。但当你迁移的时候,你这种非标准的监控项,你是不好迁移的。像示意图一样,你迁移的时候,我去改Agent的配置,把它Agent的Server的指向筹一套,指向另外一条的时候,那些标准的监控项它会迁移,但是非标准的监控项它会留在原来的地方。这时候就构建了一套配置总库,配置总库它将每一套Zabbix所有的那些监控配置数据都保存在一起,去配置总库时,拿出这些非标准的监控项也进行迁移,这样我就可以实现:

第一,Zabbix Agent在集群间自由迁移;

第二,我所有的配置数据都在配置总库里面,虽然说每一套Zabbix是做了高可用的部署,比如说Zabbix server我是有组备的,Zabbix DB我也是有组备的,但是高可用这个东西,你多考虑一点总是没错的。所以用了一个配置总库去保存所有的配置。当你一套可能面临那种极端情况的下情况下,它所有的东西都丢了的时候,配置总库也是可以去拿出它所有的那种配置信息,就实现了多套的Zabbix集群统一管理,也支持Zabbix的集群的水平扩展,当你一套挂了的时候,我可以快速将这一套的这些Agent,迁移到另外一套里面去。

关于配置总库我详细讲一下。配置总库构建大部分是基于Zabbix原生的表结构去构建的,取数据是通过Circle 去每一套Zabbix上面取比较关键的这种监控项,监控的那些配置项,把它存到配置总库里面去。在迁移的时候,标准项会对比一下类似于一些trigger的状态,因为标准模板里面也有一些trigger可能是会打开或者关闭。这种会去更新,标准里面就不去做增删改。非标准项,通过从配置总库里面拿出那些关键的监控配置数据,通过Zabbix API在新的那一套Zabbix面把它给创建起来。

这里有一点也讲一下,我们尝试过,就用Circle去创建那些非标准项,因为你用Circle可以大批量创建,这样效率会很高,但是梳理了一下,Zabbix创建新的item、trigger、host的操作,每个操作它的Circle大概都有100多个,100多个Circle,它中间有很多校验的过程,这样的方式它会相对比较安全,但它很损耗性能。看到那100多个Circle也无从下手,就没有通过那种Circle的方式去创建,通过Zabbix API的方式去创建,这里会导致性能会有点差.大规模迁移的时候会有点慢,这样迁移标准项是可以迁移的,至少能保命,非标准项这样在一段时间内迁移过去,这样也能接受。

还有一点刚才说的Zabbix API因为它很多那种校验的Circle,导致性能很慢,在其它的场景下面遇到一个坑,当数量上去之后,使用多线程去调Zabbix API来创建新的Host、item和trigge,r它因为有性能问题,它可能会处理不过来。它有一个ID自增的表,里面会存一些ID数据,它跟实际的配置的表会对不上。比如说Agent表有一个Agent ID,它在自增ID的那张表里面,它会存一个10000,但是你多线程去调的时候,Agent表里面它的AgentID已经到10,001了,你下一次调的时候,自增ID的数据它会增一,它会从10000增到10,001,你Agent表里面10,001已经存在了,这个时候你就会操作不下去,它会报错。下一次调Zabbix API的时候就会报错,它永远会卡在那里,你永远创建不了新的,你也删除不了老的。

这里没有做太多的深入的研究,用了一个比较土的办法,我定时在ID表里面做一个自侦,写一个定时任务,做一个自侦。这样就可以避免你在创建的时候导致ID一样,你就创建不了新的,这个就是小小的吐槽一下。通过这样一套,实现了Zabbix的水平迁移,还有高可用建设。

五 数据实时消费方案

接下来就讲一下我们的一个数据实时消费方案。就当你把监控布好之后,你的监控数据消费肯定是一个大头,包括用户跟领导都希望监控数据能够很实时的,最好你采集完你就能在页面上给我展示出来其它页面而不是Zabbix的页面,针对这一个也搞了一套方案。因为Zabbix的数据本来是存在MySQL里面的,你如果直接对MySQL进行大批量的消费,它会影响性能。它的适用性可能没有那么好,通用性没那么好。

大家可以看一下这套方案,我们在左边,有一秒级的监控,可以实时监控,监控数据采集完通过Zabbix发送到数据库,数据库它主从复制它会产生BinLog,BinLog里面记录了一些新增的那些历史数据,取出这些历史数据来,在redis缓存了那些配置数据,把历史数据跟配置数据一起结合,就生成了那种可供消费的数据,它发送到Kafka,发送到Kafka之后,会用Flink做一些更高阶的处理。

因为要求的是高度实时,Flink它是一个流计算平台,可以将数据做更高级的加工,发送到logstash、elastic search,通过实时管道,可以把整个耗时控制在5~10秒左右,数据送到elasticsearch之后,会提供API,供用户去实施消费。我们也会有页面,供用户实时消费。像用户可能在这里就只需要做一些很简单的处理,它就可以在页面展示出来。这样整个数据从产生到展示,整条链路大概可以控制在10秒左右,这个时延是可以接受的,因为当量级大了之后,你是不可能做到那种特别实时的,有10秒左右是可以接受的。

这里分享一下我们的一个例子。每年在有一些展会上,会展示一个网口,在现场展示一个网口,上面有一个对应的运营页面,你可以实时插拔网口,过一小会你就能看到运营页面上网口的状态的变化,你把它拔出来,稍等一小会,运营页面上网口它就变红了,你把它插上,过一小会它就变绿了。

这是一个很好的展示效果,也证明了数据实时消费的能力,关于数据实时消费详细讲一下。传统的这种数据消费方案可能是它采集器采到可消费的数据,送到Mysql,通过API发送到Kafka,Zabbix数据是采集到原始数据,发送到Mysql,使用了一个转换器,把它发送到Kafka,供用户消费。大家可以看一下转换器,转换器Zabbix Agent采集完数据之后,它会通过server发送到Mysql,主从复制它会产生BinLog。

BinLog里面会有几张表,对那5张表进行监听,只要那张表里面有数据更新,就把它采集出来,采集的原始数据类似于这种形式。item_ID、value还有时间戳,但这个数据你是没法给用户直接消费的,因为用户是不理解这个东西是什么含义,这时候从Mysql 的存库取一些那些配置数据,缓冲到redis里面,类似item ID, item key, host name, 通过ETL将这两个数据通过item_ID整个结合起来,这样它就具备了可消费数据的那些基本的要素。

它可以有Item ID代表它的意义,host name代表它的对象,value代表它的值,时间戳代表它的时间,这样整个它是变成可消费的数据。整套方案它对数据库的消耗是很小的,因为读BinLog,它对数据库基本上影响很小,而且通过Mysql去Mysql的存库里面读配置数据影响也很小,而且它是高度实时的,因为实时监听BinLog而且用了拉力式缓存,这种都是时延很小的,这样就能实现整个链路的那种低时延的数据消费。

六 网络体验监控方案

我介绍一下做的一个探索性工作就是网络体验监控。首先讲一下,华为公司有一个比较伟大的愿景,把数字世界带入每个人每个家庭每个组织,构建万物互联的智能世界,这是一个很伟大的愿景。在公司内部已经实现了一个比较基础的互联世界,因为大家都是用电子设备进行办公交流,所有的设备都是联网的,这种是一个比较基础的互联的世界,但因为公司是高度全球化的公司,所有的人都分布于全球,那么会面临一个很重要的问题就是网络问题。

网络问题就是因为网络线路会经过很多地方,它可能会有一些时延,时延突变,丢包类似于这些动作,它会影响到用户的一个体验。比如说南非的同事在观看东莞的直播的时候,可能因为一个时延突变,它直播就卡顿了。比如说南非的同事在跟东莞的同事进行会议,还有进行投影类似于这样,可能因为一个丢包导致整个链路就断了。这个时候网络管理员感知不到的,因为网络监控大部分的监控频率不是很高,可能那种秒级的一秒级的那种时延突变,还有丢包,对于用户来说影响是很不好的,就是我的体验很差.如果说我心情差的时候,我看了精彩直播,你给我卡顿一下,我都想拍桌子那些这样,但是网络管理员感受不到。这就是一个很大的问题。

为了解决这一个问题,就引入了那种网络体验监控,网络体验监控就是对用户访问应用的网络时延、丢包、时延突变等指标进行实时监控,确保用户拥有良好的体验。是很高度实时的,定义为一秒级,因为这样才能协助网络管理员去发现问题,后面才好针对这些指标去进行改进。可以看一下用户访问我们应用的示意图,它中间会经过很多的网络设备,比如说用户终端AP,AC还有数据中心,这里可以简单介绍一下,像用户终端可能就大家用的电脑手机,AP就是大家头顶上的那种无线路由,AC可能是存在于每个办公园区,或者说每个楼里面的一个网络设备,数据中心大家应该都知道,当然了这只是一个比较简化的示意图,实际的网络线路比这个要复杂。

也可以看到从用户到应用这一侧,整个数量级别是在不断降低的。用户终端它可能是10万级或者百万级的,AP可能是万级的,AC是千数量级的,数据中心可能是十数量级的。因为我们是做了探索性工作,选定了AC到数据中心的那一段,我们这栋楼的网络到数据中心的那一段,因为用户到AP到AC到我们这栋楼的这种网络还好,就是整个耗时还好,AC到数据中心是能够比较接近真实场景的。

选定了这一段的时候会面临一些问题,如果说所有的数据中心,对所有的那种AC点都进行监控,那种监控数据量会很大。这里做了一个模拟,比如说有1000个AC,有15个数据中心,有时延跟丢包两个监控指标,因为Zabbix只支持时延跟丢包,时延突变可能后面我会讲到,这样每秒监控数据就有3万,对应Zabbix的NVPS是3万,这样它会很消耗那种监控资源,可能你要搭多套来确保它的实时性,这个就很耗资源,它每天产生的监控数据大概是26亿。对比一下生产环境的监控业务量,生产环境监控大概数10万的监控对象,每天的监控数据是数10亿,这里如果只对1000个AC就进行监控,就产生这么多数据,它会带来太多的问题了。不仅是监控资源很高,整个数据管道,设备消耗也很高,包括数据湖所有的那些消耗资源都是恐怖的。

如果简单的使用这种监控方式,肯定是不行的,那么就想到其它办法,其它办法就是发现网络是有拓朴的,网络的拓朴它跟那种地理拓朴是接近的,而且网络访问它都是就近访问的。比如说南非办公园区的一位同事访问东莞的应用,那么肯定是先访问南非的AC点,南非的AC点接入到南非的数据中心,南非的数据中心在接入东莞的数据中心,这样可以把整条链路拆分一下,进行分段监控,再把数据加核做一个处理。

为了构建网络拓补,使用了一个低频监控的一个方式,比如说我有一个AC点,所有的数据中心都会对它进行一个时延监控,比较低频的。取它时延最小的值将AC归属到数据中心上,这样就能够构建一个网络拓扑。比如说AC点是南非的,那么它到南非的数据中心,网络时延肯定是最低的,它到其它的数据中心时延肯定更高,我可以把这个AC点归属到南非的数据中心,我们的网络拓扑这样就能构建出来。

只需要每个数据中心对归属于它的AC点进行实时监控,每个数据中心之间进行实时监控,这样我就可以极大的减少监控数据量。而且如果说我要知道就是一条AC,到比如说东莞的AC到南非数据中心的时延,可以通过两者求和得到,丢包也可以通过一些计算得到,这样就极大的降低了监控数据量。还是以数据为例,比如说有1000个AC,15个数据中心,监控指标是2000,每秒的监控数据从3万可以降低到2000,每天的监控数据量可以从26亿降低到大概1.7亿,这种倍数是降了很多的,而且实际AC数量会比高,数据中心数量也会比高,实际降低的监控数量其实很多的,这样可以减少很多的那种资源消耗。

这里还得讲一下监控指标这一块,因为Zabbix原生只支持那个时延跟丢包,那么时延突变是引入了那种实时计算的Flink平台,做一个取最近100次的时延值,求个平均,跟当前值做一个对比。这样就可以得到以时延突变的一个指标。还有丢包,也是做了一个简单的处理的。取最近100次的丢包,通过Flink就做一个平均值计算,这样你就可以看到一条比较光滑的丢包曲线,这样就是用户体验比较好。

七 经验分享

讲完这些方案之后最后讲一些小提示,在做的过程的要点:

  1. 就是数据库一定要分区,可能大家应该都是常识了。
  2. Proxy可以打入到Docker里面,在Docker里面便于安装好。这样在扩展的时候就比较方便。因为proxy很多,之前装的时候,每次我都要去编译安装一次,这样太耗时了,而且可能有一些组件装的还比较麻烦,我把它打入到Docker里面,这样就很方便的扩展。
  3. 面对防火墙的问题,可以将proxy前置,去解决大量防火墙的问题。
  4. 可以使用过滤功能去除掉无效的监控项,我们购买了Zabbix的高级维保服务,会有老师上门服务。去年周松老师上门服务,就发现有一套Zabbix,性能异常的高,NVPS异常的高,就一直在排查,发现有一个网络自动发现的监控,有很多无效的网卡,在一直监控采集数据,导致NVPS异常的高。在自动发现那里加了一个过滤的功能之后,过滤了大概100万的监控项,整个NVPS就降低了,跟其它的一些在别时性能基本上是一致的。

我今天分享就到这里,谢谢各位。

ppt可在网盘获取https://pan.baidu.com/s/1KL58mpRWcYl4UmBtJbvFDg 密码:ew3p,也可点击“阅读原文”跳转。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Zabbix开源社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
IT运维面试问题总结-数据库、监控、网络管理(NoSQL、MongoDB、MySQL、Prometheus、Zabbix)
NoSQL,指的是非关系型的数据库。NoSQL 有时也称作 Not Only SQL(意即"不仅仅是SQL") 的缩写,其显著特点是不使用SQL作为查询语言,数据存储不需要特定的表格模式。
杰哥的IT之旅
2020/10/23
1.3K0
什么是超融合数据中心网络?
数据中心网络连接数据中心内部通用计算、存储和高性能计算资源,服务器间的所有数据交互都要经由网络转发。当前,IT架构、计算和存储技术都在发生重大变革,驱动数据中心网络从原来的多张网络独立部署向全以太化演进。而传统的以太网无法满足存储和高性能计算的业务需求。超融合数据中心网络以全无损以太网来构建新型的数据中心网络,使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上,同时实现全生命周期自动化和全网智能运维。
Ponnie
2022/03/15
8920
什么是超融合数据中心网络?
大数据下的精准实时监控系统 | Promethus or Zabbix?
我们先来了解什么是监控,监控的重要性以及监控的目标,当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控的理解也不同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。
王知无-import_bigdata
2021/03/26
3.4K0
大数据下的精准实时监控系统 | Promethus or Zabbix?
Zabbix深度监控:多款开源工具构建企业监控新架构
【背景】由于公司业务平台的网络环境苛刻,以Zabbix server为核心开发设计一套适应性强的监控运维境更强的方案,不仅能满足当下的需求还能方便后续扩展。写这篇文档的初衷希望遇到类似环境的同学有一个参考,在碰到严格、复杂的网络环境,数量庞大机器管理,如何能够利用 Zabbix 的特性做到深度监控。
Zabbix
2021/07/16
8940
系统监控“供给侧改革”之“需求匹配” ,鞍钢数据中心系统运维监控平台建设实践
冉令楠,鞍钢集团信息产业有限公司项目经理,鞍钢数据中心系统运维监控平台建设负责人。
Zabbix
2021/09/08
8250
zabbix监控面试题[通俗易懂]
agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到zabbix server端,zabbix server将数据存储到数据库中,zabbix web根据数据在前端进行展现和绘图。这里agentd收集数据分为主动和被动两种模式:
全栈程序员站长
2022/07/01
1.6K0
案例|光大银行如何解决传统监控痛点,打造一体化监控平台?
“光大银行为了解决传统监控管理的痛点,从监控平台的建设和全站监控能力,大屏可视化展现和智能监控分析这四点出发,打造了新一代的一体化的统一监控管理平台。”
Zabbix
2020/12/28
1.5K0
案例|光大银行如何解决传统监控痛点,打造一体化监控平台?
长文|太平洋保险基于Zabbix的智能监控体系
将从太保监控平台建设历程、基于Zabbix的一体化监控平台、融合监控数据、打造智能监控平台、发生即发现、发现即处置的智能运维体系方面来分享。
Zabbix
2023/03/23
5610
长文|太平洋保险基于Zabbix的智能监控体系
Zabbix监控介绍
在前面的课程中我们已经知道zabbix是一个分布式的监控软件,是一个高度集成的网络监控解决方案,简单来说就是一个监控平台,并且可以提供企业级的开源(免费)分布式监控解决方案,由一个国外的团队持续维护更新,软件可以自由下载使用,运作团队靠提供收费的技术支持赢利。它支持分布式监控,使用简单方便,比nagios更加容易上手,又拥有cacti那样支持数据持久化保存。Zabbix 通过 C/S 模式采集数据,通过 B/S 模式在 web 端展示和配置。
星哥玩云
2022/09/15
4290
Zabbix监控介绍
Zabbix中Orabbix监控失效的问题及分析
自从使用了Orabbix监控Oracle以来,很多工作都能够通过这种配置可控的方式处理,有些问题是潜在问题,有些是遗留问题,多多少少还是提高了效率。 最近涉及机房搬迁,我们的Zabbix服务器也在迁移计划中,而因为部署的规模也不大,所以Orabbix和Zabbix Server放在了一起,结果搬迁之后问题就来了,搬迁之后开通了网络防火墙的前提下,系统层面的监控Zabbix Agent表现正常,而原本可用的Orabbix现在没有任何监控信息, 在这种监控基本失效的情况下,我总是不断的收到这
jeanron100
2018/03/21
1.4K0
Zabbix中Orabbix监控失效的问题及分析
Zabbix 4.0性能调优配置详述
如何衡量Zabbix的性能情况?一台基础配置的Zabbix到底能监控多少主机,能使用监控多少监控项?性能瓶颈出在哪里?如何优化配置?
星哥玩云
2022/07/27
2K0
Zabbix 4.0性能调优配置详述
【Z投稿】zabbix以trapper监控备份文件
7年大型数据中心一线运维工作经历,精通linux,参与过数据中心异地灾备建设、云平台、自动化运维等多个大型项目,热爱开源,zabbix爱好者。
Zabbix
2021/02/03
6240
【干货翻译】可扩展的Zabbix - 9400NVPS下Zabbix使用经验分享
对于我们这些大规模使用Zabbix的用户来说,最关心的问题之一就是:Zabbix能承受多大规模的数据写入量?我最近的一些工作正好以此为中心,远期来看,我可能会有一个超大量级的环境(大约32000+台设备)需要通过Zabbix实现完全监控。在Zabbix论坛里有一个模块讨论大型环境的监控,但是不走运的是,我并没有找到一个完善的系列解决方案来实现大型环境的监控。
Zabbix
2021/02/03
1.1K0
Zabbix(1)-监控服务与zabbix介绍
对于传统意义的监控来说,监控系统属于安防系统中应用最多的系统之一,主要是用来监控异常和不好的事情发生,或者提供事件发生过程的记录和事后分析等功能。如视频监控系统就是典型的监控系统,视频监控系统就从早期的 CCTV 发展到 DVR到目前已经发展为基于 IP 网络的视频监控 IPVS。
mikelLam
2022/10/31
5950
Zabbix(1)-监控服务与zabbix介绍
案例|银行 Zabbix 监控架构分享
Zabbix 是一个基于 Web 界面提供分布式系统监视及网络监视功能的企业级开源解决方案。它能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位、解决存在的各种问题,借助Zabbix 可很轻松地减轻运维人员繁重的服务器管理任务,保证业务系统持续运行。其后端使用数据库存储监控配置和历史数据,可以非常方便地对接数据分析、报表定制等渠道,在前端开放了丰富的 RESTful API 供第三方平台调用,整体架构在当下的 DevOps 的趋势下显得非常亮眼。
Zabbix
2021/01/29
2K0
案例|银行 Zabbix 监控架构分享
【案例分享】银行金融业如何应用Zabbix解决方案!
如今,由强大的软硬件驱动的信息系统和应用系统是银行和金融行业的核心,一次宕机就有可能造成百万级,甚至数千万美元的损失!
Zabbix
2021/02/03
6630
官方博文 | Zabbix通过SNMPv3协议监控网络设备
5年Linux运维经验,4年Zabbix使用经验,活跃的Zabbix在线课程讲师。获得国内第一批Zabbix4.0 ZCS和ZCP认证,同时也是Zabbix培训师候选人。
Zabbix
2021/01/29
5.7K0
官方博文 | Zabbix通过SNMPv3协议监控网络设备
Z投稿|12000nvps下Zabbix性能维护—某支付平台经验分享
前言:公司(某银行旗下第三方支付平台)最近在做运维大数据项目,需要将各个监控系统的实时采集数据汇总到大数据平台进行智能告警和根因定位,Zabbix作为整个公司数据量最大的监控系统,超过12000的nvps,每周约产生400G左右的监控数据,如何将Zabbix的实时监控数据抽取出来并且不影响到Zabbix的性能?
Zabbix
2021/03/23
6110
Zabbix监控详解
Zabbix是什么 Zabbix 是由Alexei Vladishev创建,目前由Zabbix SIA在持续开发和支持。 Zabbix 是一个企业级的分布式开源监控方案。 Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。这些功能使得Zabbix成为容量规划的理想方案。 Zabbix支持主动轮询和被动捕获。Zabbix所有
用户1173509
2018/03/28
5.2K0
Zabbix监控详解
Zabbix之基础大全
一、监控基础 1、监控处理过程 采样---->存储----->报警---->展示 (1)、采样   采样的监控数据采集方法:ssh/telnet、SNMP、Protocol v3、IPMI(智能平台管理接口)、TLS。 (2)、数据存储   数据类型:历史数据(nvps)、趋势数据。   数据存储系统:rrd(轮询数据库);                 SQL(关系型数据库,MySQL/PostgreSQL);                 NoSQL(反关系型数据库,Redis/MangoDB);                 时间序列存储。 (3)、主机的四种监控接口:zbx、snmp、jmx、ipmi。 2、常用的开源监控工具 (1)、cacti:强大的【数据展示】功能。   cacti是基于php来编写的;   利用SNMP协议采集样本数据;   利用rrdtool进行数据存储;   报警机制有限。 (2)、nagios:强大的【报警机制】。   nagios不支持历史数据和趋势数据保存;   数据展示功能有限。 (3)、zabbix:集cacti、nagios优点。   强大的数据展示功能;   强大的报警机制;   支持历史数据和趋势数据的存储;   支持脚本实现故障的数据修复。 (4)、ganglia:用于集群监控。   ganglia用于集群监控时,可以实现多台主机的多种集合数据的集中展示。 二、zabbix -----------www.zabbix.com Zabbix功能特点 概述 Zabbix是一个高度集成的网络监控解决方案,一个简单的安装包中提供多样性的功能。 数据收集     可用性和性能检查     支持SNMP(包括主动轮训和被动获取),IPMI,JMX,VMware监控     自定义检查     按照自定义的间隔收集需要的数据     通过server/proxy+agents来执行 灵活的阀值定义     您可以非常灵活的定义问题阈值,称之为触发器,触发器从后端数据库获取参考值 高度可配置化的告警     可根据递增机制,接收方和媒介类型自定义发送告警通知     使用宏变量可以使告警通知更加高效有用     自动相应动作可包含远程命令 实时图表绘制     使用内置图表绘制功能可以将监控项的内容实时绘制成图表 Web监控功能     Zabbix可以追踪模拟鼠标在Web网站上的点击操作,来检查Web的功能和响应时间 丰富的可视化选项     支持创建自定义的图表,一个试图集中展现多个监控项     网络拓扑图     以仪表盘的样式自定义大屏展现和幻灯片轮询播放     报表     监控内容的高级(业务)视图 历史数据存储     数据库数据     可配置历史数据     内置数据管理机制(housekeeping) 配置简单     将被监控对象添加为主机     在数据库中获取主机进行监视     应用模板来监控设备 使用模板     在模板中分组检查     模板可以关联其他模板 网络发现     自动发现网络设备     监控代理自动注册     发现文件系统,网络接口和SNMP OID值 快捷的Web界面     PHP Web前端     可从任何地方访问     你可以定制自己的操作方式     审核日志 Zabbix API     Zabbix API为Zabbix 提供了对外的可编程接口,用于批量操作,第三方软件集成和其他目的 权限管理系统     安全用户认证     特定用户可以限制访问特定的视图 功能强大,易于扩展的agent     部署在被监控对象上     支持Linux和Windows 二进制代码     为了性能和更少内存的占用,用C语言编写     便于移植 为复杂环境准备     使用Zabbix proxy代理服务器,使得远程监控更简单 结构 Zabbix由几个主要的软件组件构成,这些组件的功能如下。 Server Zabbix server 是agent程序报告系统可用性、系统完整性和统计数据的核心组件,是所有配置信息、统计信息和操作数据的核心存储器。 数据库存储 所有配置信息和Zabbix收集到的数据都被存储在数据库中。 Web界面 为了从任何地方和任何平台都可以轻松的访问Zabbix, 我们提供基于Web的Zabbix界面。该界面是Zabbix Server的一部分,通常(但不一定)跟Zabbix Server运行在同一台物理机器上。 如果使用SQLite,Zabbix Web界面必须要跟Zab
菲宇
2022/12/21
5920
Zabbix之基础大全
推荐阅读
相关推荐
IT运维面试问题总结-数据库、监控、网络管理(NoSQL、MongoDB、MySQL、Prometheus、Zabbix)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档