众所周知,用Linux系统自带的sendmail发送邮件是有限制的,可能对有些邮箱无法正常发送,导致报警邮件不能够及时发送到,因此就可能会产生不必要的麻烦!对此,我们可以用其他方法来发送邮件,就是在cacti上登陆自己的邮箱,设定自己的邮箱来发送报警邮件!简而言之就是把系统当做一个邮件客户端,登陆自己的邮箱来发送邮件!
prometheus安装包最新版本下载地址:https://prometheus.io/download/
Linux服务器运维过程中需要监控系统状况并自动报警,有时有邮件报警的需要,一般Linux发送报警邮件可以通过本地邮箱或外部邮箱服务器,这里用最简单的方法:利用mailx一个小型的邮件发送程序使用外部邮箱即可实现发送邮件功能
往期回顾:图文结合丨Prometheus+Grafana+GreatSQL性能监控系统搭建指南(上)
Prometheus自身不具备告警能力,需要结合AlertManager实现监控指标告警。由Prometheus配置告警规则,当告警规则触发后,会把告警信息推送给Altermanager,AlertManager收到告警之后在根据配置的路由,根据报警级别不同分别发送给不同的receive(收件人),AlertManager可以实现email、企业微信、钉钉等报警。Prometheus作为客户端,Alertmanager负责处理来自客户端的告警通知。对告警通知进行分组、去重后,根据路由规则将其路由到不同的receiver。
Grafana 除了支持丰富的数据源和图表功能之外,还支持告警功能,该功能也使得 Grafana 从一个数据可视化工具成为了一个真正的监控利器。Grafana 可以通过 Alerting 模块的配置把监控数据中的异常信息进行告警,告警的规则可以直接基于现有的数据图表进行配置,在告警的时候也会把出现异常的图表进行通知,使得我们的告警通知更加友好。
考虑到实现服务的高可用性。使用电子邮件通知服务,可以快速的通知维护人员。提高服务的可靠性,而通过 smtp.qq.com 实现脚本邮件报警
这个专题讲解Python相关方面的内容,首先是运维方面,例如数据库,Linux等,后续会有Web,爬虫等。
之前我们搭建好了监控环境并且监控了服务器、数据库、应用,运维人员可以实时了解当前被监控对象的运行情况,但是他们不可能时时坐在电脑边上盯着DashBoard,这就需要一个告警功能,当服务器或应用指标异常时发送告警,通过邮件或者短信的形式告诉运维人员及时处理。接下来就来介绍非常重要的功能——告警。
本文中笔者暂时实现的只有cpu和内存的监控,python可以监控许多的主机信息,网络,硬盘,机器状态等,以下是代码的实现,代码可以实现windows和linux的监控。
上节我们讲了如何连接linux/Unix服务器,这节我们将其应用在我们的Oracle运维中,用它来监控Oracle alert日志
报警是Grafana的一项革命性功能,它让Grafana从一个数据可视化工具变成一个真正的任务监控工具。报警规则可以使用现有的图表控制面板设置,阈值可以通过拖拉右边的线控制,非常简单。Grafana服务器会不断评估设置的规则,在规则条件符合的时候发送出通知。
现在老板让你写一个监控程序,24小时全年无休的监控你们公司网站服务器的系统状况,当cpu\memory\disk等指标的使用量超过阀值时即发邮件报警,你掏空了所有的知识量,写出了以下代码
prometheus报警配置需要用到alertmanager组件,这个组件可以到prometheus官网上进行下载。
简单的实现Linux下使用利用本地邮箱或外部邮箱服务器发送,常用于服务器监控报警日志发送归档等。
不同的文件系统(xfs,reiserfs,ext3)都有自己的检测和修复工具。检测之前可以先使用dmesg命令查看有没有硬件I/O故障的日志,如果有,先用fsck看看是不是文件系统有问题,如果不是则可以使用下面介绍硬盘检测和优化方法来修复它。grep “error” /va/log/messages*;
Prometheus本身不支持告警功能,主要通过插件alertmanage来实现告警。AlertManager用于接收Prometheus发送的告警并对于告警进行一系列的处理后发送给指定的用户。
zabbix服务端部署可参考:https://blog.51cto.com/14227204/2474670 注:本文是基于上述链接
GitHub:https://github.com/prometheus/alertmanager 首先在GitHub alertmanager Releases上下载对应系统版本的alertmanager,这里以alertmanager-0.21.0.linux-amd64.tar.gz为示例进行部署
具体下载目录在 /2013年资料/11月/15日/RHEL6.4中使用cact_spine监控主机实现发送邮件报警
邮件报警有两种情况: 1)Zabbix服务端只是单纯的发送报警邮件到指定邮箱,发送报警邮件的这个邮箱账号是Zabbix服务端的本地邮箱账号(例如:root@localhost.localdomain),只能发送,不能接收外部邮件。 2)使用一个可以在互联网上正常收发邮件的邮箱账号(例如:xxx@163.com),通过在Zabbix服务端中设置,使其能够发送报警邮件到指定邮箱。 上面第2中使用外部邮箱发送报警邮件之前已经介绍了:分布式监控系统Zabbix-3.0.3-完整安装记录(5)-邮件报警部署。下面说下
实现目的: 在Zabbix服务端设置邮件报警,当被监控主机宕机或者达到触发器预设值时,会自动发送报警邮件到指定邮箱。
上次文章我们简单的介绍了一下prometheus配合altermanager通过邮件进行报警,这里我们学习一下使用gafana进行报警,我们说altermanager是prometheus推送的方式进行报警的,其中altermanager的作用就是看报警信息如何发送的功能。而gafana在prometheus体系中的作用是展示,其数据的获取是通过查询prometheus数据得到的,所以我们完全可以通过查询数据然后再判断是否要报警的功能。这里我们简单的介绍一下如何使用gafana进行邮件报警。
Spring Boot Admin(SBA)是一个开源的社区项目,用于管理和监控 Spring Boot 应用程序,它提供了详细的健康信息、内存信息、JVM 系统和环境属性、垃圾回收信息、日志设置和查看、定时任务查看、Spring Boot 缓存查看和管理等功能。 SBA 监控概览如下图所示:
在zabbix的使用中,最重要的一点就是完善的报警机制,作为监控平台,需要时刻关注机器和服务的运行状态,更重要的是发现故障之后需要及时的报警给相关人员,早点发现问题,将隐患消除在未然阶段。这样才能保证服务的稳定运行。
Zabbix监控服务端、客户端都已经部署完成,被监控主机已经添加,Zabiix监控运行正常。
配置邮件告警 使用163或者QQ邮箱发告警邮件 首先登录你的163邮箱,设置开启POP3、IMAP、SMTP服务 开启并记录授权码 然后到监控中心设置邮件告警 “管理”,“报警媒介类型”,“创建媒体类
上次说写的ossec连载,不幸因为工作太忙夭折了,最近缓过神来决定补上第2篇,言归正传,ossec的功能主要是为了防御及抓坏人,但因为攻防之间本来就信息不对称所以防守方需要能早知道攻击者的行为,这点有很多案例来证明,我们能不能不安装ossec客户端的情况下来对攻击者攻击的入侵行为捕获呢,这也有利于我们对攻击者的行为有进一步的了解,我比较擅长linux,于是这里还以linux安全为主,对于网络边界来说ssh绝对是保护的重点。 关于ossec的安装,这里就不在赘述,可以看看官方文档,ossec支持2种模式,第一
描述: Alertmanager 负责接收来自所有Prometheus服务器的告警,并根据其规则将告警以邮件、聊天信息和呼叫等方式进行通知。
Errymsfileemail.py -m zhangsan@gongsi.cn -t “[ERROR/$HOST] File Stacking Alarm”
[root@zabbix-server ~]# rpm -ivh http://repo.zabbix.com/zabbix/3.4/rhel/7/x86_64/zabbix-release-3.4-2.el7.noarch.rpm
可用性和性能检查支持SNMP(trapping或polling),IPMI,JMX,VMware的监控,自定义检测,按照自定义时间间隔收集所需数据,通过server/proxy和agent来执行监控。
如果在sendmail或者postfix启动的同时使用外部邮箱发送报警邮件,首先会读取外部邮箱
文章《腾讯云TKE-搭建prometheus监控》基于prometheus,手把手教你如何在TKE上搭建全面的平台和业务监控,为业务保驾护航。这是系列文章的第二篇,第一篇见链接。
步骤: 1) zabbix监控中心创建监控项目 2) 针对该监控项目以图形展现
set smtp-auth-user=xxx@163.comsmtp-auth-password=123456
警报一直是整个监控系统中的重要组成部分,Prometheus监控系统中,采集与警报是分离的。警报规则在 Prometheus 定义,警报规则触发以后,才会将信息转发到给独立的组件 Alertmanager ,经过 Alertmanager r对警报的信息处理后,最终通过接收器发送给指定用户,另外在 Alertmanager 中没有通知组的概念,只能自己对软件重新Coding,或者使用第三方插件来实现。 注意,这个通知组不是Alertmanager中的group概念,下面会详细讲 Group ,不要混淆哦。
其中讲到了利用查看表空间的使用率,这时我们就可以利用Python监控这个数值,等超过阈值后发送邮件通知我们
一、功能特点 采集数据端口,支持串口端口+网络端口,串口支持自由设置串口号+波特率,网络支持自由设置IP地址+通讯端口,每个端口支持采集周期,默认1秒钟一个地址,支持设置通讯超时次数,默认3次,支持最大重连时间,用于重新读取离线的设备。 控制器信息,能够添加控制器名称,选择控制器地址+控制器型号,设置该控制器下面的探测器数量。 探测器信息,能够添加位号,可自由选择探测器型号,气体种类,气体符号,高报值,低报值,缓冲值,清零值,是否启用,报警声音,背景地图,存储周期,数值换算小数点位数,报警延时时间,报警的类
上回已经讲好快速部署prometheus alertmanager 这回接着如果配置报警,本文我主要以接入mysql报警为案例 进行全面的讲解 软加载监控报警
zabbix监控服务器、客户端都已经部署完成,被监控主机已添加完成,zabbix监控运行正常。
zabbix_get -s 'IP' -p 10050 -k 'login.user' IP为被监控端(客户端)地址
#!/usr/bin/python3 #-*-coding:utf-8-*- import smtplib from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.header import Header sender = 'yuanzhang@qq.com' #发送者邮箱 pwd = '666666' #发送者邮箱授权码 receivers=['jingshenyuan
上面详细介绍了如何使用zabbix email形式发送报警,个人认为唯一的缺点就是报警内容太不够人性化了。所以下面介绍zabbix第二种常用的报警方式,自定义脚本的形式报警,这个自定义的脚本你可以使用邮件报警、短信报警等等。
随着硬盘容量、速度的快速发展,硬盘的可靠性问题越来越重要,今天的单块硬盘存储容量可轻松达到1TB,硬盘损坏带来的影响非常巨大。 不同的文件系统(xfs,reiserfs,ext3)都有自己的检测和修复工具。检测之前可以先使用dmesg命令查看有没有硬件I/O故障的日志,如果有,先用fsck看看是不是文件系统有问题,如果不是则可以使用下面介绍硬盘检测和优化方法来修复它。 grep”error”/va/log/messages*; Linux检测硬盘坏道 使用SMART检测硬盘 SMART是一种磁盘自我分析检测技术,早在90年代末就基本得到了普及每一块硬盘(包括IDE、SCSI),在运行的时候都会将自身的若干参数记录下来,这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏,此时硬盘依然在工作,如果用户不理睬这个报警继续使用,那么硬盘将变得非常不可靠,随时可能故障。 启用SMART SMART是和主板BIOS上相应功能配合的,要使用SMART,必须先进入到主板BIOS设置里边启动相关设置。一般从Pentium2级别起的主板,都支持SMART,BIOS启动以后,就是操作系统级别的事情了(Windows没有内置SMART相关工具,需要安装第三方工具软件),好在Linux上很早就有了SMART支持了,如果把Linux装在VMware等虚拟机上,在系统启动时候可以看到有个服务启动报错:smartd。这个服务器就是smart的daemon进程(因为vmware虚拟机的硬盘不支持SMART,所以报错)。smartd是一个守护进程(一个帮助程序),它能监视拥有自我监视,分析和汇报技术(Self-Monitoring, Analysis, and Reporting Technology – SMART)的硬盘。SMART体系使得硬盘能监视并汇报自己的运行状况.它的一个重要特性是能够预测失败,使得系统管理员能避免数据丢失。
通过daemonset部署可使每个节点都有一个Pod来采集数据,node-exporter.yaml 内容如下:
ELK的具体详解上篇文章我已经说过了这里我就不说了 下面我来讲解一下Sentil插件
前面已经对远程Linux 主机是否存活做了监控,而判断远程机器是否存活,我们可以使用ping 工具对其监测。还有一些远程主机服务,例如ftp、ssh、http,都是对外开放的服务,即使不用Nagios,我们也可以试的出来,随便找一台机器看能不能访问这些服务就行了。但是对于像磁盘容量,cpu负载这样的“本地信息”,Nagios只能监测自己所在的主机,而对其他的机器则显得有点无能为力。毕竟没得到被控主机的适当权限是不可能得到这些信息的。为了解决这个问题,Nagios为我们提供了多种解决方案。
首先需要配置 Zabbix 的邮件功能。 点击 管理->报警媒介类型->创建媒体类型
领取专属 10元无门槛券
手把手带您无忧上云