Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >零代码如何打造自己的实时监控预警系统

零代码如何打造自己的实时监控预警系统

作者头像
欢醉
发布于 2018-01-22 11:52:18
发布于 2018-01-22 11:52:18
3.6K0
举报
文章被收录于专栏:james大数据架构james大数据架构

概要

为什么要做监控

线上发布了服务,怎么知道它一切正常,比如发布5台服务器,如何直观了解是否有请求进来,访问一切正常。 当年有一次将线上的库配置到了Beta,这么低级的错误,排错花了一个通宵,十几个人。 某个核心服务挂了,导致大量报错,如何确定到底是哪里出了问题。 SOA带来的问题,调用XX服务出问题,很慢,是否可以衡量?

由于业务系统数量大,每天都会产生大量的系统日志和业务日志,单流式业务的一台服务器产生的日志达400M 想直接查看内容打开可能几分钟,而且内容之多根本无法查看,给开发和运维带来诸多不便,现业务都是分布式的,日志也是分布在每台服务器上,所以查看日志和统计更是效率低下。实时收集分布在不同节点或机器上的日志,供离线或在线查阅及分析来提升工作效率的需求异常迫切,在此背景下,特对公司统一日志平台进行初步架构设计。

在信息化时代,日志的价值是无穷的。为了对系统进行有效的监控、维护、优化、改进,都离不开对日志的收集和分析,接下来我们来看看秉着“短平快”的互联网精神,构建的这套适合现有业务系统的统一日志平台,总体分为业务日志监控平台和软硬件服务监控平台。

业务日志平台总体设计

以上是最终的一个最终的一个架构规划,统一日志监控系统负责将所有系统日志和业务日志集中,再通过flume或logstash上传到日志中心(kafka集群),然后供StormSpark及其它系统实时分析处理日志,或直接将日志持久化存储到HDFS供离线数据分析处理,或写入ElasticSearch提供数据查询,或直接发起异常报警或提供指标监控查询。

根据现有业务量来看,以上架构有点“重”,可以作为以后的目标,现阶段来说可以参考以下架构:

      以上内容皆以配置为主,对现有业务没有影响,针对于Windows环境可以用FileBeat监控本地日志全量、增量的上传日志,对于一些稳定的日志,比如系统日志或框架日志(如HAproxy访问日志、系统异常日志等),通过rsyslog写到本地目录local0,然后logstash根据其配置,会将local0中的增量日志上传到日志中心。Java环境下可以采用log4j直接发送到Logstash。

日志处理层

可以在Logstash中对日志作简单的分类加工处理再发送出去。

我们可以将日志聚合,根据业务不同,建立不同的索引,存入ElasticSearch提供查询。 发现异常日志时,发往监控中心,向对应的业务方发起报警,发现和预发问题的实时性提高了。统计一些访问日志或调用日志等指标信息,发往监控中心来掌握相关调用趋势。调用链开始做起来了,系统性能瓶颈一目了然了。

日志存储层

ElosticSearch中按照不同业务建索引主题(数据库),业务里面再按照需求建类型(表),不需要的历史数据可按需要持久化到HDFS,以减少ES的压力。

展示层Kibana

Kibana是ELK中的组件,是一个针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana,可以通过各种图表进行高级数据分析及展示。

Kibana让海量数据更容易理解。它操作简单,基于浏览器的用户界面可以快速创建仪表板(dashboard)实时显示Elasticsearch查询动态。

Kibana可以非常方便地把来自Logstash、ES-Hadoop、Beats或第三方技术的数据整合到Elasticsearch,支持的第三方技术包括Apache Flume、Fluentd等。

监控ES的整体健康状态

直接查询ES索引内容

简单的查询过滤日志数据窗口

可实时的图形统计展示

采用ElastAlert实现日志监控告警

平台缺失针对mysql连接数的告警,指定业务如流式服务数据异常,当异常触发时能够及时通过短信、邮件等方式通知相关负责人员 

如故障信息:

以上说的“日志”不仅限于日志信息,也可以是业务数据。

软硬件服务监控平台设计

当业务层日志发现异常时如保存数据到Mysql时经常性报连接数据库超时,只有当业务人中发现再通知我们时已经过了一段时间才发现问题,但已无法重现当时的生产环境,也就靠经验来猜原因是服务器的网络问题还是数据库的真实连接满了还是程序的写法出现问题,因此就需要监控当时生产环境的软硬件监控数据。

经过多方咨询参考各大厂的监控方案和对比在此采用Zabbix作监控。

最近各服务整体问题一览

针对Web服务器和API的访问性能、HAproxy、IIS、Tomcat

实时绘图监控服务器所有TCP端口的数量和 MySql数据库连接数、Redis性能

自定义聚合展示服务器各指表最近的状态,CPU、内存、流量。

显示所有服务器的一个健康状况,一目了然

自动注册监控新的服务器

报警机制,Email、微信、短信等

其它特性

可监控Linux、Windows、打印机、文件系统、网卡设备、 SNMP OID、数据库等平台服务状态。

允许灵活地自定义问题阀值, Zabbix 中称为触发器(trigger), 存储在后端数据库中。

高级告警配置,可以自定义告警升级(escalation)、接收者及告警方式。

数据存储在数据库中  历史数据可配置 内置数据清理机制。

web 前端采用 php 访问无障碍。 Zabbix API 提供程序级别的访问接口,第三方程序可以很快接入。

灵活的权限系统。

结合以上业务和软硬件上的日志方便开发和运维实时查找问题提高解决问题的效率,而且前期均可只通过配置0代码就可实现监控和报表展示。

扩展性

可用Spark对数据实时分析,智能拦截异常数据和直接发送异常警报。

在Zabbix上结合自己的业务需求二次开发应用系统层面上的预警监控系统。

以后可加入Kafka将日志集中,至于为什么选用kafka集群来构建日志中心,理由主要如下:

1、分布式架构,可支持水平扩展。

2、高吞吐量,在普通的服务器上每秒钟也能处理几十万条消息(远高于我们的峰值1.5万条/秒)。

3、消息持久化,按topic分区存储,支持可重复消费。

4、可根据broker配置定期删除过期数据。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-09-11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全面解析微服务系统监控分层,啃透服务治理核心!
“监控”是微服务治理的一个重要环节,监控系统的完善程度直接影响到我们微服务质量的好坏,我们的微服务在线上运行时,有没有一套完善的监控体系能去了解到它的健康情况,这对整个系统的可靠性和稳定性非常重要。
java进阶架构师
2021/04/21
6461
从零开始搭建ELK+GPE监控预警系统
前言 本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。 业务规模 8个平台 100+台服务器 10+个集群分组 微服务600+ 用户N+ 面临问题 随着分布式微服务容器技术的发展,传统监控系统面临许多问题: 容器如何监控 微服务如何监控 集群性能如何进行分析计算 如何管理agent端大量配置脚本 这些都是传统监控所要面临的棘手问题,那么如何解决当前遇到的问题,GPE横空出世,后面会重点分析。 系统监控 目标群体:系统日志、服务器、容器、系
小柒2012
2018/04/13
2.2K0
从零开始搭建ELK+GPE监控预警系统
建设DevOps统一运维监控平台,先从日志监控说起
前言 随着Devops、云计算、微服务、容器等理念的逐步落地和大力发展,机器越来越多,应用越来越多,服务越来越微,应用运行基础环境越来多样化,容器、虚拟机、物理机不一而足。 面对动辄几百上千个虚拟机、容器,数十种要监控的对象,现有的监控系统还能否支撑的住?来自于容器、虚拟机、物理机的应用日志、系统服务日志如何采用同一套方案快速、完整的收集和检索?怎样的架构、技术方案才更适合如此庞大繁杂的监控需求呢?本文主要从以下几个方面来分享下笔者在日志监控方面的一些经验。 目录 一、DevOps浪潮下带来的监控挑
yuanyi928
2018/04/02
4.3K0
建设DevOps统一运维监控平台,先从日志监控说起
做了5年运维,靠着这份监控知识体系,我从3K变成了40K
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案。当然,对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认识。
IT大咖说
2020/04/23
2.3K0
做了5年运维,靠着这份监控知识体系,我从3K变成了40K
从零开始搭建ELK+GPE监控预警系统
本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。
小柒2012
2019/12/09
1.4K0
从零开始搭建ELK+GPE监控预警系统
从零搭建一个基于 ELK 的日志、指标收集与监控系统
在需要私有化部署的系统中,大部分系统仅提供系统本身的业务功能,例如用户管理、财务管理、客户管理等。但是系统本身仍然需要进行日志的采集、应用指标的收集,例如请求速率、主机磁盘、内存使用量的收集等。同时方便的分布式系统日志的查看、指标的监控和告警也是系统稳定运行的一个重要保证。
问问计算机
2021/05/08
1.3K0
从零搭建一个基于 ELK 的日志、指标收集与监控系统
构建企业级监控平台系列(一):监控系统概述及发展趋势
在这之前,我们相继卷完了:关系型数据库 MySQL 、 NoSQL 数据库 Redis 、 MongoDB 、搜索引擎 ElasticSearch 、大数据 Hadoop框架、PostgreSQL 数据库、消息中间件 Kafka、分布式协调中间件 Zookeeper、消息中间件 RabbitMQ 这些系列的知识体系。今天开始,我们将踏上另一个系列的学习之路:企业级监控平台。
民工哥
2023/09/26
1.8K0
构建企业级监控平台系列(一):监控系统概述及发展趋势
中小企业监控体系构建实战--案例分享(内附传送门)
 大名鼎鼎的中国运维社区的狼首赵瞬东相信大家都略有耳闻,江湖人称赵班长,曾在武警某部负责指挥自动化的架构和运维工作,2008年退役后一直从事互联网运维工作。曾带团队负责国内某食品电商的运维工作,同时带领团队创建了自己的运维社区,讲自己多年经验传递给众多学者、运维人员,《saltstack入门与实践》作者之一。
shaonbean
2019/05/27
9430
Z大牛分享 | Zabbix监控日志文件
最近很多人在咨询日志监控的事情,对于日志这个问题,简单也简单,不简单也不简单,日志最先反映出应用当前的问题,在海量日志里面找到我们异常记录,然后记录下来,并且根据情况报警,大家可以监控系统日志、nginx、Apache、业务日志。想用好用对,不是辣么容易,一直想系统的写下,无奈人比较懒,就把自己的微薄经验跟大家一起互相学习下。zabbix最主要的是监控日志文件中有没有某个字符串的表达式,支持日志文件正则和关键字正则,其是把日志文件中符合关键字的日志过滤出来入库,不包含的日志不采集,且只支持主动模式。
Zabbix
2021/02/03
2.3K0
大数据下的精准实时监控系统 | Promethus or Zabbix?
我们先来了解什么是监控,监控的重要性以及监控的目标,当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控的理解也不同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。
王知无-import_bigdata
2021/03/26
3.3K0
大数据下的精准实时监控系统 | Promethus or Zabbix?
聊一聊几款流行监控系统,你知道几个?
经济高速发展的今天,我们处于信息大爆炸的时代。随着经济发展,信息借助互联网的力量在全球自由地流动,于是就催生了各种各样的服务平台和软件系统。
lyb-geek
2022/12/18
1.4K0
聊一聊几款流行监控系统,你知道几个?
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
本文转录自陈地长(中信信用卡中心信息技术部 高级工程师)在 Doris Summit Asia 2024 上的演讲,经编辑整理。
SelectDB技术团队
2025/01/21
2140
ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
ELK平台介绍 在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段: 以下内容来自:http://baidu.blog.51cto.com/71938/1676798 日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。 通常,日志被分散的储存不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志。这样是不
Albert陈凯
2018/04/08
1K0
ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
Elasticsearch基础(一):Elasticsearch简介
开源Elasticsearch是一个基于Lucene的实时分布式的搜索与分析引擎,是遵从Apache开源条款的一款开源产品,是当前主流的企业级搜索引擎。作为一款基于RESTful API的分布式服务,Elasticsearch可以快速地、近乎于准实时地存储、查询和分析超大数据集,通常被用来作为构建复杂查询特性和需求强大应用的基础引擎或技术。
Lansonli
2024/10/05
3.6K1
Elasticsearch基础(一):Elasticsearch简介
监控日志问题:监控日志记录不完整,难以诊断问题
logger 是一个系统日志工具,可以将日志写入 /var/log/syslog 或其他指定的日志文件中。
是山河呀
2025/02/08
1430
建设DevOps统一运维监控平台,全面的系统监控你做好了吗?
前言 随着Devops、云计算、微服务、容器等理念的逐步落地和大力发展,机器越来越多,应用越来越多,服务越来越微,应用运行基础环境越来多样化,容器、虚拟机、物理机不一而足。面对动辄几百上千个虚拟机、容器,数十种要监控的对象,现有的监控系统还能否支撑的住?来自于容器、虚拟机、物理机、网络设备、中间件的指标数据如何采用同一套方案快速、完整的收集和分析告警?怎样的架构、技术方案才更适合如此庞大繁杂的监控需求呢? 上篇文章《建设DevOps统一运维监控平台,先从日志监控说起》主要从日志监控的方面进行了分享,本篇文章
yuanyi928
2018/03/30
4.8K0
建设DevOps统一运维监控平台,全面的系统监控你做好了吗?
Zabbix与ELK整合实现对安全日志数据的实时监控告警
ELK大家应该比较熟悉了,zabbix应该也不陌生,那么将ELK和zabbix放到一起的话,可能大家就有疑问了?这两个放到一起是什么目的呢,听我细细道来
用户6641876
2020/02/19
4.4K1
徒手教你制作运维监控大屏
  公司业务的不断发展,紧接而来的是业务种类的增加、服务器数量的增长、网络环境的越发复杂以及发布更加频繁,从而不可避免地带来了线上事故的增多,因此需要对服务器到应用的全方位监控,提前预警。
欢醉
2020/06/19
3.5K0
ELK日志监控分析系统的探索与实践(一):利用Filebeat监控Springboot日志
由于公司项目较多,所部署服务产生的日志也较多,以往查看服务器日志只能通过xshell、putty等SSH工具分别连接每台服务器,然后进入到各个服务器,执行Linux命令查看日志,这样可能会带来以下问题:
大刚测试开发实战
2022/11/14
2.4K1
ELK日志监控分析系统的探索与实践(一):利用Filebeat监控Springboot日志
持续监控和反馈:工具与方法详解
在现代运维中,持续监控和反馈是确保系统稳定性和性能的关键。通过对系统的实时监控,运维团队能够及时发现并解决问题,避免潜在风险。本文将详细介绍一些常用的持续监控工具和方法,并提供代码示例,以便更好地理解和应用这些工具。
Echo_Wish
2024/10/31
1700
持续监控和反馈:工具与方法详解
推荐阅读
相关推荐
全面解析微服务系统监控分层,啃透服务治理核心!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档