Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >告警管理的智能引擎:复杂事件处理(CEP)实战解析

告警管理的智能引擎:复杂事件处理(CEP)实战解析

原创
作者头像
嘉为蓝鲸
发布于 2025-06-16 03:47:25
发布于 2025-06-16 03:47:25
1940
举报
文章被收录于专栏:WeOpsWeOps

直达原文:告警管理不止降噪:如何从零散事件中挖出关键信息

复杂事件处理(CEP,Complex Event Processing)是一项针对动态事件流进行实时分析、复杂模式识别及关联性推理的技术,广泛适用于处理海量实时数据、挖掘事件间深层关联的场景。例如:银行交易反欺诈挖掘、高频交易策略优化等场景,在这些场景中,系统通过在海量事件中基于复杂规则(如特征、上下文、时序关系、因果关联等)识别并聚合成高层次事件。

以具体案例为例:用户A在上海凌晨通过手机支付1万元(原子事件1),同时其银行卡在深圳ATM机尝试取现5万元(原子事件2),系统基于“地理位置+时间突变+超额交易”的规则,将其识别为“盗刷风险”这一高层次复合事件,而这种技术同样非常适用于IT运维中的告警管理场景。

我们先回顾一下告警管理,由于国外术语翻译的差异,告警管理中的几个核心概念常被混淆:

1)Event

指系统中发生的任何可观察到的变化 ,是最基础的概念,比如服务器CPU使用率发生了变化,一般是有监控系统产生的,数量最多但是富含的信息也是最丰富的。

2)Alert

数据逻辑上是Event的聚合,是运维人员最常处理的对象,它意味着某个IT对象出现了问题,需要进行关注,这里我们其实需要告警系统不应单纯将超过阈值的Event直接升级为Alert并通知,而是需将相关联的Event合理聚合为Alert,以助力后续问题排查。

3)Incident

已经影响或者可能影响服务的运行了,我们需要将这个事故有关的信息(Alert、Event)聚合在一起,拉上相关的人员共同处理问题,这是一个高级场景事件的识别与管理维度的结合。

在CEP的逻辑中,是通过规则的方式来描述与聚合,将原子事件挖掘与指向到系统中更加高级别的活动,而这个规则有几个核心:事件类型、事件模式规则、动作。其中事件之间普遍的关系分三种:

  • 时间关系:事件A发生在事件B之前;
  • 因果关系:如果事件A对应的活动发生在事件B之前,那么意味着A导致了B;
  • 聚合关系:如果事件A对应的活动包含了一系列的事件B1、B2、B3……那么A就是所有事件B的一个聚合,相应的A是比B更高级的事件。

(1)下面举一个例子

“若Web服务器发生‘连接超时’告警(原子事件),且负载均衡器同步出现‘请求转发失败’日志(原子事件),则触发‘服务链路故障’复合事件”。

  • 事件类型:主机连接超时Event、负载均衡转发失败Event;
  • 事件模式匹配:({主机连接超时Event}.Time< {负载均衡转发失败Event}.Time);
  • 动作:Create {服务链路故障Alert}。

从中可以看到,我们可以从“低层次”且“多”的基础事件中,结构化的推断出“高层次”且“少”的复合事件,而层次越高越接近支撑决策的信息。

我们可以惊喜的看到,嘉为蓝鲸告警中心的逻辑可以按照CEP的模式进行解释,告警抑制、告警压缩、告警处理等概念都是可以在CEP的规则模式下进行抽象与对应。通过CEP的理论基础,帮助我们通过结构化解析IT系统中的 “数据噪声”,将孤立事件转化为可行动的洞察,为告警管理的建设提供支撑,助力企业构建 “监控-分析-响应” 的闭环自动化体系。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
(1)Flink CEP复杂事件处理引擎介绍
复杂事件处理(CEP)既是把不同的数据看做不同的事件,并且通过分析事件之间的关系建立起一套事件关系序列库。利用过滤,聚合,关联性,依赖,层次等技术,最终实现由简单关系产生高级事件关系。
NBI大数据
2022/08/12
9920
(1)Flink CEP复杂事件处理引擎介绍
「事件架构」ESP和CEP有什么区别?
有些人可能想知道为什么有两种事件处理方式:事件流处理(ESP)和复杂事件处理(CEP)。这篇文章的最初版本是我在13年前写的。当然,ESP工具也随着时间的推移而改变。
架构师研究会
2020/07/20
1.2K0
「事件架构」ESP和CEP有什么区别?
Flink进阶-Flink CEP(复杂事件处理)
FlinkCEP是在Flink之上实现的复杂事件处理(CEP)库。 它允许你在×××的事件流中检测事件模式,让你有机会掌握数据中重要的事项。
王知无-import_bigdata
2019/06/19
16.1K2
什么是Flink CEP (1)
复杂事件处理(CEP)既是把不同的数据看做不同的事件,并且通过分析事件之间的关系建立起一套事件关系序列库。利用过滤,聚合,关联性,依赖,层次等技术,最终实现由简单关系产生高级事件关系。
CainGao
2020/04/14
8230
Apache Flink CEP 实战
本文根据 Apache Flink 系列直播课程整理而成,由哈啰出行大数据实时平台资深开发刘博分享。通过一些简单的实际例子,从概念原理,到如何使用,再到功能的扩展,希望能够给计划使用或者已经使用的同学一些帮助。
Spark学习技巧
2021/03/05
1.4K0
Apache Flink CEP 实战
Flink CEP 原理和案例详解
(1)定义 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事件。 (2)特征 CEP的特征如下: 目标:从有序的简单事件流中发现一些高阶特征; 输入:一个或多个简单事件构成的事件流; 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件; 输出:满足规则的复杂事件。
王知无-import_bigdata
2020/08/20
8.3K0
Flink CEP 原理和案例详解
复合事件处理(Complex Event Processing)介绍
近年来,面向服务架构 SOA一直是热门的议题。面向服务架构SOA 使用了比组件、程序(procedure)层次更高的服务做为处理单元,通过开放格式交换标准例如XML、Web Service 来交换数据,避免不同平台间的差异带来的不便,达到在异构IT 环境中有效且弹性的组合企业逻辑,并且更快速的产生响应,期望达到所谓实时化的企业。 事件驱动架构(Event-Driven Architecture, EDA)以面向服务架构为基础,将面向服务中的服务进一步转化成以事件作为单位来处理,当某一个事件产生即触发下一个事
张善友
2018/01/19
1.9K0
复合事件处理(Complex Event Processing)介绍
Flink CEP 新特性进展与在实时风控场景的落地
摘要:本文整理自阿里云开发工程师耿飙&阿里云开发工程师胡俊涛,在 FFA 实时风控专场的分享。本篇内容主要分为四个部分:
从大数据到人工智能
2023/02/13
2.9K0
Flink CEP 新特性进展与在实时风控场景的落地
CEP 概念
5.5.1 CEP是什么 CEP是流式处理的核心技术。 不管是单独的应用系统,还是数据仓库,都是先将数据存储到数据库/数据仓库,然后再处理或查询。而CEP与常见的Message Queue系统类似,都将数据看作数据流,在连续数据的快速移动过程中进行分析处理。这样的方式不需要很大的数据加载,完全可以在内存中进行,从而能够快速产生结果,如图5.29所示。 业务事件可能很复杂,在各种不同的数据流中源源不断地产生各种类型的事件。不仅需要对这些业务事件进行复杂的计算,如过滤、关联、聚合等,同时还需要考虑这些业务事件
大数据和云计算技术
2018/03/08
2.5K0
CEP 概念
零基础学Flink:CEP复杂事件处理
上一篇文章,我们介绍了UDF,可以帮用户自定义函数,从而在使用Flink SQL中,能够得心应手的处理一些数据问题。今天我们来学习一下Flink是如何处理CEP问题的。本文会分为两个部分,概念介绍部分和代码案例部分。
麒思妙想
2020/07/10
1.9K0
少年,你的告警量可以更少些!
作者简介:梁定安,腾讯织云负责人,目前就职于腾讯社交网络运营部,开放运维联盟委员,腾讯云布道师,腾讯课堂运维讲师,EXIN DevOps Master讲师,凤凰项目沙盘教练,复旦大学客座讲师。* 请原
织云平台团队
2017/05/15
5K0
少年,你的告警量可以更少些!
基于服务树的动态资源管理方法
如果非要说CMDB是ITOM的核心元数据,那么服务树就是CMDB的核心数据。如果非要说应用CMDB最核心的精髓在哪儿,那么服务树必须是其一。
用户1593318
2019/11/18
1.5K0
微服务架构云端应用
微服务架构(Microservices Architecture)是一种架构风格和设计模式,提供将应用分割成一系列细小的服务,每个服务专注于单一业务功能,运行于独立的进程中,服务之间边界清晰,采用轻量级通信机制相互沟通、配合来实现完整的应用,满足业务和用户的需求。(引用自http://www.csdn.net/article/2015-07-20/2825258) 微服务的优点: 可独立部署、升级、替换、伸缩 自由选择开发语言 高效利用资源 故障隔离 总结下来就是:灵活、稳定、省资源。 微服务的缺点: 服
Rainbond开源
2018/05/31
1.6K0
无处不在的流计算到底是什么?终于有人讲明白了(附导图)
导读:两千多年以前,孔老夫子站在大河边,望着奔流而去的河水,不禁感叹:“逝者如斯夫,不舍昼夜。”老夫子是在叹惜着韶华白首,时光易逝!
IT阅读排行榜
2020/03/04
2K0
无处不在的流计算到底是什么?终于有人讲明白了(附导图)
青铜到王者:AIOps 平台在腾讯的升级之路
在海量运营方法论的指导下,运维团队构建了体系化的运维能力,为众多产品保驾护航。
织云平台团队
2018/03/28
6.1K1
青铜到王者:AIOps 平台在腾讯的升级之路
FlinkCEP - Flink的复杂事件处理
FlinkCEP是在Flink上层实现的复杂事件处理库。 它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。
Spark学习技巧
2023/12/05
6730
FlinkCEP - Flink的复杂事件处理
【顶刊论文分享】告警分析全家桶
“从海量告警中找出能对企业安全造成风险的关键告警”是安全运营工作的核心,对于这一目标,运营人员往往如大海捞针般,没有行之有效的方法。因此企业安全运营的现状往往是依靠运营人员的长期积累的经验(包括对告警的认知程度、对企业资产的认知程度等),来逐步靠近这一目标。
绿盟科技研究通讯
2022/11/14
9460
【顶刊论文分享】告警分析全家桶
HBase集群监控告警实战:基于Metrics的JVM、Compaction和RPC队列深度解析
在大数据技术栈中,HBase作为分布式列存储数据库,凭借其高吞吐、低延迟的特性,已成为海量数据实时读写场景的核心组件。然而,随着集群规模扩大和数据量激增,运维挑战也日益凸显。缺乏有效的监控告警机制,集群可能悄无声息地滑向性能瓶颈甚至完全宕机,而运维团队却对此毫无察觉。
用户6320865
2025/08/27
1190
HBase集群监控告警实战:基于Metrics的JVM、Compaction和RPC队列深度解析
对SQL Server 2008 R2感兴趣StreamInsight特性
SQL Server 2008 R2的十大变化(上),SQL Server 2008 R2的十大变化(下) 这十大特性中我比较感兴趣的是StreamInsight:通过SQL Server 2008 R2新的StreamInsight组件,Microsoft进入了复杂事件处理(Complex Event Processing,CEP)竞争,其中相关的供应商还有Oracle、IBM和StreamBase。 SQL Server 2008 R2引入StreamInsight功能,可以为开发人员提供一套全方位的平
张善友
2018/01/29
6580
【系统设计】指标监控和告警系统
在本文中,我们将探讨如何设计一个可扩展的指标监控和告警系统。一个好的监控和告警系统,对基础设施的可观察性,高可用性,可靠性方面发挥着关键作用。
全球技术精选
2022/09/05
2.1K0
【系统设计】指标监控和告警系统
相关推荐
(1)Flink CEP复杂事件处理引擎介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档