实时流式计算系统中的几个陷阱

大数据流动

发布于 2020-05-19 16:24:13

1.5K00

代码可运行

文章被收录于专栏：实时计算实时计算

运行总次数：0

代码可运行

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增多，创建实时数据处理作业变得非常容易。这些API定义明确，并且诸如Map-Reduce之类的标准概念在所有框架中都遵循几乎相似的语义。

但是，直到今天，实时数据处理领域的开发人员都在为该领域的某些特性而苦苦挣扎。因此，他们在不知不觉中创建了一条路径，该路径导致了应用程序中相当常见的错误。

让我们看一下在设计实时应用程序时可能需要克服的一些陷阱。

活动时间

源生成数据的时间戳称为“ 事件时间”，而应用程序处理数据的时间戳称为“ 处理时间”。在实时数据流应用程序中，最常见的陷阱是无法区分这些时间戳。

让我们详细说明一下。

由于诸如代理中的GC较高或太多数据导致背压之类的多个问题，数据队列易出现延迟。我将事件表示为（E，P），其中E是事件时间戳（HH：MM：SS格式），P是处理时间戳。在理想世界中，E == P，但这在任何地方都不会发生。

假设我们收到以下数据

（'05：00：00'，'05：00：02'），（'05：00：01'，'05：00：03'），（'05：00：01'，'05：00： 03'），（'05:00:01'，'05:00:05'），
（'05:00:02'，'05:00:05'），（'05:00:02'，' 05:00:05'）

现在，我们假设有一个程序可以计算每秒接收到的事件数。根据事件时间，程序返回

[05:00:00，05:00:01）= 1 
[05:00:01，05:00:02）= 3 
[05:00:02，05:00:03）= 2

但是，基于处理时间，输出为

[5时○○分00秒，5点00分01秒）= 0 
[5点00分01秒，5点00分02秒）= 0 
[5点00分02秒，5时00分03秒）= 1 
[05:00： 03，05:00:04）= 2 
[05:00:04，05:00:05）= 0 
[05:00:05，05:00:06）= 3

如您所见，这两个都是完全不同的结果。

数据流中异常的延迟

大多数实时数据应用程序使用来自分布式队列的数据，例如Apache Kafka，RabbitMQ，Pub / Sub等。队列中的数据由其他服务生成，例如消费者应用程序的点击流或数据库的日志。

问题队列容易受到延迟的影响。即使在几十毫秒内，生成的事件也可能到达您的工作中，或者在最坏的情况下可能会花费一个多小时（极高的背压）。由于以下原因，数据可能会延迟：

kafka上的高负载
生产者在其服务器中缓冲数据
由于应用程序中的背压，消耗速度慢

假设数据将永远不会延迟是一个巨大陷阱。开发人员应始终具有测量数据延迟的工具。例如，在Kafka，您应该检查偏移量滞后。

您还应该监视作业中的背压以及延迟（即事件时间与处理时间之间的差）。没有这些将导致数据意外丢失，例如10分钟。时间窗口似乎没有数据，并且窗口显示10分钟。之后，其期望值将是预期值的两倍。

Joins

在批处理数据处理系统中，将两个数据集合并起来比较简单。在流处理世界中，情况变得有些麻烦。

//数据集的格式为（时间戳，键，值）
//数据组1 （05:00: 
00，A，值A），
（05:00: 01，B，值B），（05:00： 04，C，值C），（05:00:04，D，值D）
//数据流2 
（05:00:00，A，值A'），（05:00:02，B，值B' ），
（05:00:00，C，值C'）