2020年,阿里巴巴实时计算团队提出“流批一体”的理念,期望依托Flink框架解决企业数据分析的3个核心问题,理念中包含三个着力点,分别是一套班子、一套系统、一个逻辑。
流批一体的理念即使用同一套 API、同一套开发范式来实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。
举例:
这些场景下的具体实现如下图
从用户的角度来看,上诉流、批独立实现方案存在一些痛点:
流和批业务场景的特点
Flink中认为所有一切都是流组成,即批式计算是流式计算的特列,有界的数据集是一种特殊的数据流。不管哪种数据的集合,Flink认为都是流,所以理论上Flink可以用一套引擎架构来解决上述的两种场景的。
Apache Flink主要从以下模块来实流批一体化:
1.SQL层:支持bound和unbound数据集的处理;
2.DataStream API层统一,批和流都可以使用DataStream ApI来开发;
3.ScheDuler 层架构统一,支持流批场景;
4.Failover Recovery层 架构统一,支持流批场景;
5.Shuffle Service 层架构统一,流批场景选择不同的Shuffle Service。
Scheduler主要负责将作业的DAG转化为在分布式环境中可以执行的Task,在1.12之前的版本,Flink就支持EAGER和LAZY两种模式的调换:
举例:EAGER模式下,12个task会一起调度,集群需要有足够的资源
举例:LA ZY模式下:最小调度一个task即可,集群中有一个slot资源就可以运行。
在新版本的Flink中用一个新的概念Pipeline Region来处理。
由Pipeline的数据交换方式连接的Task构成为一个Pipeline Region 。本质上,不管是流作业还是批作业,都是按照Pipeline Region粒度来申请资源和调度任务。
Shuffle:在分布式计算中,用来连接上下游数据交互的过程叫做Shuffle。一般,分布式计算中所有涉及到上下游衔接的过程,都可以理解为Shuffle。
针对不同的分布式计算框架,Shuffle通常有几种不同的实现:
流和批之间Shuffle是有差异:
Flink对于流和批提供两种类型的Shuffle ,虽然Streaming和Batch Shuffle在具体的策略上存在一定的差异,但本质上都是为了对数据进行Re- Partition,因此不同的Shuffle 之间是存在一定的共性的。所以Flink的目标是提供一套统一 的Shufle架构,既可以满足不同Shufle在策略上的定制,同时还能避免在共性需求上进行重复开发。
场景选择
为了性能的需要,通常会使用基于Pipeline的Shuffle模式
一般会选取 Blocking的Shuffle模式
为了统一 Flink 在Streaming和Batch模式下的Shuffle架构,Flink实现了一个Pluggable的ShuffleService框架,抽象出一些公共模块。
对于Shuffle Service,Flink 开源社区已经支持
在实际生产环境中,针对不同的应用场景,我们对数据处理的要求是不同的:
举个例子:
通过前面的对比分析,可以发现:
理论上,我们是可以用一套引擎架构来解决上述三种场景,只不过需要对不同场景支持相应的扩展性、并允许做不同的优化策略。
OLAP的典型特征是高并发查询,查询返回时间有很严格的时延要求,需要高性能支持。
统一引擎:流处理、批处理、OLAP统一使用Flink引擎
既有优势:利用Flink已有的很多特性,使OLAP使用场景更为广泛
相互增强:OLAP能享有现有引擎的优势,同时也能增强引擎能力
Apache Flink支持的3种典型应用场景:
目前电商业务数据分为离线数仓和实时数仓建设,离线和实时数据源,计算引擎和业务代码没有统一 ,在开发相同需求的时候经常需要离线和实时对齐口径,同时,由于需要维护两套计算路径,对运维也带来压力。
从数据源,业务逻辑,计算引擎完成统一,提高开发和运维效率。
下图中:上面是原来的链路;下面是走HTAP之后的链路,Flink直接提供数据查询与分析的能力。