前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Flink流批一体 | 青训营笔记

Flink流批一体 | 青训营笔记

作者头像
鳄鱼儿
发布2024-05-21 21:24:37
1390
发布2024-05-21 21:24:37
举报
文章被收录于专栏:鳄鱼儿的技术分享

Flink如何做到流批一体

流批一体的理念

2020年,阿里巴巴实时计算团队提出“流批一体”的理念,期望依托Flink框架解决企业数据分析的3个核心问题,理念中包含三个着力点,分别是一套班子、一套系统、一个逻辑。

  • 一套班子:统一开发人员角色,现阶段企业数据分析有两个团队,一个团队负责实时开发,一个团队负责离线开发,在流批一体的理念中,期望促进两个团队的融合。
  • 一套系统:统一数据处理技术,不管实时开发,还是离线开发都是用Flink框架进行,如非必要,尽可能少用其它系统。
  • 一个逻辑:当前企业数据分析,有两套班子,两套技术体系,两套计算模式,导致实时数据和离线数据经常对不上,期望通过Flink SQL的方式,让离线和实时计算逻辑保持一致。

流批一体的理念即使用同一套 API、同一套开发范式来实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。

何时需要流批一体

举例:

  • 在抖音中,实时统计一个短视频的播放量、点赞数,也包括抖音直播间的实时观看人数等(流)
  • 在抖音中,按天统计创造者的一些数据信息,比如昨天的播放量有多少、评论量多少、广告收入多少(批)

这些场景下的具体实现如下图

从用户的角度来看,上诉流、批独立实现方案存在一些痛点:

  • 人力成本比较高。由于流和批是两套系统,相同的逻辑需要两个团队开发两遍。
  • 数据链路冗余。在很多的场景下,流和批计算内容其实是一致,但是由于是两套系统,所以相同逻辑还是需要运行两遍,产生一定的资源浪费。
  • 数据口径不一致。这个是用户遇到的最重要的问题。两套系统、两套算子,两套 UDF,一定会产生不同程度的误差,这些误差给业务方带来了非常大的困扰。这些误差不是简单依靠人力或者资源的投入就可以解决的。

流和批业务场景的特点

Flink中认为所有一切都是流组成,即批式计算是流式计算的特列,有界的数据集是一种特殊的数据流。不管哪种数据的集合,Flink认为都是流,所以理论上Flink可以用一套引擎架构来解决上述的两种场景的。

Apache Flink主要从以下模块来实流批一体化:

1.SQL层:支持bound和unbound数据集的处理;

2.DataStream API层统一,批和流都可以使用DataStream ApI来开发;

3.ScheDuler 层架构统一,支持流批场景;

4.Failover Recovery层 架构统一,支持流批场景;

5.Shuffle Service 层架构统一,流批场景选择不同的Shuffle Service。

流批一体的Scheduler层

Scheduler主要负责将作业的DAG转化为在分布式环境中可以执行的Task,在1.12之前的版本,Flink就支持EAGER和LAZY两种模式的调换:

举例:EAGER模式下,12个task会一起调度,集群需要有足够的资源

举例:LA ZY模式下:最小调度一个task即可,集群中有一个slot资源就可以运行。

在新版本的Flink中用一个新的概念Pipeline Region来处理。

由Pipeline的数据交换方式连接的Task构成为一个Pipeline Region 。本质上,不管是流作业还是批作业,都是按照Pipeline Region粒度来申请资源和调度任务。

流批一体的Shuffle Service层

Shuffle:在分布式计算中,用来连接上下游数据交互的过程叫做Shuffle。一般,分布式计算中所有涉及到上下游衔接的过程,都可以理解为Shuffle。

针对不同的分布式计算框架,Shuffle通常有几种不同的实现:

  1. 基于文件的Pull Based Shuffle,比如Spark或MR;它的特点是具有较高的容错性,适合较大规模的批处理作业由于是基于文件的,它的容错性和稳定性会更好一些;
  2. 基于Pipeline的Push Based Shuffle,比如Flink、Storm、Presto等,它的特点是低延迟和高性能,但是因为数据没有存储下来,如果是batch任务的话,就需要进行重跑恢复。

流和批之间Shuffle是有差异:

  • Shuftle数据的生命周期:流作业的Shuffle数据与Task是绑定的,而批作业的Shuffle数据与Task是解耦的;
  • Shute数据存储介质:流作业的生命周期比较短、而且流作业为了实时性,shuffle通常存储在内存中,批作业因为数据量比较大以及容错的需求,一般会存储在磁盘里;
  • Shufte的部署方式:流作业Shuffle服务和计算节点部署在一起,可以减少网络开销,从而减少latency,而批作业则不同。

Flink对于流和批提供两种类型的Shuffle ,虽然Streaming和Batch Shuffle在具体的策略上存在一定的差异,但本质上都是为了对数据进行Re- Partition,因此不同的Shuffle 之间是存在一定的共性的。所以Flink的目标是提供一套统一 的Shufle架构,既可以满足不同Shufle在策略上的定制,同时还能避免在共性需求上进行重复开发。

场景选择

  • Streaming和OL AP场景

为了性能的需要,通常会使用基于Pipeline的Shuffle模式

  • Batch场景

一般会选取 Blocking的Shuffle模式

为了统一 Flink 在Streaming和Batch模式下的Shuffle架构,Flink实现了一个Pluggable的ShuffleService框架,抽象出一些公共模块。

对于Shuffle Service,Flink 开源社区已经支持

  1. Netty Shuffle Service :既支持pipeline又支持blocking , Flink默认的shuffle Service策略;
  2. Remote Shuffle Service :既支持pipeline又支持blocking,不过对于pipeline模式,走remote反而会性能下降,主要是有用在batch的blocking场景,字节内部是基于CSS来实现的RSS。

Flink架构优化

在实际生产环境中,针对不同的应用场景,我们对数据处理的要求是不同的:

  1. 有些场景下,只需离线处理数据,对实时性要求不高,但要求系统吞吐率高,典型的应用是搜索引擎构建索引;
  2. 有些场景下,需对数据进行实时分析,要求每条数据处理延迟尽可能低,典型的应用是广告推荐、金融风控场景。

举个例子:

  1. 在抖音中,实时统计一个短视频的播放量、点赞数,也包括抖音直播间的实时观看人数等; (流式场景)
  2. 在抖音中,按天统计创造者的一些数据信息,比如昨天的播放量有多少、评论量多少、广告收入多少; (批式场景)
  3. 在抖音的一些推广活动中,运营同学需要对一些实时产出的结果数据做一些实时多维分析,来帮助后面活动的决策。 (OLAP场景)

通过前面的对比分析,可以发现:

  1. 批式计算是流式计算的特例,Everything is Streams,有界数据集(批式数据)也是一种数据流、一种特殊的数据流;
  2. 而OLAP计算是一种特殊的批式计算,它对并发和实时性要求更高,其他情况与普通批式作业没有特别大区别。

理论上,我们是可以用一套引擎架构来解决上述三种场景,只不过需要对不同场景支持相应的扩展性、并允许做不同的优化策略。

流/批/OLAP业务场景概述

OLAP的典型特征是高并发查询,查询返回时间有很严格的时延要求,需要高性能支持。

Flink做OLAP优势

统一引擎:流处理、批处理、OLAP统一使用Flink引擎

  • 降低学习成本,仅需要学习一个引擎
  • 提高开发效率,很多SQL是流批通用
  • 提高维护效率,可以更集中维护好一个引擎

既有优势:利用Flink已有的很多特性,使OLAP使用场景更为广泛

  • 使用流处理的内存计算、Pipeline
  • 支持代码动态生成
  • 也可以支持批处理数据落盘能力

相互增强:OLAP能享有现有引擎的优势,同时也能增强引擎能力

  • 无统计信息场景的优化
  • 开发更高效的算子
  • 使Flink同时兼备流、批、OLAP处理的能力,成为更通用的框架

Flink支持的应用场景

Apache Flink支持的3种典型应用场景:

  1. 事件驱动的应用
  • 反欺诈
  • 基于规则的监控报警
  1. 流式Pipeline
  • 数据ETL
  • 实时搜索引擎的索引
  1. 批处理&流处理分析
  • 网络质量监控
  • 消费者实时数据分析

Flink电商流批一体实践

目前电商业务数据分为离线数仓和实时数仓建设,离线和实时数据源,计算引擎和业务代码没有统一 ,在开发相同需求的时候经常需要离线和实时对齐口径,同时,由于需要维护两套计算路径,对运维也带来压力。

从数据源,业务逻辑,计算引擎完成统一,提高开发和运维效率。

Flink OLAP实践

下图中:上面是原来的链路;下面是走HTAP之后的链路,Flink直接提供数据查询与分析的能力。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Flink如何做到流批一体
    • 流批一体的理念
      • 何时需要流批一体
        • 流批一体的Scheduler层
        • 流批一体的Shuffle Service层
    • Flink架构优化
      • 流/批/OLAP业务场景概述
        • Flink做OLAP优势
          • Flink支持的应用场景
          • Flink电商流批一体实践
          • Flink OLAP实践
          相关产品与服务
          流计算 Oceanus
          流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档