首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >美团点评基于 Flink 的实时数仓平台实践

美团点评基于 Flink 的实时数仓平台实践

作者头像
程序员小强
发布于 2020-01-17 07:49:49
发布于 2020-01-17 07:49:49
1.5K0
举报

摘要:数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。

主要内容为以下三个方面:

  1. 实时计算演进与业务实践
  2. 基于 Flink 的实时数仓平台
  3. 未来发展与思考

重要:点击文末「阅读原文」可查看 Flink Forward Asia 大会视频。

一、美团点评实时计算演进

美团点评实时计算演进历程

在 2016 年,美团点评就已经基于 Storm 实时计算引擎实现了初步的平台化。2017 年初,我们引入了 Spark Streaming 用于特定场景的支持,主要是在数据同步场景方面的尝试。在 2017 年底,美团点评实时计算平台引入了 Flink。相比于 Storm 和 Spark Streaming,Flink 在很多方面都具有优势。这个阶段我们进行了深度的平台化,主要关注点是安全、稳定和易用。从 19 年开始,我们致力于建设包括实时数仓、机器学习等特定场景的解决方案来为业务提供更好的支持。

实时计算平台

目前,美团点评的实时计算平台日活跃作业数量为万级,高峰时作业处理的消息量达到每秒 1.5 亿条,而机器规模也已经达到了几千台,并且有几千位用户正在使用实时计算服务。

实时计算平台架构

如下图所示的是美团点评实时计算平台的架构。

  • 最底层是收集层,这一层负责收集用户的实时数据,包括 Binlog、后端服务日志以及 IoT 数据,经过日志收集团队和 DB 收集团队的处理,数据将会被收集到 Kafka 中。这些数据不只是参与实时计算,也会参与离线计算。
  • 收集层之上是存储层,这一层除了使用 Kafka 做消息通道之外,还会基于 HDFS 做状态数据存储以及基于 HBase 做维度数据的存储。
  • 存储层之上是引擎层,包括 Storm 和 Flink。实时计算平台会在引擎层为用户提供一些框架的封装以及公共包和组件的支持。
  • 在引擎层之上就是平台层了,平台层从数据、任务和资源三个视角去管理。
  • 架构的最上层是应用层,包括了实时数仓、机器学习、数据同步以及事件驱动应用等。

本次分享主要介绍实时数仓方面的建设情况。

从功能角度来看,美团点评的实时计算平台主要包括作业和资源管理两个方面的功能。其中,作业部分包括作业配置、作业发布以及作业状态三个方面的功能。

  • 作业配置方面,则包括作业设置、运行时设置以及拓扑结构设置;
  • 作业发布方面,则包括版本管理、编译/发布/回滚等;
  • 作业状态则包括运行时状态、自定义指标和报警以及命令/运行时日志等。

在资源管理方面,则为用户提供了多租户资源隔离以及资源交付和部署的能力。

业务数仓实践

  • 流量

前面提到,现在的美团点评实时计算平台更多地会关注在安全、易用和稳定方面,而应用上很大的一个场景就是业务数仓。接下来会为大家分享几个业务数仓的例子。

第一个例子是流量,流量数仓是流量类业务的基础服务,从业务通道而言,会有不同通道的埋点和不同页面的埋点数据,通过日志收集通道会进行基础明细层的拆分,按照业务维度划分不同的业务通道,如美团通道、外卖通道等。

基于业务通道还会进行一次更加细粒度的拆分,比如曝光日志、猜你喜欢、推荐等。以上这些包括两种使用方式,一种是以流的方式提供下游其他业务方使用,另外一方面就是做一些流量方面的实时分析。

下图中右边是流量数仓的架构图,自下向上分为四层,分别是 SDK 层,包括了前端、小程序以及 APP 的埋点;其上是收集层,埋点日志落地到 Nginx,通过日志收集通道收到 Kafka 中。在计算层,流量团队基于 Storm 能力实现了上层的 SQL 封装,并实现了 SQL 动态更新的特性,在 SQL 变更时不必重启作业。

  • 广告实时效果

这里再举一个基于流量数仓的例子-广告实时效果验证。下图中左侧是广告实时效果的对比图。广告的打点一般分为请求(PV)打点、SPV(Server PV)打点、CPV(Client PV)曝光打点和 CPV 点击打点,在所有打点中都会包含一个流量的 requestID 和命中的实验路径。根据 requestID 和命中的实验路径可以将所有的日志进行 join,得到一个 request 中需要的所有数据,然后将数据存入 Durid 中进行分析,支持实际 CTR、预估 CTR 等效果验证。

  • 即时配送

这里列举的另外一个业务数仓实践的例子是即时配送。实时数据在即时配送的运营策略上发挥了重要作用。以送达时间预估为例,交付时间衡量的是骑手送餐的交付难度,整个履约时间分为了多个时间段,配送数仓会基于 Storm 做特征数据的清洗、提取,供算法团队进行训练并得到时间预估的结果。这个过程涉及到商家、骑手以及用户的多方参与,数据的特征会非常多,数据量也会非常大。

  • 总结

业务实时数仓大致分为三类场景:流量类、业务类和特征类,这三种场景各有不同。

  • 数据模型上,流量类是扁平化的宽表,业务数仓更多是基于范式的建模,特征数据是 KV 存储。
  • 数据来源区分,流量数仓的数据来源一般是日志数据;业务数仓的数据来源是业务 binlog 数据;特征数仓的数据来源则多种多样。
  • 数据量而言,流量和特征数仓都是海量数据,每天百亿级以上,而业务数仓的数据量一般每天百万到千万级。
  • 数据更新频率而言,流量数据极少更新,则业务和特征数据更新较多。流量数据一般关注时序和趋势,业务数据和特征数据关注状态变更。
  • 数据准确性上,流量数据要求较低,而业务数据和特征数据要求较高。
  • 模型调整频率上,业务数据调整频率较高,流量数据和特征数据调整频率较低。

二、基于 Flink 的实时数仓平台

上面为大家介绍了实时数仓的业务场景,接下来为大家介绍实时数仓的演进过程和美团点评的实时数仓平台建设思路。

传统数仓模型

为了更有效地组织和管理数据,数仓建设往往会进行数据分层,一般自下而上分为四层:ODS(操作数据层)、DWD(数据明细层)、DWS(汇总层)和应用层。即时查询主要通过 PrestoHive 和 Spark 实现。

实时数仓模型

实时数仓的分层方式一般也遵守传统数据仓库模型,也分为了 ODS 操作数据集、DWD 明细层和 DWS 汇总层以及应用层。但实时数仓模型的处理的方式却和传统数仓有所差别,如明细层和汇总层的数据一般会放在 Kafka 上,维度数据一般考虑到性能问题则会放在 HBase 或者 Tair 等 KV 存储上,即席查询则可以使用 Flink 完成。

准实时数仓模型

在以上两种数仓模型之外,我们发现业务方在实践过程中还有一种准实时数仓模型,其特点是不完全基于流去做,而是将明细层数据导入到 OLAP 存储中,基于 OLAP 的计算能力去做汇总并进行进一步的加工。

实时数仓和传统数仓的对比

实时数仓和传统数仓的对比主要可以从四个方面考虑:

  • 第一个是分层方式,离线数仓为了考虑到效率问题,一般会采取空间换时间的方式,层级划分会比较多;则实时数仓考虑到实时性问题,一般分层会比较少,另外也减少了中间流程出错的可能性。
  • 第二个是事实数据存储方面,离线数仓会基于 HDFS,实时数仓则会基于消息队列(如 Kafka)。
  • 第三个是维度数据存储,实时数仓会将数据放在 KV 存储上面。
  • 第四个是数据加工过程,离线数仓一般以 Hive、Spark 等批处理为主,而实时数仓则是基于实时计算引擎如 Storm、Flink 等,以流处理为主。

实时数仓建设方案对比

下图中对于实时数仓的两种建设方式,即准实时数仓和实时数仓两种方式进行了对比。它们的实现方式分别是基于 OLAP 引擎和流计算引擎,实时度则分别是分钟和秒级。

  • 调度开销方面,准实时数仓是批处理过程,因此仍然需要调度系统支持,虽然调度开销比离线数仓少一些,但是依然存在,而实时数仓却没有调度开销。
  • 业务灵活性方面,因为准实时数仓基于 OLAP 引擎实现,灵活性优于基于流计算的方式。
  • 对数据晚到的容忍度方面,因为准实时数仓可以基于一个周期内的数据进行全量计算,因此对于数据晚到的容忍度也是比较高的,而实时数仓使用的是增量计算,对于数据晚到的容忍度更低一些。
  • 扩展性方面,因为准实时数仓的计算和存储是一体的,因此相比于实时数仓,扩展性更弱一些。
  • 适用场景方面,准实时数仓主要用于有实时性要求但不太高、数据量不大以及多表关联复杂和业务变更频繁的场景,如交易类型的实时分析,实时数仓则更适用于实时性要求高、数据量大的场景,如实时特征、流量分发以及流量类型实时分析。

总结一下,基于 OLAP 引擎的建设方式是数据量不太大,业务流量不太高情况下为了提高时效性和开发效率的一个折中方案,从未来的发展趋势来看,基于流计算的实时数仓更具有发展前景。

一站式解决方案

从业务实践过程中,我们看到了业务建设实时数仓的共同需求,包括发现不同业务的元数据是割裂的,业务开发也倾向于使用 SQL 方式同时开发离线数仓和实时数仓,需要更多的运维工具支持。因此我们规划了一站式解决方案,希望能够将整个流程贯通。

这里的一站式解决方案主要为用户提供了数据开发工作平台、元数据管理。同时我们考虑到业务从生产到应用过程中的问题,我们 OLAP 生产平台,从建模方式、生产任务管理和资源方面解决 OLAP 生产问题。左侧是我们已经具备数据安全体系、资源体系和数据治理,这些是离线数仓和实时数仓可以共用的。

为何选择 Flink?

实时数仓平台建设之所以选择 Flink 是基于以下四个方面的考虑,这也是实时数仓方面关注的比较核心的问题。

  • 第一个是状态管理,实时数仓里面会进行很多的聚合计算,这些都需要对于状态进行访问和管理,Flink 在这方面比较成熟。
  • 第二个是表义能力,Flink 提供极为丰富的多层次 API,包括 Stream API、Table API 以及 Flink SQL。
  • 第三个是生态完善,实时数仓的用途广泛,用户对于多种存储有访问需求,Flink 对于这方面的支持也比较完善。
  • 最后一点就是 Flink 提供了流批统一的可能性

实时数仓平台

  • 建设思路

实时数仓平台的建设思路从外到内分为了四个层次,我们认为平台应该做的事情是为用户提供抽象的表达能力,分别是消息表达、数据表达、计算表达以及流和批统一。

  • 实时数仓平台架构

如下图所示的是美团点评的实时数仓平台架构,从下往上看,资源层和存储层复用了实时计算平台的能力,在引擎层则会基于 Flink Streaming 实现一些扩展能力,包括对 UDF 的集成和 Connector 的集成。再往上是基于 Flink SQL 独立出来的 SQL 层,主要负责解析、校验和优化。在这之上是平台层,包括开发工作台、元数据、UDF 平台以及 OLAP 平台。最上层则是平台所支持的实时数仓的应用,包括实时报表、实时 OLAP、实时 Dashboard 和实时特征等。

  • 消息表达-数据接入

在消息表达层面,因为 Binlog、埋点日志、后端日志以及 IoT 数据等的数据格式是不一致的,因此美团点评的实时数仓平台提供数据接入的流程,能够帮助大家把数据同步到 ODS 层。这里主要实现了两件事情,分别是统一消息协议和屏蔽处理细节。

如下图左侧是接入过程的一个例子,对于 Binlog 类型数据,实时数仓平台还为大家提供了分库分表的支持,能够将属于同一个业务的不同的分库分表数据根据业务规则收集到同一个 ODS 表中去。

  • 计算表达-扩展 DDL

美团点评实时数仓平台基于 Flink 扩展了 DDL,这部分工作的主要目的是建设元数据体系,打通内部的主流实时存储,包括 KV 数据、OLAP 数据等。由于开发工作台和元数据体系是打通的,因此很多数据的细节并不需要大家在 DDL 中明确地声明出来,只需要在声明中写上数据的名字,和运行时的一些设置,比如 MQ 从最新消费还是最旧消费或者从某个时间戳消费即可,其他的数据访问方式是一致的。

  • 计算表达-UDF 平台

对于 UDF 平台而言,需要从三个层面考虑:

  • 首先是数据安全性。之前的数仓建设过程中,用户可以上传 Jar 包去直接引用 UDF,这样做是有危险性存在的,并且我们无法知道数据的流向。从数据安全的角度来考虑,平台会进行代码审计和血缘关系分析,对于历史风险组件或者存在问题的组件可以进行组件收敛。
  • 第二个层面,在数据安全基础上我们还会关注 UDF 的运行质量,平台将会为用户提供模板、用例以及测试的管理,为用户屏蔽编译打包、Jar 包管理的过程,并且会在 UDF 模板中进行指标日志的埋点和异常处理。
  • 第三个层面是 UDF 的复用能力,因为一个业务方开发的 UDF,其他业务方很可能也会使用,但是升级过程中可能会带来不兼容的问题,因此,平台为业务提供了项目管理、函数管理和版本管理的能力。

UDF 的应用其实非常广泛,UDF 平台并不是只支持实时数仓,也会同时支持离线数仓、机器学习以及查询服务等应用场景。下图中右侧展示的是 UDF 的使用案例,左图是 UDF 的开发流程,用户只需要关心注册流程,接下来的编译打包、测试以及上传等都由平台完成;右图是 UDF 的使用流程中,用户只需要声明 UDF,平台会进行解析校验、路径获取以及在作业提交的时候进行集成。

  • 实时数仓平台-Web IDE

最后介绍一下实时数仓平台的开发工作台,以 Web IDE 的形式集成了模型、作业以及 UDF 的管理,用户可以在 Web IDE 上以 SQL 方式开发。平台会对 SQL 做一些版本的管理,并且支持用户回退到已部署成功的版本上去。

三、未来发展与思考

资源自动调优

从整个实时计算角度来考虑,目前美团点评的实时计算平台的节点数已经达到了几千台,未来很可能会达到上万台,因此资源优化这件事情很快就会被提上日程。由于业务本身的流量存在高峰和低谷,对于一个实时任务来说,可能在高峰时需要很多资源,但是在低谷时并不需要那么多资源。

另外一方面,波峰本身也是会发生变化的,有可能随着业务的上涨使得原来分配的资源数量不够用。因此,资源自动调优有两个含义,一个是指能够适配作业的高峰流量上涨,自动适配 Max 值;另外一个含义是指使得作业能够在高峰过去之后自动适应流量减少,能够快速缩容。我们可以通过每个任务甚至是算子的历史运行情况,拟合得到算子、流量与资源的关系函数,在流量变化时同步调整资源量。

以上是资源优化的思路,除此之外还需要考虑当资源完成优化之后应该如何利用。为了保证可用性,实时和离线任务一般会分开部署,否则带宽、IO 都可能被离线计算打满导致实时任务延迟。而从资源使用率角度出发,则需要考虑实时和离线的混合部署,或者以流的方式来处理一些实时性要求并不是非常高的任务。这就要求更细粒度的资源隔离和更快的资源释放。

推动实时数仓建设方式升级

实时数仓的建设一般分为几个步骤:

  • 首先,业务提出需求,后续会进行设计建模、业务逻辑开发和底层技术实现。美团点评的实时数仓建设思路是将技术实现统一表达,让业务关注逻辑开发,而逻辑开发也可以基于配置化手段实现自动构建。
  • 再上一层是可以根据业务需求实现智能建模,将设计建模过程实现自动化。

目前,美团点评的实时数仓平台建设工作还集中在统一表达的层次,距离理想状态仍然有比较长的一段路要走。

End

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MoziInnovations 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LNMP环境搭建Zabbix监控平台自动化安装脚本
此脚本是LNMP环境搭建Zabbix监控平台自动化安装脚本,有需要朋友可以参考,脚本内容如下:
子润先生
2021/07/06
4130
LNMP环境自动化安装脚本
3、如果想一个一个的安装LNMP架构,请注意安装顺序:Nginx–>Mysql–>PHP
子润先生
2021/07/06
5490
centos7.4安装LNMP
系统最小化安装,只安装了一些常用包(vim、lirzs、gcc*、wget、bash-completion)
萧晚歌
2020/08/19
1K0
shell脚本 一键源码编译安装LNMP
下载 wget https://raw.githubusercontent.com/goodboy23/shell/master/jobs/install_lnmp.sh
陈不成i
2021/06/23
1K0
LAMP环境搭建WordPress自动化安装脚本
此脚本是LAMP环境安装WordPress脚本,有需要朋友可以参考,脚本内容如下:
子润先生
2021/07/06
4490
centos7_Lnmp编译安装
17年面试运维岗位的时候,面试官要求输出一份lnmp编译的操作文档,于是有了如下安装nginx+php+mysql,进入正题:
钢铁知识库
2022/08/20
4570
entOS 7.4基于LNMP环境安装Zabbix监控平台
https://mirrors.yangxingzhen.com/nginx/nginx-1.13.4.tar.gz
子润先生
2021/07/09
3850
Linux centos下编译安装Lnmp shell脚本
#!/bin/bash repo="/etc/yum.repos.d/CentOS7-Base-163.repo" if [ ! -e $repo ]; then # -e 判断文件存在;参考:Shell if 条件判断文件或目录 yum install -y wget cd /etc/yum.repos.d/ mkdir bak mv * bak #wget http://mirrors.aliyun.com/repo/Centos-7.repo #wget http://
eisc
2020/11/14
2.7K0
LNMP+FastCGI平台搭建脚本
cmake-2.8.10.2.tar.gz libevent-2.0.21-stable.tar.gz libmcrypt-2.5.8.tar.gz mhash-0.9.9.9.tar.gz nginx-1.2.0.tar.gz php-5.4.9.tar.gz libiconv-1.13.tar.gz MySQL-5.5.13.tar.gz
星哥玩云
2022/07/03
3790
CentOS 7.4搭建LNMP环境
目前LNMP环境的应用非常多。在静态页面的处理上,Nginx比Apache更强;但在动态页面的处理上,Nginx并不占优势。
子润先生
2021/06/29
9330
centos6.5编译安装LNMP架构web环境
作为 Web 服务器:相比 Apache,Nginx 使用更少的资源,支持更多的并发连接,体现更高的效率。
用户3094376
2018/09/12
1.9K1
centos6.8下安装部署LNMP-(nginx1.8.0+php5.6.10+mysql5.6.12)
在平时运维工作中,经常需要用到LNMP应用框架。 以下对LNMP环境部署记录下: 1)前期准备:为了安装顺利,建议先使用yum安装依赖库 [root@opd ~]#yum install -y make cmake gcc gcc-c++ autoconf automake libpng-devel libjpeg-devel zlib libxml2-devel ncurses-devel bison libtool-ltdl-devel libiconv libmcrypt mhash mcrypt l
洗尽了浮华
2018/01/22
7860
手把手教你,嘴对嘴传达------源码编译LNMP部署及应用 , 手动搭建discuz论坛
LNMP是指一组通常一起使用来运行动态网站或者服务器的自由软件名称首字母缩写。L指Linux,N指Nginx,M一般指MySQL,也可以指MariaDB,P一般指PHP,也可以指Perl或Python
不吃小白菜
2020/09/03
1.1K0
手把手教你,嘴对嘴传达------源码编译LNMP部署及应用   , 手动搭建discuz论坛
源码编译LNMP平台架构
众所周知,LAMP 平台是目前应用最为广泛的网站服务器架构,其中的“A”对应着Web服务软件Apache HTTP Server。随着Nginx在企业中的使用越来越多,LNMP(或LEMP)架构也受到越来越多Linux系统工程师的青睐,其中的“E”就来自于Nginx的发音[engine x]。就像构建LAMP平台一一样, 构建LNMP平台也需要Linux服务器、MySOL数据库和PHP解析环境,区别主要在Nginx与PHP的协作配置上。
星哥玩云
2022/07/24
8590
源码编译LNMP平台架构
LAMP环境搭建Zabbix监控平台自动化安装脚本-2
此脚本是LAMP环境搭建Zabbix监控平台自动化安装脚本,有需要朋友可以参考,脚本内容如下:
子润先生
2021/07/06
4270
CentOS7安装部署LNMP环境
1.安装部署Nginx 安装前准备 yum -y install pcre-devel zlib-devel openssl openssl-devel 添加nginx用户 useradd -s /sbin/nologin nginx -M 编译安装nginx tar zxf nginx-$NVERSION.tar.gz -C /usr/src/ ./configure --user=nginx --group=nginx --prefix=/usr/local/nginx --with-http
DevOps云学堂
2019/10/18
8690
CentOS7安装部署LNMP环境
CentOS下源码编译安装LNMP(附源码包)
LNMP指的是一个基于CentOS/Debian编写的Nginx、PHP、MySQL、phpMyAdmin、eAccelerator一键安装包。可以在VPS、独立主机上轻松的安装LNMP生产环境。LNMP代表的就是:Linux系统下Nginx+MySQL+PHP这种网站服务器架构。Linux是一类Unix计算机操作系统的统称,是目前最流行的免费操作系统。代表版本有:debian、centos、Ubuntu、Fedora、gentoo等;Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器;Mysql是一个小型关系型数据库管理系统;PHP是一种在服务器端执行的嵌入HTML文档的脚本语言。这四种软件均为免费开源软件,组合到一起,成为一个免费、高效、扩展性强的网站服务系统。
星哥玩云
2022/07/14
1.9K0
CentOS下源码编译安装LNMP(附源码包)
19 张图手把手用 Docker 搭建个人博客平台
需要使用 Docker 技术在一台主机上创建 LNMP 服务并运行 Wordpress 网站平台。
我的小碗汤
2023/11/05
1.7K0
19 张图手把手用 Docker 搭建个人博客平台
CentOS 7源码安装最新版LNMP环境
首先做一些准备工作,先把centos7的防火墙更换成iptables,可以参见如下链接
botkenni
2022/01/21
6380
搭建 LNMP 环境
LNMP是建立web应用的平台,是Linux、NGINX,MySQL(有时也指MariaDB,数据库软件) 和PHP(有时也是指Perl或Python) 的简称。
剧终
2020/08/27
1.4K0
搭建 LNMP 环境
推荐阅读
相关推荐
LNMP环境搭建Zabbix监控平台自动化安装脚本
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场