前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Flink是如何处理一个流数据计算任务的

Flink是如何处理一个流数据计算任务的

作者头像
博文视点Broadview
发布于 2022-04-29 03:40:17
发布于 2022-04-29 03:40:17
6240
举报

👆点击“博文视点Broadview”,获取更多书讯

Flink是如何处理一个流数据计算任务的,整个流程如图所示,分为以下几个步骤:

(1)Flink先将用户编写的应用程序转换为逻辑图(Logical Graph),逻辑图的节点代表算子,边代表算子要计算的输入/输出数据流

(2)Flink会对生成的逻辑图进行一些优化,比如将两个或多个连续相同的算子组合成算子链(Operator Chain),算子链内的算子可以直接传递数据,这样可以减少数据在节点之间传输产生的开销,这一步的作用类似数据库系统中优化器的作用。

(3)Flink会将逻辑图转换为真正可执行的物理图(Physical Graph),物理图的节点是任务(Task),边依然表示输入/输出的数据流。任务是指封装了一个或多个算子的并行执行的实例。

(4)Flink将具体的任务调度到集群中的执行节点上,并行执行任务。Flink支持对任务配置并行度(Parallelism),即一个任务的并行实例数。

内容摘自《深入理解分布式系统》,作者唐伟志,曾任网易游戏、腾讯基础架构工程师。

本书主要讲解分布式系统常用的基础知识、算法和案例,经笔者对文献海洋中晦涩艰深的原理和算法进行提炼,辅以图示和代码,并结合实际经验进行分析总结而成。通过阅读本书,读者可以快速、轻松地掌握分布式系统的基本原理,以及Paxos或Raft共识算法,并通过典型的案例学习如何设计大型分布式系统。

本书首先介绍什么是分布式系统、分布式系统带来的挑战,以及如何对分布式系统进行建模,这部分内容偏向概念性介绍。接着介绍了分布式数据的基础知识,包括数据分区技术、数据复制技术、CAP定理、一致性模型和隔离级别,尝试厘清一些十分容易混淆的术语,比如一致性、线性一致性、最终一致性和一致性算法等。本书还介绍了分布式系统的核心算法——Paxos和Raft算法,不仅补充了大量图示进行讲解,还从零实现了一个Paxos算法。此外,本书分析了常见的分布式事务,并讨论了分布式系统中的时间问题,整理了一些实际发生的编程陷阱。最后结合一些对工业界产生重大影响的论文或开源系统,学习前人在设计大型分布式系统时的思路、取舍和创新。

扫码了解本书详情!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大数据初识------Flink如何实现Exactly once计算不重不丢
Flink是使用Kafka链接计算任务,利用kafka的exactly once实现流计算的不重不丢,而Kafka 的 Exactly Once 语义是通过它的事务和生产幂等两个特性来共同实现的
小时的棒棒糖
2023/11/28
5580
大数据初识------Flink如何实现Exactly once计算不重不丢
想做好分布式架构?这个知识点一定要理解透!
👆点击“博文视点Broadview”,获取更多书讯 21世纪以来,大规模分布式系统、云计算和云原生飞速发展,在短短20年间就成为各大企业信息技术基础架构的核心基石。 企业迈向分布式的根本原因包括: 移动互联网时代,各大企业每天都在和巨大的流量和爆炸性增长的数据打交道; 摩尔定律的失效,使得提升单机性能会产生很高的成本,同时网络速度越来越快,意味着并行化程度只增不减; 此外,许多应用都要求7×24小时可用,因停电或维护导致的服务不可用,变得越来越让人难以接受; 最后,经济全球化也导致了企业必须构建分布在多
博文视点Broadview
2022/03/29
3560
Flink(一)
Apache Flink(德语:快速灵巧,原德国柏林大学基金会项目)是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。ms级别水平。data flow+event sequence。
matt
2022/10/25
6100
Flink(一)
浅谈Flink分布式运行时和数据流图的并行化
本文将以WordCount的案例为主线,主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章:读取Kafka实时数据流,实现Flink WordCount。阅读完本文后,读者可以对Flink的分布式运行时有一个全面的认识。
PP鲁
2020/02/26
1.8K0
Spark架构模式与Flink的对比
Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架,通过流来模拟批,Spark属于批处理框架,通过批来模拟流。其分别属于Lambda架构和Dataflow架构。
Tim在路上
2022/03/23
8570
Spark架构模式与Flink的对比
Flink Checkpoint机制原理剖析与参数配置
在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机或网络中断等问题,那么本地的状态在遇到故障时如何保证不丢呢?Flink定期保存状态数据到存储上,故障发生后从之前的备份中恢复,整个被称为Checkpoint机制,它为Flink提供了Exactly-Once的投递保障。本文将介绍Flink的Checkpoint机制的原理。本文会使用多个概念:快照(Snapshot)、分布式快照(Distributed Snapshot)、检查点(Checkpoint)等,这些概念均指的是Flink的Checkpoint机制,读者可以将这些概念等同看待。
PP鲁
2020/02/17
2K0
Flink Checkpoint机制原理剖析与参数配置
Flink 内部原理之数据流容错
Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下,程序的状态也将最终反映每条记录来自数据流严格一次exactly once。 请注意,有一个开关可以降级为保证至少一次(least once)(如下所述)。
smartsi
2019/08/07
9750
聊聊Flink的必知必会(一)
Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。使用官网的语句来介绍, Flink 就是 “Stateful Computations over Data Streams”。
Ryan_OVO
2023/10/19
5280
聊聊Flink的必知必会(一)
学习Flink,看这篇就够了
批处理在大数据世界有着悠久的历史。早期的大数据处理基本上是批处理的天下。批处理主要操作大容量的静态数据集,并在计算过程完成之后返回结果。所以批处理面对的数据集通常具有以下特征:
saintyyu
2021/11/22
3.2K1
学习Flink,看这篇就够了
Flink分布式系统一致性快照Checkpoint机制详解
说明:本文分为四个部分内容:背景、Chandy_Lamport算法、Flink Checkpoint对齐机制和总结。
用户7600169
2022/04/25
3K0
Flink分布式系统一致性快照Checkpoint机制详解
Flink核心概念:系统架构、时间处理、状态与检查点
上图的Flink示例程序对一个数据流做简单处理,整个过程包括了输入(Source)、转换(Transformation)和输出(Sink)。程序由多个DataStream API组成,这些API,又被称为算子 (Operator),共同组成了逻辑视角。在实际执行过程中,逻辑视角会被计算引擎翻译成可并行的物理视角。
PP鲁
2019/12/25
2.3K0
万字长文深度解析WordCount,入门Flink,看这一篇就够了!
要想熟练掌握一个大数据框架,仅仅是学习一些网络上的样例程序是远远不够的,我们必须系统地了解它背后的设计和运行原理。
PP鲁
2019/12/26
1.9K0
万字长文深度解析WordCount,入门Flink,看这一篇就够了!
修炼内功,一文梳理分布式事务及相关算法,剖析 Flink 端到端的一致性
临界知识这个概念,是我上个月读《好好学习:个人知识管理精进指南》这本书学到的概念,真的有被启发到,现在觉得它对于我们深刻了解世界有着非常大的作用。
kk大数据
2021/07/30
7930
Flink DataStream—— 状态(State)&检查点(Checkpoint)&保存点(Savepoint)原理
​ 最近一次项目当中需要将大量数据保存再Flink程序当中用作缓存数据一共后续数据使用,隧对最近使用到的状态、检查点、保存点等原理和使用进行一个总结
俺也想起舞
2021/04/25
4.6K0
Flink DataStream—— 状态(State)&检查点(Checkpoint)&保存点(Savepoint)原理
Flink面试通关手册
2019 年是大数据实时计算领域最不平凡的一年,2019 年 1 月阿里巴巴 Blink (内部的 Flink 分支版本)开源,大数据领域一夜间从 Spark 独步天下走向了两强争霸的时代。Flink 因为其天然的流式计算特性以及强大的处理性能成为炙手可热的大数据处理框架。
大数据真好玩
2019/12/09
1.4K0
Flink面试通关手册
Flink 极简教程: 架构及原理 Apache Flink® — Stateful Computations over Data Streams
Apache Flink 是一个分布式流计算引擎,用于在无边界和有边界数据流上进行有状态的计算。
一个会写诗的程序员
2022/01/04
3.4K0
Flink 极简教程: 架构及原理 Apache Flink® — Stateful Computations over Data Streams
2022精选豆瓣高分技术书
👆点击“博文视点Broadview”,获取更多书讯 读书好,好读书,读好书! 怎么找好书来读呢?相信很多小伙伴用来找好书的方法之一是到豆瓣看看评分,那些评分高的书从一定程度上说明它们是经过读者验证过的好书! 所以,本期书单为大家精选了8本2022年豆瓣高分技术书,帮助大家省去挑选好书的麻烦,可以轻松闭眼入! 《卓有成效的工程师》 [美] Edmond Lau 著 万学凡,顾宇 译 原著风靡全国被誉为工程师世界的《原则》 人气极高的Quora创始人(MIT、斯坦福客座讲师)神作 用杠杆率神奇工具将数字
博文视点Broadview
2022/07/25
8540
2022精选豆瓣高分技术书
Flink 面试题
Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。
Tim在路上
2020/08/05
1.4K0
Flink 使用Flink进行高吞吐,低延迟和Exactly-Once语义流处理
在本文中,我们将深入探讨Flink新颖的检查点机制是如何工作的,以及它是如何取代旧架构以实现流容错和恢复。我们在各种类型的流处理应用程序上对Flink性能进行测试,并通过在Apache Storm(一种广泛使用的低延迟流处理器)上运行相同的实验来进行对比。
smartsi
2019/08/07
6K0
Flink 使用Flink进行高吞吐,低延迟和Exactly-Once语义流处理
深度解读!新一代大数据引擎Flink厉害在哪?(附实现原理细节)
导语 | 大数据计算分为离线计算和实时计算,其中离线计算就是我们通常说的批计算,代表技术是Hadoop MapReduce、Hive等;实时计算也被称作流计算,代表技术是Storm、Spark Streaming、Flink等。本文系统地介绍了流式计算的相关知识,并着重介绍了Flink的实现原理细节,便于大家快速地理解和掌握流式计算,并基于Flink完成业务开发。 一、流式计算和批处理 批处理在大数据世界有着悠久的历史。早期的大数据处理基本上是批处理的天下。批处理主要操作大容量的静态数据集,并在计算过
腾讯云开发者
2021/11/10
1.7K0
推荐阅读
相关推荐
大数据初识------Flink如何实现Exactly once计算不重不丢
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档