前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文搞懂Flink生成StreamGraph

一文搞懂Flink生成StreamGraph

作者头像
shengjk1
发布于 2025-05-16 02:13:39
发布于 2025-05-16 02:13:39
3800
代码可运行
举报
文章被收录于专栏:码字搬砖码字搬砖
运行总次数:0
代码可运行
  • 1.前言

通过一文搞懂这一系列的文章,我们已经知道了,Flink 作业的提交过程:

这篇文章主要聚焦在

我们以简单的代码为例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * @author shengjk1
 * @date 2018/11/23
 */
public class FlinkJava8Demo {
	public static void main(String[] args) throws Exception {
		StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
		DataStreamSource<Integer> source = env.fromElements(1, 2, 3, 4, 5);
		
		source.flatMap((Integer number, Collector<String> out)->{
			StringBuilder builder = new StringBuilder();
			for (int i = 0; i < number; i++) {
				builder.append("a");
				out.collect(builder.toString());
			}
		}).returns(Types.STRING).print();
		
		source.map(i-> Tuple2.of(i,i))
				.returns(Types.TUPLE(Types.INT,Types.INT))
				.print();
		
		env.execute("aa");
	}
}

2.FlatMap 的转化

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public <R> SingleOutputStreamOperator<R> flatMap(FlatMapFunction<T, R> flatMapper, TypeInformation<R> outputType) {
		return transform("Flat Map", outputType, new StreamFlatMap<>(clean(flatMapper)));
	}

flatMap 是 DataStream 的一个方法或者就是我们常数的算子,而 StreamFlatMap 其实才是 StreamOperator

transform 方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
protected <R> SingleOutputStreamOperator<R> doTransform(
			String operatorName,
			TypeInformation<R> outTypeInfo,
			StreamOperatorFactory<R> operatorFactory) {
		// read the output type of the input Transform to coax out errors about MissingTypeInfo
		transformation.getOutputType();
		OneInputTransformation<T, R> resultTransform = new OneInputTransformation<>(
				this.transformation,
				operatorName,
				operatorFactory,
				outTypeInfo,
				environment.getParallelism());
		@SuppressWarnings({"unchecked", "rawtypes"})
		// DataStream 的一个子类
		SingleOutputStreamOperator<R> returnStream = new SingleOutputStreamOperator(environment, resultTransform);
		//添加 operator,成为 StreamGraph 的一个 operator
		getExecutionEnvironment().addOperator(resultTransform);
		// 返回 stream,供下游继续操作
		return returnStream;
	}

像 filter、map等都会进行类似的操作,flink sql 中也是采用这样的方式来将 ExecNode 转化为 flink operator 的

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文搞懂Flink生成StreamGraph
flatMap 是 DataStream 的一个方法或者就是我们常数的算子,而 StreamFlatMap 其实才是 StreamOperator
shengjk1
2020/09/25
6340
一文搞懂Flink生成StreamGraph
flink源码从头分析第一篇之WordCount DataStream操作
每个应用程序都有一个hello world代码,在flink里面这个hello world一般就是一段wordcount程序,我们来尝试通过一段wordcount代码来逐步剖析flink的执行过程。毫无疑问,这将是一个系列,而且笔者没办法保证能有足够的空闲时间完成这个系列。
山行AI
2021/07/01
1.4K0
flink系列(7)-streamGraph
StreamGraph是flink四层执行图中的第一层图,代码在org.apache.flink.streaming.api.graph包中,第一层graph主要做的事情是将所有的stransformation添加到DAG中,并设置并行度,设置slot槽位
yiduwangkai
2019/09/17
9320
flink系列(7)-streamGraph
[源码分析] 从FlatMap用法到Flink的内部实现
本文将从FlatMap概念和如何使用开始入手,深入到Flink是如何实现FlatMap。希望能让大家对这个概念有更深入的理解。
罗西的思考
2020/09/07
1.8K0
Flink 是如何将你写的代码生成 StreamGraph 的 (上篇)
为什么要“大致”阅读,因为这些牛逼的框架都是层层封装,搞懂核心原理已经是很不易,更别谈熟读源码了。
kk大数据
2021/03/13
1.4K0
聊聊flink DataStream的connect操作
flink-streaming-java_2.11-1.7.0-sources.jar!/org/apache/flink/streaming/api/datastream/DataStream.java
code4it
2019/01/13
1.8K0
聊聊flink DataStream的connect操作
Storm作业转化为Flink作业流程分析
一、 Storm的topology作业可以转化为Flink Job放到Flink上运行,需要修改Storm作业的代码。以wordcount为例,代码修改成可以在Flink上运行的作业后,如下:
kevinyh
2018/09/08
2.3K0
Process Function (Low-level Operations)
ProcessFunction是一个低级的流处理操作,可以访问所有(非循环)流应用程序的基本组件:
用户7283316
2020/05/07
7840
聊聊flink的Broadcast State
flink-core-1.7.0-sources.jar!/org/apache/flink/api/common/state/MapStateDescriptor.java
code4it
2018/12/26
2.4K0
聊聊flink的Broadcast State
[源码分析] 从源码入手看 Flink Watermark 之传播过程
本文将通过源码分析,带领大家熟悉Flink Watermark 之传播过程,顺便也可以对Flink整体逻辑有一个大致把握。
罗西的思考
2020/09/07
2K0
从头分析flink源码第二篇之streamGraph的生成
上一篇我们分析了DataStream wordcount程序的几步操作中整个DataStream的转变,包括不同类型的Transformation的生成、整个Transformation链的串联、执行环境的初始化等。本篇我们来从源码角度分析下flink怎么由第一篇的transformations列表来生成StreamGraph的。
山行AI
2021/07/01
1.1K0
2021年最新最全Flink系列教程_Flink原理初探和流批一体API(二)
oolConfig config = new FlinkJedisPoolConfig.Builder() .setHost(“node1”).build(); result.addSink(new RedisSink>(config, new RedisMapperEx())); env.execute(); // * 最后将结果保存到Redis 实现 FlinkJedisPoolConfig // * 注意:存储到Redis的数据结构:使用hash也就是map // * key value // * WordCount (单词,数量)
Maynor
2021/12/07
5430
2021年最新最全Flink系列教程_Flink原理初探和流批一体API(二)
【Flink】第二十四篇:源码角度分析 DataStream API 调用逻辑
【Flink】第四篇:【迷思】对update语义拆解D-、I+后造成update原子性丢失
章鱼carl
2022/03/31
8400
【Flink】第二十四篇:源码角度分析 DataStream API 调用逻辑
2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(建议收藏!!)
下面为大家带来阿里巴巴极度热推的Flink,实时数仓是未来的方向,学好Flink,月薪过万不是梦!!
Maynor
2021/06/24
2.7K0
聊聊flink KeyedStream的reduce操作
flink-streaming-java_2.11-1.7.0-sources.jar!/org/apache/flink/streaming/api/datastream/KeyedStream.java
code4it
2018/12/29
4.2K0
聊聊flink KeyedStream的reduce操作
大数据Flink进阶(十七):Apache Flink术语
Flink计算框架可以处理批数据也可以处理流式数据,Flink将批处理看成是流处理的一个特例,认为数据原本产生就是实时的数据流,这种数据叫做无界流(unbounded stream),无界流是持续不断的产生没有边界,批数据只是无界流中的一部分叫做有界流(bounded stream),针对无界流数据处理叫做实时处理,这种程序一般是7*24不间断运行的;针对有界流数据处理叫做批处理,这种程序处理完当前批数据就停止。下面我们结合一些代码介绍Flink中的一些重要的名词术语。
Lansonli
2023/04/09
8130
大数据Flink进阶(十七):Apache Flink术语
Flink入门:读取Kafka实时数据流,实现WordCount
本文主要介绍Flink接收一个Kafka文本数据流,进行WordCount词频统计,然后输出到标准输出上。通过本文你可以了解如何编写和运行Flink程序。
PP鲁
2020/02/26
5.7K0
Flink入门:读取Kafka实时数据流,实现WordCount
聊聊flink的Parallel Execution
flink-java-1.7.1-sources.jar!/org/apache/flink/api/java/ExecutionEnvironment.java
code4it
2019/02/12
3K0
聊聊flink的Parallel Execution
2021年大数据Flink(四十二):​​​​​​​BroadcastState
在开发过程中,如果遇到需要下发/广播配置、规则等低吞吐事件流到下游所有 task 时,就可以使用 Broadcast State。Broadcast State 是 Flink 1.5 引入的新特性。
Lansonli
2021/10/11
8440
Flink异步之矛-锋利的Async I/O
在Flink 流处理过程中,经常需要和外部系统进行交互,用维度表补全事实表中的字段。
王知无-import_bigdata
2020/02/10
1.2K0
推荐阅读
相关推荐
一文搞懂Flink生成StreamGraph
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验