前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >flink学习笔记

flink学习笔记

原创
作者头像
皮皮熊
修改于 2020-01-10 05:01:33
修改于 2020-01-10 05:01:33
1.3K0
举报

flink的一些学习笔记,将在github上持续更新

https://github.com/pierre94/flink-notes

一、技术博客索引

  1. Flink中文官方文档 综合类,中文,不全
  2. Flink官方博客读文档永远是学习的首选方向
  3. Flink中文社区ververicaFlink中文社区,大量学习资料和视频
  4. JarkWu的博客Flink committer,主要是Flink SQL方向
  5. VinoYang的博客Flink项目活跃贡献者,主要是flink早期的一些文章
  6. flink-china:flink-training-course本系列课程由 Apache Flink Community China 官方出品。主要是钉钉群里的直播视频和PPT
  7. realguoshuai的Hadoop生态圈中常用大数据组件文档 包含Flink Solr Sparksql ES Scala Kafka Hbase/phoenix Redis Kerberos (项目包含hadoop思维导图 印象笔记 Scala版本简单demo 常用工具类 去敏后的train code,适合入门学习
  8. zhisheng17的flink博客含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容,适合入门学习。 不过一些内容可能要到他付费的知识星球才能看到。

补充中……

二、优秀文章索引

1、基础入门

flink web 上传的jar包在哪里?

${flink-web-url}/#/job-manager/config 的web.tmpdir配置相关

flink如何处理依赖

Note on IntelliJ: To make the applications run within IntelliJ IDEA, the Flink dependencies need to be declared in scope compile rather than provided. Otherwise IntelliJ will not add them to the classpath and the in-IDE execution will fail with a NoClassDefFountError. To avoid having to declare the dependency scope as compile (which is not recommended, see above), the above linked Java- and Scala project templates use a trick: They add a profile that selectively activates when the application is run in IntelliJ and only then promotes the dependencies to scope compile, without affecting the packaging of the JAR files.

Apache Flink 类型和序列化机制简介

<!--> ![Flink类型分类](./img/introduction-to-type-and-serialization-mechainisms-1.png)-->

聊聊flink的ParameterTool

flink程序使用启动参数时会用到

补充中……

2、进阶

Flink on yarn 官方文档

Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式,本文分析两种模式及启动流程。

Flink metric 官方文档

flink内部收集指标: Counter 计数器、Gauge 一个值、Meter 统计吞吐量,单位时间内发生的次数、Histogram 统计数据分布,Max Min Mean

Flink WaterMark分析

Flink HA & 恢复策略 &并发度 --待补充

Flink有什么办法解决由于Key partition造成的数据倾斜问题? ---待补充

3、比赛

Apache Flink极客挑战赛——Flink TPC-DS性能优化

Apache Flink极客挑战赛——垃圾图片分类

补充中……

三、学习书籍

《追源索骥:透过源码看懂Flink核心框架的执行流程.pdf》

from github

《Introduction to Apache Flink》

英文版,100多页的小册子

补充中……

四、相关开源项目

1、flinkx:基于flink实现的分布式数据同步工具

flinkx

自己的一篇学习总结《数据同步工具Flinkx的研究与实践》

2、flinkk8soperator

flinkk8soperator github地址

待测试

3、Alink

Alink github地址

补充中……

五、源码实践

补充中……

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
纯钧(ChunJun,原名FlinkX)框架学习
目录 一、背景 二、概念 三、特性 四、工作原理 五、快速开始 1.数据同步任务模版 kafka to kudu mysql to hive  2.数据同步执行命令 flinkx老版本命令参数: flinkx老版本执行命令:  chunjun新版本执行命令:(明显看出命令还是减少了很多的,更简便易用了) 六、dolphinscheduler集成chunjun ---- [CSDN话题挑战赛第2期](https://marketing.csdn.net/p/7b6697fd9dd3795a268d1a6f
chimchim
2022/11/13
1.6K0
纯钧(ChunJun,原名FlinkX)框架学习
带你走入 Flink 的世界
在 18 年时,就听说过 Flink 流式计算引擎,是阿里调研选型选择的新一代大数据框计算架,当时就记住了这个新框架。
纯洁的微笑
2019/10/30
1.1K0
带你走入 Flink 的世界
Flink Forward Asia 2020干货总结!
剩喜漫天飞玉蝶,不嫌幽谷阻黄莺。2020 年是不寻常的一年,Flink 也在这一年迎来了新纪元。
Datawhale
2021/01/07
2.4K0
Flink Forward Asia 2020干货总结!
Flink 开发环境搭建
Flink 分别提供了基于 Java 语言和 Scala 语言的 API ,如果想要使用 Scala 语言来开发 Flink 程序,可以通过在 IDEA 中安装 Scala 插件来提供语法提示,代码高亮等功能。打开 IDEA , 依次点击 File => settings => plugins 打开插件安装页面,搜索 Scala 插件并进行安装,安装完成后,重启 IDEA 即可生效。
每天进步一点点
2022/07/27
6990
Flink 开发环境搭建
大数据Flink进阶(五):Flink开发环境准备
学习一门新的编程语言时,往往会从"hello world"程序开始,而接触一套新的大数据计算框架时,则一般会从WordCount案例入手,下面以大数据中最经典入门案例WordCount为例,来编写Flink代码,Flink底层源码是基于Java代码进行开发,在Flink编程中我们除了可以使用Java语言来进行编写Flink程序外,还可以使用Scala、Python语言来进行编写Flink程序,在后文章中我们将会主要使用Java和Scala来编写Flink程序。下面来准备下Flink开发环境。
Lansonli
2023/03/18
1.4K0
大数据Flink进阶(五):Flink开发环境准备
BigData--分布式流数据流引擎Apache Flink
官网:https://flink.apache.org/ 一、Flink的重要特点 1)事件驱动型(Event-driven) 事件驱动的应用程序是一个有状态的应用程序,它从一个或多个事件流接收事件,并通过触发计算、状态更新或外部操作对传入事件作出反应。 事件驱动应用程序是传统应用程序设计的一种发展,它具有分离的计算和数据存储层。在这种体系结构中,应用程序从远程事务数据库读取数据并将其持久化。 相反,事件驱动应用程序基于有状态流处理应用程序。在这个设计中,数据和计算被放在同一个位置,从而产生本地(内存或
MiChong
2020/09/24
9570
BigData--分布式流数据流引擎Apache Flink
大数据-Flink编程
groupBy会将一个DataSet转化为一个GroupedDataSet,聚合操作会将GroupedDataSet转化为DataSet。如果聚合前每个元素数据类型是T,聚合后的数据类型仍为T。
码客说
2022/10/04
1.1K0
大数据-Flink编程
数据同步工具Flinkx的研究与实践
Flink是新型的计算框架,具有分布式、低延迟、高吞吐和高可靠的特性。其支持多种部署方式:local(单机)、standalone模式,也可以基于yarn,mesos或者k8s做资源调度。Flink提供了比较高级的API,我们能比较方便地扩展现有的API来满足一些特殊需求,此外Flink提供了完整的状态管理体系(checkpoint),可以基于这个机制实现断点续传。
皮皮熊
2019/12/09
6.9K2
flink-sql 流计算可视化 UI 平台
朋友多年自主研发的flink-sql 流计算可视化 UI 平台,细细品味一番确实很好用,做到真正的MSP(混合云场景)多数据多复用的情况实现,下面是这个产品的使用说明看看大家有没有使用场景。
怀朔
2022/05/29
2.3K0
flink-sql 流计算可视化 UI 平台
Dlink Roadmap 站在巨人的肩膀上
摘要:本文介绍了 Dlink 的 Roadmap,站在巨人肩膀上的它,是否真的未来可期?内容包括:
文末丶
2022/02/10
2.6K0
Dlink Roadmap 站在巨人的肩膀上
Apache Flink初探
本文介绍了Apache Flink在大数据处理中的优势,包括Apache Flink的设计、架构、运行原理、应用案例、部署方式、兼容性等方面,并探讨了如何将Apache Flink与Apache Storm进行比较。通过本文的介绍,可以帮助读者更好地了解Apache Flink,并掌握如何在实际项目中应用Apache Flink。
1001482
2017/07/18
2.5K0
Apache Flink初探
Flink入门(三)——环境与部署
flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink在windows和linux中安装步骤,和示例程序的运行,包括本地调试环境,集群环境。另外介绍Flink的开发工程的构建。
大数据流动
2019/12/16
2.4K0
Flink入门(三)——环境与部署
[1133]flink问题集锦
原因:flink1.8版本之后已弃用该参数,ResourceManager将自动启动所需的尽可能多的容器,以满足作业请求的并行性。解决方法:去掉即可
周小董
2022/04/28
4.4K0
[1133]flink问题集锦
数栈技术分享:一文带你了解Flink jm、tm启动过程和资源分配
4)在perJob模式下,最终调用的是YarnJobClusterEntrypoint
袋鼠云数栈
2021/05/26
1.8K0
数栈技术分享:一文带你了解Flink jm、tm启动过程和资源分配
Flink学习笔记(1) -- Flink入门介绍
  Flink是一个分布式大数据计算引擎,可对有限流和无限流进行有状态的计算,支持Java API和Scala API、高吞吐量低延迟、支持事件处理和无序处理、支持一次且仅一次的容错担保、支持自动反压机制、兼容Hadoop、Storm、HDFS和YARN。
挽风
2021/04/13
9500
Flink学习笔记(1) -- Flink入门介绍
在线学习FTRL介绍及基于Flink实现在线学习流程
目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->模型训练->模型评估-> 并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快模型更新都需要小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。
house.zhang
2022/03/02
1.5K0
上线啦丨FlinkX1.12 Beta版正式在Github开源
万众期待的FlinkX1.12的Beta版今天正式在Github社区开源上线啦!这是FlinkX技术团队潜心打造的新版本的FlinkX,设计文档和使用文档已在社区中推送,大家可以随时下载查阅,喜欢的同学记得给我们点个Star哦~
袋鼠云数栈
2021/07/01
7430
flinkx数据同步
git clone https://github.com/DTStack/flinkx.git
yiduwangkai
2021/11/22
2.1K0
开源共建 | 中国移动冯江涛:ChunJun(原FlinkX)在数据入湖中的应用
ChunJun(原FlinkX)是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具。2018年4月,秉承着开源共享的理念,数栈技术团队在github上开源了FlinkX,承蒙各位开发者的合作共建,FlinkX得到了快速发展。
袋鼠云数栈
2022/11/28
5560
开源共建 | 中国移动冯江涛:ChunJun(原FlinkX)在数据入湖中的应用
快速入门Flink (4) —— Flink批处理的DataSources和DataSinks,你都掌握了吗?
相信经过前面几篇 Flink 文章的学习,大家对于Flink的代码书写一定非常期待。本篇博客,我们就来扒一扒关于Flink的DataSet API的开发。
大数据梦想家
2021/01/27
1.5K0
快速入门Flink (4) —— Flink批处理的DataSources和DataSinks,你都掌握了吗?
相关推荐
纯钧(ChunJun,原名FlinkX)框架学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档