Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >FlinkCDC发展历程和简历中项目描述的思路

FlinkCDC发展历程和简历中项目描述的思路

作者头像
王知无-import_bigdata
发布于 2023-12-26 07:14:24
发布于 2023-12-26 07:14:24
3930
举报

Hi,大家好,今天的天气依然很冷。冻成狗了呀!

前两天,FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化,从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。

这些不是我们今天的重点。

今天简单说一下在整个框架发展过程中给我们学习进阶/写简历面试/项目总结上的一些启示。

这也是我经常被问到的问题,我应该怎么去描述和总结过去我做过的项目?

下面这些思路可以完美应用在简历、项目总结、项目描述上。🤔️

背景

最初CDC诞生也是基于现实的需要,也就是:传统的基于 CDC 的 ETL 分析中,数据采集工具是必须的,国外用户常用 Debezium,国内用户常用阿里开源的 Canal,采集工具负责采集数据库的增量数据,一些采集工具也支持同步全量数据。采集到的数据一般输出到消息中间件Kafka,然后 Flink 计算引擎再去消费这一部分数据写入到目的端,目的端可以是各种 DB,数据湖,实时数仓和离线数仓。

那么是否可以使用 Flink CDC 去替换上图中虚线框内的采集组件和消息队列,从而简化分析链路,降低维护成本。同时更少的组件也意味着数据时效性能够进一步提高。

答案是可以的,于是就有了我们基于 Flink CDC 的 ETL 分析流程。

上面这些其实就是我们在做一个项目总结,或者简历中的项目描述,或者新技能学习过程中的「背景部分」。通常,这部分是要让你的受众快速了解你在做的项目/事情的背景是什么。

背景又分为两部分。 第一部分是技术类的,你做过的项目要解决什么技术痛点/技术难点。 第二部分是业务类的,可以是因为某个业务场景或者业务需求。

背景就对应目标🎯,从引入背景到目标,中间就是我们要讲的第二部分:技术方案

技术方案和最终效果

在最初的设计中,Flink CDC暴露了一些痛点。

正是因为这些痛点,确立了2.0 的设计方案,核心要解决上述的三个问题:

  • 并发读取,全量数据的读取性能可以水平扩展
  • 全程无锁,不对线上业务产生锁的风险
  • 断点续传,支持全量阶段的 checkpoint

并且最终在性能上达到了数倍的提升。

在整个2.0设计方案过程中,其实就是我们解决一个问题或者业务场景设计方案的过程,这个思路是大家写在技术方案或者简历项目描述中的内容,这也是大家最关心的部分。你需要突出的是基于什么样的业务场景解决了什么问题。

未来发展

针对当前的一些现状,社区的Maintainer也在思考在FlinkCDC的不足,思考CDC乃至数据集成领域面临的技术挑战:

  • 历史数据规模大:数据库的历史数据规模大,100T+ 规模很常见
  • 增量数据实时性要求高:数据库的增量数据业务价值高,且价值随时间递减,需要实时处理
  • 数据的保序性:CDC 数据的加工结果通常需要强一致性语义,需要处理工具支持全局保序
  • 表结构动态变化:增量数据随时间增长,数据对应的表结构会不断演进

最终,面向数据集成用户、面向端到端实时数据集成的框架FlinkCDC 3.0应运而生。

这是未来发展/迭代的方向,也就是未来你在你的简历/总结文档中面试官问到的一些开放性问题的思考方式。

类似开放性的问题在很多比较高阶的面试中经常遇到,这个思路现在你学会了吧?

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据技术与架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Flink CDC 1.0至3.0回忆录
导读 本文主要分享 Flink CDC 1.0至3.0的发展历程,了解其背后的关键特性和发展趋势,探讨其在大数据领域的影响和价值。
一臻数据
2024/12/24
3590
Flink CDC 1.0至3.0回忆录
基于流计算 Oceanus Flink CDC 做好数据集成场景
数据时代,企业对技术创新和服务水准的要求不断提高,数据已成为企业极其重要的资产。无论是在在企业数据中台的建设,亦或者是打造一站式数据开发和数据治理的PASS平台。 首先需要做的就是进行跨应用的数据融合计算,需要将数据从孤立的数据源中采集出来,汇集到可被计算平台高效访问的目的地。此过程称之为ETL。通常所说的同步大致分为离线全量ETL、离线增量+离线全量的ETL、实时增量+离线全量ETL、实时增量ETL4种方式。 数据同步成为企业数据开发和使用一个绕不过去的技术需求。业内也存在大量的开源的解决方案。 在数据集成技术选型中,我们需要考虑的因素有哪些?主流开源方案中各自的优缺点有哪些?目前备受瞩目和推崇 Flink CDC ETL 是否能作为线上主力同步工具之一,它的优势有哪些?原理是什么?本文主要围绕以上几个疑问,进行论述。
Andy_l
2021/12/22
1.7K1
基于流计算 Oceanus Flink CDC 做好数据集成场景
Flink社区 | Flink CDC 2.0 正式发布,核心改进详解
摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性,包括:全量数据的并发读取、checkpoint、无锁读取等重大改进。
大数据技术架构
2021/08/25
2.8K0
Flink社区 | Flink CDC 2.0 正式发布,核心改进详解
Flink CDC 新一代数据集成框架
主要讲解了技术原理,入门与生产实践,主要功能:全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件,主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中,Apache Flink作为一款非常优秀的流处理引擎,其SQL API又提供了强大的流式计算能力,因此结合Flink CDC能带来非常广阔的应用场景。例如,Flink CDC可以代替传统的Data X和Canal工具作为实时数据同步,将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成,将数据库数据实时入湖入仓。还可以做实时物化视图,通过SQL对数据做实时的关联、打宽、聚合,并将物化结果写入到数据湖仓中。
小马哥学JAVA
2022/12/15
3.4K0
Flink CDC 新一代数据集成框架
Flink CDC 新一代数据集成框架
主要讲解了技术原理,入门与生产实践,主要功能:全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件,主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中,Apache Flink作为一款非常优秀的流处理引擎,其SQL API又提供了强大的流式计算能力,因此结合Flink CDC能带来非常广阔的应用场景。例如,Flink CDC可以代替传统的Data X和Canal工具作为实时数据同步,将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成,将数据库数据实时入湖入仓。还可以做实时物化视图,通过SQL对数据做实时的关联、打宽、聚合,并将物化结果写入到数据湖仓中。
小马哥学JAVA
2022/11/24
1.6K0
Dinky在Doris实时整库同步和模式演变的探索实践
摘要:本文总结了 Dinky 社区在 Doris Summit 2022 上分享的《Dinky 在Doris实时整库同步和模式演变的探索实践》,其分享主要分为四个章节,内容包括:
文末丶
2023/02/26
6.3K0
Dinky在Doris实时整库同步和模式演变的探索实践
从ETL走向EtLT架构,下一代数据集成平台Apache SeaTunnel核心设计思路解析
作者|高俊 编辑|邓艳琴 在今年 2 月份的 QCon 全球软件开发大会(北京站)上,Apache SeaTunnel PPMC Member 高俊 分享了题为《EtLT 架构下的数据集成平台—Apache SeaTunnel》,本文由此整理,复制链接下载完整 PPT:https://qcon.infoq.cn/202302/beijing/presentation/5173 此次分享的主要内容分为 6 块,分别是—— 1. ETL 到 EtLT 架构演进 2. 数据集成领域的痛点 & 常见的解决方
深度学习与Python
2023/03/29
2.7K0
从ETL走向EtLT架构,下一代数据集成平台Apache SeaTunnel核心设计思路解析
Flink Forward Asia 2021 实时数据湖合集
Building The Real-time Datalake at ByteDance (00:00:00-00:22:47)
从大数据到人工智能
2022/01/19
1K0
Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台
本文整理自 Dinky 实时计算平台 Maintainer 亓文凯老师在 Apache Doris & Apache SeaTunnel 联合 meetup 的实践分享,通过 Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台。
文末丶
2023/02/26
16.5K3
Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台
投入上百人、经历多次双11,Flink已经足够强大了吗?
采访嘉宾|王峰(莫问) 作者 | Tina 作为最活跃的大数据项目之一,Flink 进入 Apache 软件基金会顶级项目已经有八年了。 Apache Flink 是一款实时大数据分析引擎,同时支持流批执行模式,并与 Hadoop 生态可以无缝对接。2014 年,它被接纳为 Apache 孵化器项目,仅仅几个月后,它就成为了 Apache 的顶级项目。 对于 Flink 来说,阿里有非常适合的流式场景。作为 Flink 的主导力量,阿里从 2015 年开始调研 Flink,并于 2016 年第一次在搜
深度学习与Python
2023/03/29
6260
投入上百人、经历多次双11,Flink已经足够强大了吗?
技术纯享会:新的十年,实时数据架构技术意味着什么?
上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台、数据湖、数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助决策或者辅助营销的目的,像传统的 BI 报表、数据大屏、标签画像等等。
Tapdata
2022/09/02
8970
技术纯享会:新的十年,实时数据架构技术意味着什么?
Flink CDC MongoDB Connector 的实现原理和使用实践
摘要:本文整理自 XTransfer 资深 Java 开发工程师、Flink CDC Maintainer 孙家宝在 Flink CDC Meetup 的演讲。主要内容包括:
从大数据到人工智能
2022/09/09
3K0
Flink CDC MongoDB Connector 的实现原理和使用实践
Flink CDC + Hudi 海量数据入湖在顺丰的实践
摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括:
从大数据到人工智能
2022/06/27
1.4K0
Flink CDC + Hudi 海量数据入湖在顺丰的实践
Flink CDC 在大健云仓的实践
摘要:本文整理自大健云仓基础架构负责人、Flink CDC Maintainer 龚中强在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括:
从大数据到人工智能
2022/09/09
1.3K0
Flink CDC 在大健云仓的实践
Dinky 构建 Flink CDC 整库入仓入湖
摘要:本文介绍了如何使用 Dinky 实时计算平台构建 Flink CDC 整库入仓入湖。内容包括:
文末丶
2022/05/19
4.9K0
Dinky 构建 Flink CDC 整库入仓入湖
B站基于Hudi+Flink打造流式数据湖的落地实践
上图展示了当前B站实时数仓的一个简略架构,大致可以分为采集传输层、数据处理层,以及最终的AI和BI应用层。为保证稳定性,数据处理层是由以实时为主,以离线兜底的两条链路组成,即我们熟知的批流双链路。
ApacheHudi
2023/09/04
1.4K0
B站基于Hudi+Flink打造流式数据湖的落地实践
基于 Flink SQL CDC 的实时数据同步方案
Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。
Spark学习技巧
2020/11/09
4K0
基于 Flink SQL CDC 的实时数据同步方案
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路
Flink-Doris-Connector 作为 Apache Flink 与 Doris 之间的桥梁,打通了实时数据同步、维表关联与高效写入的关键链路。本文将深入解析 Flink-Doris-Connector 三大典型场景中的设计与实现,并结合 Flink CDC 详细介绍了整库同步的解决方案,助力构建更加高效、稳定的实时数据处理体系。
SelectDB技术团队
2025/08/07
2360
HBase高级特性与生态整合:揭秘Flink实时数仓中的CDC日志同步方案
随着数字化转型的全面深入,数据已成为驱动企业决策和业务创新的核心要素。据IDC最新报告显示,2025年全球实时数据处理市场规模预计突破千亿美元,年复合增长率高达24.7%。从金融实时风控到智能制造的质量监控,从电商个性化推荐到物联网设备协同,企业对低延迟数据处理的需求呈现爆发式增长。例如,某头部电商平台在2024年“双十一”期间,通过实时数仓实现毫秒级库存同步,成功将超卖率降至0.01%以下;而某国有银行基于实时反欺诈系统,每日拦截可疑交易逾百万笔,资金损失率同比下降63%。
用户6320865
2025/08/27
2330
HBase高级特性与生态整合:揭秘Flink实时数仓中的CDC日志同步方案
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。
Spark学习技巧
2024/03/27
6.4K0
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
推荐阅读
相关推荐
Flink CDC 1.0至3.0回忆录
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档