开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Flink CDC启动能同步全量数据，后续新插入数据不能增量同步，请问是什么问题？

Flink CDC 启动能同步全量数据，后续新插入数据不能增量同步，可能是由于在 Flink 和 CDC 两个组件之间的数据同步过程中出现了不一致或延迟等问题。

这个问题可能是由于以下几个原因造成的：

数据库中没有全量数据的触发器或事件监听器，导致全量数据不能被及时捕获和同步。
Flink 与 CDC 之间的网络连接不稳定，导致数据同步过程中出现了延迟或丢包等现象，影响了增量数据的同步。
CDC 的配置中存在错误，导致增量数据的同步方式设置不正确或其他问题。

针对以上问题，可以采取以下措施进行排查和解决：

在数据库中创建触发器或事件监听器，以便及时捕获全量数据并将其同步到 Flink 组件中。
排查 Flink 与 CDC 之间的网络连接情况，保证连接稳定可靠，可以尝试使用 ping 等工具进行网络连通性的测试。
检查 CDC 的配置文件，确认增量数据的同步方式是否设置正确，同时可以尝试调整同步频率等参数，优化同步性能。

解决完以上问题后，Flink CDC 应该可以正常同步全量数据和增量数据。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Flink CDC 新一代数据集成框架

主要讲解了技术原理，入门与生产实践，主要功能：全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件，主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中，Apache Flink作为一款非常优秀的流处理引擎，其SQL API又提供了强大的流式计算能力，因此结合Flink CDC能带来非常广阔的应用场景。例如，Flink CDC可以代替传统的Data X和Canal工具作为实时数据同步，将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成，将数据库数据实时入湖入仓。还可以做实时物化视图，通过SQL对数据做实时的关联、打宽、聚合，并将物化结果写入到数据湖仓中。

03

基于流计算 Oceanus（Flink） CDC 做好数据集成场景

作者：黄龙，腾讯 CSIG 高级工程师数据时代，企业对技术创新和服务水准的要求不断提高，数据已成为企业极其重要的资产。无论是在在企业数据中台的建设，亦或者是打造一站式数据开发和数据治理的PASS平台。首先需要做的就是进行跨应用的数据融合计算，需要将数据从孤立的数据源中采集出来，汇集到可被计算平台高效访问的目的地。此过程称之为ETL。通常所说的同步大致分为离线全量ETL、离线增量+离线全量的ETL、实时增量+离线全量ETL、实时增量ETL4种方式。数据同步成为企业数据开发和使用一个绕不过去的技术需求。业内也

01

Flink社区 | Flink CDC 2.0 正式发布，核心改进详解

摘要：本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。

03

基于流计算 Oceanus Flink CDC 做好数据集成场景

数据时代，企业对技术创新和服务水准的要求不断提高，数据已成为企业极其重要的资产。无论是在在企业数据中台的建设，亦或者是打造一站式数据开发和数据治理的PASS平台。首先需要做的就是进行跨应用的数据融合计算，需要将数据从孤立的数据源中采集出来，汇集到可被计算平台高效访问的目的地。此过程称之为ETL。通常所说的同步大致分为离线全量ETL、离线增量+离线全量的ETL、实时增量+离线全量ETL、实时增量ETL4种方式。数据同步成为企业数据开发和使用一个绕不过去的技术需求。业内也存在大量的开源的解决方案。在数据集成技术选型中，我们需要考虑的因素有哪些？主流开源方案中各自的优缺点有哪些？目前备受瞩目和推崇 Flink CDC ETL 是否能作为线上主力同步工具之一，它的优势有哪些？原理是什么？本文主要围绕以上几个疑问，进行论述。

07

大数据技术栈之-数据采集

数仓的基础是数据，没有数据，那么数仓就是一个空壳，数据的来源有很多，我们需要按照一个规则和流程来制定采集方案，还要根据数据的特性和用途选取合适的采集程序，数据的采集我们一般分为全量和增量，对于一些业务场景，也需要二者配合使用。

02

FlinkCDC发展历程和简历中项目描述的思路

前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。

01

FlinkCDC发展历程和简历中项目描述的思路

前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。

01

基于 Flink SQL CDC 的实时数据同步方案

Flink 1.11 引入了 Flink SQL CDC，CDC 能给我们数据和业务间能带来什么变化？本文由 Apache Flink PMC，阿里巴巴技术专家伍翀 (云邪）分享，内容将从传统的数据同步方案，基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。

02

Flink CDC 新一代数据集成框架

主要讲解了技术原理，入门与生产实践，主要功能：全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件，主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中，Apache Flink作为一款非常优秀的流处理引擎，其SQL API又提供了强大的流式计算能力，因此结合Flink CDC能带来非常广阔的应用场景。例如，Flink CDC可以代替传统的Data X和Canal工具作为实时数据同步，将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成，将数据库数据实时入湖入仓。还可以做实时物化视图，通过SQL对数据做实时的关联、打宽、聚合，并将物化结果写入到数据湖仓中。

08

Flink CDC 在大健云仓的实践

摘要：本文整理自大健云仓基础架构负责人、Flink CDC Maintainer 龚中强在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括：

05

Flink CDC 2.4 正式发布，新增 Vitess 数据源，更多连接器支持增量快照，升级 Debezium 版本

Flink CDC [1] 是基于数据库的日志 CDC 技术，实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态，Flink CDC 可以高效实现海量数据的实时集成。

03

Flink Table Store 典型应用场景

‍‍摘要：本文整理自 Apache Flink PMC 李劲松（之信）在 9 月 24 日 Apache Flink Meetup 的分享。主要内容包括：

02

Dinky在Doris实时整库同步和模式演变的探索实践

摘要：本文总结了 Dinky 社区在 Doris Summit 2022 上分享的《Dinky 在Doris实时整库同步和模式演变的探索实践》，其分享主要分为四个章节，内容包括：

04

Flink CDC + Hudi 海量数据入湖在顺丰的实践

摘要：本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括：

02

Apache Flink CDC简介与使用

Flink在1.11版本中新增了CDC的特性，简称改变数据捕获。名称来看有点乱，我们先从之前的数据架构来看CDC的内容。

02

Flink在中原银行的实践

在构建实时场景的过程中，如何快速、正确的实时同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Apache Flink和数据湖两种技术，来解决业务数据实时入湖的相关问题。两者的结合能良好的支持实时数据落地存储，借助Apache Flink出色的流批一体能力，可以为用户构建一个准实时数仓，满足用户准实时业务探索。

04

腾讯云 Oceanus 在 MySQL CDC Connector 的核心优化

Apache Flink 作为流计算引擎，需要持续从上游接收数据流，并向下游输出最新的计算结果。Connector 起到承上启下的作用：Source 负责与上游的 MQ、数据库等源表对接，Sink 则写入各类数据库、数仓、数据湖等目的表。因此，Connector 是 Flink 连接外部生态的桥梁，也是影响作业吞吐量的重要因素之一。

04

腾讯云大数据流计算 Oceanus 在 MySQL CDC Connector 的核心优化

引言：Apache Flink 作为流计算引擎，需要持续从上游接收数据流，并向下游输出最新的计算结果。Connector 起到承上启下的作用：Source 负责与上游的 MQ、数据库等源表对接，Sink 则写入各类数据库、数仓、数据湖等目的表。因此，Connector 是 Flink 连接外部生态的桥梁，也是影响作业吞吐量的重要因素之一。 Flink CDC Connectors 作为 Flink 生态的当红明星，切切实实的抓住了实时数据同步（ETL）的痛点，因此广受欢迎。自从 2.0 新版发布以来，它通过

04

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制（CDC）是目前行内实时数据需求大量使用的技术，随着国产化的需求，我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发，逐步实现对商业产品的替代。本文把市面上常见的几种开源产品，Canal、Debezium、Flink CDC 从原理和适用做了对比，供大家参考。

08

MongoDB Change Stream之三——应用场景及实践

change streams从本质上来说是提供了一种基于mongoDB的CDC（Change Data Capture）的解决方案。所谓的CDC就是变化数据捕获，简单理解为监听数据库系统的变更就好。下面的图中描述了CDC的典型场景，左边的是主数据库，不同的客户端可以向其中插入数据（有前后关系）；中间是一个队列，这些数据变化都会被放到里面；右边是派生数据系统，消费队列里的变化，然后用作搜索和数据仓库等应用。市场上也不乏这种专门做CDC的产品，比如：HEVO，其宣称的优势包括：1）简单易上手，无需代码；2）良好的交互式用户界面；3）支持多种数据源；4）可容错的安全架构等。

03

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制（CDC）是目前行内实时数据需求大量使用的技术，随着国产化的需求，我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发，逐步实现对商业产品的替代。本文把市面上常见的几种开源产品，Canal、Debezium、Flink CDC 从原理和适用做了对比，供大家参考。

05

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

01

CDC实时数据同步工具选型比较

CDC实时数据同步指的是Change Data Capture（数据变更捕获）技术在数据同步过程中的应用。CDC技术允许在数据源发生变化时，实时地捕获这些变化，并将其应用到目标系统中，从而保持数据的同步性。CDC实时数据同步具有以下优点：

02

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

03

基于TIS构建Apache Hudi千表入湖方案

随着大数据时代的到来，数据量动辄PB级，因此亟需一种低成本、高稳定性的实时数仓解决方案来支持海量数据的OLAP查询需求，Apache Hudi[1]应运而生。Hudi借助与存放在廉价的分布式文件系统之中列式存储文件，并将其元数据信息存放在Hive元数据库中与传统查询引擎Hive、Presto、Spark等整合，完美地实现了计算与存储的分离。Hudi数据湖方案比传统的Hive数仓的优势是加入了数据实时同步功能，可以通过最新的Flink流计算引擎来以最小的成实现数据实时同步。本质来说Hudi是整合现有的技术方案实现的，属于新瓶装旧酒，Hudi内部需要整合各种组件（存储、Indexer、Compaction，文件分区），为了达到通用及灵活性，每个组件会有大量的配置参数需要设置，且各种组件的配置是有关联性的，所以对与新手来说要构建一个生产环境中可用的数据库方案，面对一大堆配置往往会望而却步。本文就向大家介绍如何通过TIS来改善Hudi数据湖实例构建流程，从而大幅提高工作效率。

01

聊聊流式数据湖Paimon(二)

Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖；CDC 数据来自数据库。一般来说，分析需求是不会直接查询数据库的。

01

hudi表流式regular inner join关联写入宽表实践

这种情况下会等待product流到来并关联再往下游输出，此时再往product表写数据

03

Flink CDC MongoDB Connector 的实现原理和使用实践

摘要：本文整理自 XTransfer 资深 Java 开发工程师、Flink CDC Maintainer 孙家宝在 Flink CDC Meetup 的演讲。主要内容包括：

02

数据湖在快手的生产实践

快手的传统离线链路和很多公司是一致的，基于 Hive做离线分层数仓的建设。在入仓环节和层与层之间是基于 Spark 或者 Hive做清洗加工和计算。这个链路有以下四个痛点：

04

打造 Flink + StarRocks+ Dinky 的极速统一分析平台

摘要：本文介绍了打造 Flink + StarRocks + Dinky 的极速统一分析平台经验分享。内容包括：

03

得物自建 DTS 平台的技术演进 | 精选

随着得物 App 的用户流量增长，业务选择的数据库越来越多样化，异构数据源之间的数据同步需求也逐渐增多。为了控制成本并更好地支持业务发展，我们决定自建 DTS 平台。本文主要从技术选型、能力支持与演化的角度出发，分享了在 DTS 平台升级过程中获得的经验，并提供一些参考。

02

基于Flink CDC打通数据实时入湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术，来解决业务数据实时入湖相关的问题。

02

基于Apache Hudi的多库多表实时入湖最佳实践

CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析MySQL数据库的Binlog日志捕获变更数据，而不是通过SQL Query源表捕获变更数据。Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID和并发写支持。Hudi不是一个Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在S3(也支持其它对象存储和HDFS)，Hudi来决定数据以什么格式存储在S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID等特性。Hudi通过Spark，Flink计算引擎提供数据写入, 计算能力，同时也提供与OLAP引擎集成的能力，使OLAP引擎能够查询Hudi表。从使用上看Hudi就是一个JAR包，启动Spark, Flink作业的时候带上这个JAR包即可。Amazon EMR 上的Spark，Flink，Presto ，Trino原生集成Hudi, 且EMR的Runtime在Spark，Presto引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb等)中的数据通过CDC的方式以分钟级别(1minute+)延迟写入Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表CDC数据并行写入Hudi，降低开发维护成本。第二，源端Schema变更如何同步到Hudi表。第三，使用Hudi增量查询构建数仓层次比如ODS->DWD->DWS(各层均是Hudi表)，DWS层的增量聚合如何实现。本篇文章推荐的方案是: 使用Flink CDC DataStream API(非SQL)先将CDC数据写入Kafka，而不是直接通过Flink SQL写入到Hudi表，主要原因如下，第一，在多库表且Schema不同的场景下，使用SQL的方式会在源端建立多个CDC同步线程，对源端造成压力，影响同步性能。第二，没有MSK做CDC数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC数据写入到MSK后，推荐使用Spark Structured Streaming DataFrame API或者Flink StatementSet 封装多库表的写入逻辑，但如果需要源端Schema变更自动同步到Hudi表，使用Spark Structured Streaming DataFrame API实现更为简单，使用Flink则需要基于HoodieFlinkStreamer做额外的开发。Hudi增量ETL在DWS层需要数据聚合的场景的下，可以通过Flink Streaming Read将Hudi作为一个无界流，通过Flink计算引擎完成数据实时聚合计算写入到Hudi表。

01

《一文读懂腾讯云Flink CDC 原理、实践和优化》

CDC 变更数据捕获技术可以将源数据库的增量变动记录，同步到一个或多个数据目的。本文基于腾讯云 Oceanus 提供的 Flink CDC 引擎，着重介绍 Flink 在变更数据捕获技术中的应用。一、CDC 是什么？ CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。例如对于电商平台，用户的订单

03

Flink CDC 原理、实践和优化

CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。

ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案

8月27日，ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办，会上重磅发布了「OceanBase&ChunJun：构建一体化数据集成方案」。

02

Flink CDC + OceanBase 全增量一体化数据集成方案

摘要：本文整理自 OceanBase 技术专家王赫（川粉）在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括：

02

ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案

8 月 27 日，ChunJun 社区与 OceanBase 社区联合组织的开源线下 Meetup 成功举办，会上重磅发布了「OceanBase&ChunJun：构建一体化数据集成方案」。

04

Flink CDC 原理、实践和优化

CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。

05

聊聊Flink CDC必知必会

核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

03

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。

01

Apache Hudi在Linkflow构建实时数据湖的生产实践

Linkflow 作为客户数据平台（CDP），为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点（SDK）和三方数据源，如微信，微博等，收集大量的数据。这些数据都会经过清洗，计算，整合后写入存储。使用者可以通过灵活的报表或标签对持久化的数据进行分析和计算，结果又会作为MA (Marketing Automation) 系统的数据源，从而实现对特定人群的精准营销。

03

Dinky 构建 Flink CDC 整库入仓入湖

摘要：本文介绍了如何使用 Dinky 实时计算平台构建 Flink CDC 整库入仓入湖。内容包括：

02

一键实现 Oracle 数据整库同步至 Apache Doris

在实时数据仓库建设或迁移的过程中，用户必须考虑如何高效便捷将关系数据库数据同步到实时数仓中来，Apache Doris 用户也面临这样的挑战。而对于从 Oracle 到 Doris 的数据同步，通常会用到以下两种常见的同步方式：

02

跨境支付平台 XTransfer 的实时数仓之路：深度参与开源才能不被淘汰

近两年新冠肺炎疫情对各行各业造成重大冲击，但对于跨境电商行业来说则是机大于危，跨境支付赛道也因此备受关注。其中，受疫情影响，大量 B2B 外贸交易转到线上，相比起 B2C，B2B 跨境交易支付场景更为复杂，因为其业务场景也往往更为复杂、周期长、贸易参与角色众多。

01

如何使用 Doris 分析 Mysql 数据库数据？

近期很多用户采用了离线大数据解决方案产品，这里为大家推荐Doris数据仓托管解决方案；

07

常见的10种 CDC 组件和方案

总结一下，本文介绍了10种常见的 CDC 组件和方案，个人觉得还不错，如果还有其他好用的 CDC 组件，欢迎在评论区分享分享。

02

数据实时化技术创新进展 | 一文览尽 Flink Forward Asia 2022 重磅干货内容

2022 年 11 月 26-27 日，Flink Forward Asia（FFA）峰会成功举行。Flink Forward Asia 是由 Apache 软件基金会官方授权、由阿里云承办的技术峰会，是目前国内最大的 Apache 顶级项目会议之一，也是 Flink 开发者和使用者的年度盛会。由于疫情原因，本届峰会仍采用线上形式。此外，本次峰会上还举行了第四届天池实时计算 Flink 挑战赛的颁奖仪式，4346 支参赛队伍中共有 11 支队伍经过层层角逐脱颖而出，最终收获了奖项。 FFA 大会照例总结了

02

干货 | 实时数据聚合怎么破

实时数据分析一直是个热门话题，需要实时数据分析的场景也越来越多，如金融支付中的风控，基础运维中的监控告警，实时大盘之外，AI模型也需要消费更为实时的聚合结果来达到很好的预测效果。

02

Flink CDC

CDC是Change Data Capture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭