首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何控制Flink检查点的大小

如何控制Flink检查点的大小
EN

Stack Overflow用户
提问于 2022-11-03 08:04:32
回答 1查看 43关注 0票数 0

我正在运行一个简单的Flink聚合作业,它从Kafka消耗,并应用多个窗口(1小时、2小时hr...upto )和特定的滑动间隔,并在窗口上进行聚合。有时工作会重新启动,当它从最新的Kafka数据中启动窗口时,我们就会丢失数据。为了克服这一问题,我们启用了检查点,并且我看到检查点的大小正在增加( HashMapStateBackend具有Hdfs存储)。对于一个永久运行的Flink作业来说,什么是最好的检查方法?我们能控制检查点的大小吗?几天后它会很大吗?

尝试启用带有Hdfs存储的HashMapStateBackend检查指向。

EN

回答 1

Stack Overflow用户

发布于 2022-11-03 17:11:27

Flink窗口代码应在窗口过期后清除状态。请注意,这是基于您的工作流运行在事件时模式,并提供适当的水印。另外,如果您配置了“最大延迟时间”,则删除窗口状态时的实际壁时钟时间是基于水印时间戳和最大延迟时间的。

另外,对于每个滑动窗口x每个唯一键,都有窗口状态。因此,如果你有一个24小时持续时间为1分钟的滑动窗口,那么你就会有(1440 x#的唯一键)窗口,这可能会导致你状态的大小爆炸。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74299773

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档