首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通过sql-client.sh提交flink作业,有时不使用任何检查点(更改检查点的方法是什么),或者在出现故障时如何恢复

通过sql-client.sh提交flink作业,可以选择是否使用检查点来保证作业的容错性和故障恢复能力。如果不使用任何检查点,可以通过更改检查点的方法来启用检查点功能。

要更改检查点的方法,可以按照以下步骤操作:

  1. 打开Flink的配置文件flink-conf.yaml,该文件位于Flink安装目录的conf文件夹下。
  2. 在配置文件中找到以下配置项,并进行相应的修改:
  3. 在配置文件中找到以下配置项,并进行相应的修改:
  4. 修改完配置文件后,保存并关闭文件。
  5. 重新启动Flink集群和作业管理器,使配置生效。

在出现故障时,可以通过以下步骤来恢复作业:

  1. 检查作业管理器和任务管理器的状态,确保它们正常运行。
  2. 检查作业的日志,查找可能的错误信息和异常栈轨迹。
  3. 如果作业使用了检查点功能,可以通过检查点来进行故障恢复。首先找到最近的一个成功的检查点,然后将作业恢复到该检查点的状态。可以使用Flink的命令行工具或Web界面来管理和恢复检查点。
  4. 如果没有使用检查点或检查点无法恢复作业的状态,可以尝试重新提交作业或修复代码中的错误,并重新启动作业。

总结: 通过sql-client.sh提交flink作业时,可以选择是否使用检查点来保证作业的容错性和故障恢复能力。如果不使用检查点,可以通过更改检查点的配置来启用检查点功能。在出现故障时,可以通过检查点来进行故障恢复,或者重新提交作业或修复代码中的错误来恢复作业的运行。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Flink 使用Flink进行高吞吐,低延迟和Exactly-Once语义流处理

本文中,我们将深入探讨Flink新颖检查点机制是如何工作,以及它是如何取代旧架构以实现流容错和恢复。...我们将从以下几个维度讨论不同方法优缺点,最终选出融合不同方法优点适合流处理程序融合方法: Exactly-once语义保证:故障后有状态算子状态能正确恢复。 低延迟:延迟越低越好。...故障恢复意味着只需恢复最新检查点状态,并从最新记录 ‘barrier’ 对应偏移量重放数据源。分布式快照在我们本文开头所要达到所有需求中得分很高。...Flink实现了每个核每秒150万个元素连续吞吐量。这样集群总吞吐量达到每秒1.82亿个元素。测试得到Flink延迟为零,因为作业涉及网络,也涉及微批处理。...这是什么意思?Flink算子将记录发送到下一个算子之前会暂存储缓冲区中。通过指定缓冲区超时时间,例如10毫秒,我们可以告诉Flink缓冲区满了时或者到达10毫秒发送缓冲区数据。

5.8K31

Flink实战(八) - Streaming Connectors 编程

使用此反序列化模式,必须添加以下附加依赖项: 当遇到因任何原因无法反序列化损坏消息,有两个选项 - 从deserialize(…)方法中抛出异常将导致作业失败并重新启动,或者返回null以允许Flink...请注意,当作业故障中自动恢复使用保存点手动恢复,这些起始位置配置方法不会影响起始位置。恢复,每个Kafka分区起始位置由存储保存点或检查点偏移量确定。...启用此函数后,Flink检查点将在检查点成功之前等待检查点任何动态记录被Kafka确认。这可确保检查点之前所有记录都已写入Kafka。...注意事项 Semantic.EXACTLY_ONCE 模式依赖于在从所述检查点恢复之后提交获取检查点之前启动事务能力。...如果作业失败,Flink会将流式程序恢复到最新检查点状态,并从存储检查点偏移量开始重新使用来自Kafka记录。 因此,绘制检查点间隔定义了程序发生故障最多可以返回多少。

2K20
  • Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(二)

    Flink这样分布式系统中,我们不仅需要定义出状态在任务并行时处理方式,还需要考虑如何持久化保存、以便发生故障正确地恢复。这就需要一套完整管理机制来处理所有的状态。...如果出现故障,我们恢复到之前保存状态,故障正在处理所有数据都需要重新处理;所以我们只需要让源(source)任务向数据源重新提交偏移量、请求重放数据就可以了。...我们知道,对于Flink内部来说,检查点机制可以保证故障恢复后数据丢(能够重放前提下),并且只处理一次,所以已经可以做到exactly-once一致性语义了。...FlinkSource任务中将数据读取偏移量保存为状态,这样就可以故障恢复检查点中读取出来,对数据源重置偏移量,重新获取数据。...如果中间出现故障,事务进行回滚,预提交就会被放弃;恢复状态之后,也只能恢复所有已经确认提交操作。 2.

    1.6K30

    Flink实战(八) - Streaming Connectors 编程

    使用此反序列化模式,必须添加以下附加依赖项: 当遇到因任何原因无法反序列化损坏消息,有两个选项 - 从deserialize(...)方法中抛出异常将导致作业失败并重新启动,或者返回null以允许...请注意,当作业故障中自动恢复使用保存点手动恢复,这些起始位置配置方法不会影响起始位置。恢复,每个Kafka分区起始位置由存储保存点或检查点偏移量确定。...启用此函数后,Flink检查点将在检查点成功之前等待检查点任何动态记录被Kafka确认。这可确保检查点之前所有记录都已写入Kafka。...注意事项 Semantic.EXACTLY_ONCE 模式依赖于在从所述检查点恢复之后提交获取检查点之前启动事务能力。...如果作业失败,Flink会将流式程序恢复到最新检查点状态,并从存储检查点偏移量开始重新使用来自Kafka记录。 因此,绘制检查点间隔定义了程序发生故障最多可以返回多少。

    2.9K40

    Flink实战(八) - Streaming Connectors 编程

    使用此反序列化模式,必须添加以下附加依赖项: 当遇到因任何原因无法反序列化损坏消息,有两个选项 - 从deserialize(...)方法中抛出异常将导致作业失败并重新启动,或者返回null以允许...请注意,当作业故障中自动恢复使用保存点手动恢复,这些起始位置配置方法不会影响起始位置。恢复,每个Kafka分区起始位置由存储保存点或检查点偏移量确定。...启用此函数后,Flink检查点将在检查点成功之前等待检查点任何动态记录被Kafka确认。这可确保检查点之前所有记录都已写入Kafka。...注意事项 Semantic.EXACTLY_ONCE 模式依赖于在从所述检查点恢复之后提交获取检查点之前启动事务能力。...如果作业失败,Flink会将流式程序恢复到最新检查点状态,并从存储检查点偏移量开始重新使用来自Kafka记录。 因此,绘制检查点间隔定义了程序发生故障最多可以返回多少。

    2K20

    Flink大状态与Checkpint调优

    最后一部分解释了一些关于规划要使用多少资源最佳实践。 监控检查点行为最简单方法通过 UI 检查点部分。 检查点监控文档显示了如何访问可用检查点指标。...Flink 作业应该使用多少资源才能可靠运行。...方法 任务本地状态恢复正是针对这个恢复时间长问题,其主要思想是:对于每个检查点,每个任务不仅将任务状态写入分布式存储,而且一个备份中保存一份状态快照副本。...如果在从副本恢复过程中出现任何问题,Flink 会透明地重试从主副本恢复任务。仅当主副本和(可选)辅助副本失败恢复才会失败。在这种情况下,根据配置,Flink 仍可能回退到旧检查点。...任务本地副本可能仅包含完整任务状态一部分(例如,写入一个本地文件出现异常)。 在这种情况下,Flink 会首先尝试本地恢复本地部分,非本地状态从主副本恢复

    1.3K32

    Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交

    Flink 提供了 StateDesciptor 方法专门用来访问不同 state,类图如下: 下面演示一下如何使用 StateDesciptor 和 ValueState,代码如下: public...当发生了故障后,Flink会将所有任务状态恢复至最后一次Checkpoint中状态,并从那里重新开始执行。 那么Checkpoints生成策略是什么呢?它会在什么时候进行快照生成呢?...由于出现问题,为了防止从头开始重复计算,此时会通过Checkpoints来进行快照恢复。...从检查点恢复后,它内部状态会和生成检查点时候完全一致,并且会紧接着重新处理那些从之前检查点完成开始,到发生系统故障之间已经处理过数据。...为了解决这个问题,对于某些存储系统,Flink提供Sink函数支持精确一次输出(检查点完成后才会把写出记录正式提交)。另一种方法则是适用于大多数存储系统幂等更新。

    2K10

    【极数系列】Flink是什么?(02)

    提交或控制应用程序所有通信都是通过REST调用进行。这简化了Flink许多环境中集成。 3.以任何规模运行应用程序 Flink旨在以任何规模运行有状态流应用程序。...因此,任务通过访问本地(通常在内存中)状态来执行所有计算,从而产生非常低处理延迟。Flink通过定期异步地将本地状态检查点指向持久存储,在出现故障保证了一次状态一致性。 三....反观事件驱动型应用,由于只需考虑自身数据,因此更改数据表示或服务扩容所需协调工作将大大减少。 (3)如何支持 a....检查点一致性: Flink故障恢复机制是通过建立分布式应用服务状态一致性检查点实现,当有故障产生,应用服务会重启后,再重新加载上一次成功备份状态检查点信息。...方便集群服务移植: 通过使用 Savepoint,流服务应用可以自由不同集群中迁移部署。 方便Flink版本升级: 通过使用 Savepoint,可以使应用服务升级Flink,更加安全便捷。

    12810

    全网最全系列 | Flink原理+知识点总结(4万字、41知识点,66张图)

    它与常规列表状态区别在于,发生故障或者 从保存点(savepoint)启动应用程序时如何恢复。一种是均匀分配,另外一种是将所有 State 合并为全量 State 再分发给每个实例。...14、Flink 状态如何持久化? 首选,Flink状态最终都要持久化到第三方存储中,确保集群故障或者作业挂掉后能够恢复。...状态后端必须是高可用,否则我们状态后端经常出现故障,会导致无法通过checkpoint来恢复我们应用程序)。...1000 21、当作业失败后,检查点如何恢复作业?...JobManager JM负责决定应用何时调度task,task执行结束或失败如何处理,协调检查点故障恢复

    4.1K33

    Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交

    Flink 提供了 StateDesciptor 方法专门用来访问不同 state,类图如下: 下面演示一下如何使用 StateDesciptor 和 ValueState,代码如下: public...当发生了故障后,Flink会将所有任务状态恢复至最后一次Checkpoint中状态,并从那里重新开始执行。 那么Checkpoints生成策略是什么呢?它会在什么时候进行快照生成呢?...由于出现问题,为了防止从头开始重复计算,此时会通过Checkpoints来进行快照恢复。...从检查点恢复后,它内部状态会和生成检查点时候完全一致,并且会紧接着重新处理那些从之前检查点完成开始,到发生系统故障之间已经处理过数据。...为了解决这个问题,对于某些存储系统,Flink提供Sink函数支持精确一次输出(检查点完成后才会把写出记录正式提交)。另一种方法则是适用于大多数存储系统幂等更新。

    82030

    Flink如何实现端到端Exactly-Once处理语义

    检查点数据写入持久存储是异步发生,这意味着 Flink 应用程序检查点过程中可以继续处理数据。 如果发生机器或软件故障重新启动后,Flink 应用程序从最近成功完成检查点恢复。...处理开始之前,Flink检查点恢复应用程序状态并回滚到输入流中正确位置。这意味着 Flink 计算结果就好像从未发生过故障一样。...提交捆绑了两个检查点之间所有写入数据。这可确保发生故障能回滚所有写入数据。...当一个进程只有内部状态,除了写入到已定义状态变量之外,不需要在预提交阶段执行任何其他操作。Flink 负责检查点成功情况下正确提交这些写入,或者出现故障时中止这些写入。 ?...我们知道,如果发生故障Flink 会将应用程序状态恢复到最新成功检查点。有一种极端情况,成功预提交之后但在提交通知到算子之前发生故障

    3.2K10

    超越Storm,SparkStreaming——Flink如何实现有状态计算

    当 map 算子处理完前 3 条记录 并收到检查点屏障,它们会将状态以异步方式写入稳定存储. 当没有出现故障Flink 检查点开销极小,检查点操作速度由稳定存储可用带宽决定。...Flink 将输入流倒回到上一个检查点屏障位置,同时恢复 map 算子状态值。然后,Flink 从此处开始重新处理。这样做保证了在记录被处理之后,map 算子状 态值与没有发生故障一致....保存点 状态版本控制 检查点Flink 自动生成,用来故障发生重新处理记录,从而修正状 态。...保存点与检查点工作方式完全相同,只不过它由用户通过 Flink 命令行工 具或者 Web 控制台手动触发,而不由 Flink 自动触发,用户可以从保存点重启作业,而不用从头开始。...(1) 第一种方法 sink 环节缓冲所有输出,并在 sink 收到检查点记录, 将输出“原子提交”到存储系统。这种方法保证输出存储系统中只存在 有一致性保障结果,并且不会出现重复数据。

    75220

    超越Storm,SparkStreaming——Flink如何实现有状态计算

    当 map 算子处理完前 3 条记录 并收到检查点屏障,它们会将状态以异步方式写入稳定存储. ? 当没有出现故障Flink 检查点开销极小,检查点操作速度由稳定存储可用带宽决定。...Flink 将输入流倒回到上一个检查点屏障位置,同时恢复 map 算子状态值。 然后,Flink 从此处开始重新处理。这样做保证了在记录被处理之后,map 算子状 态值与没有发生故障一致....保存点 状态版本控制 检查点Flink 自动生成,用来故障发生重新处理记录,从而修正状 态。...保存点与检查点工作方式完全相同,只不过它由用户通过 Flink 命令行工 具或者 Web 控制台手动触发,而不由 Flink 自动触发,用户可以从保存点重启作业,而不用从头开始。...(1) 第一种方法 sink 环节缓冲所有输出,并在 sink 收到检查点记录, 将输出“原子提交”到存储系统。这种方法保证输出存储系统中只存在 有一致性保障结果,并且不会出现重复数据。

    86130

    Flink Kafka Connector

    作业故障中自动恢复使用保存点手动恢复,这些起始位置配置方法不会影响起始位置。恢复,每个 Kafka 分区起始位置由存储保存点或检查点偏移量确定。...如果作业失败,Flink 会从最新检查点状态恢复流处理程序,并从保存在检查点偏移量重新开始消费来自 Kafka 记录。 因此,检查点间隔定义了程序发生故障最多可以回退多少。...当使用 Flink 1.3.x 之前版本,消费者从保存点恢复,无法恢复运行启用分区发现。如果要启用,恢复将失败并抛出异常。...有不同方式配置偏移量提交,具体取决于作业是否启用了检查点: 禁用检查点:如果禁用了检查点,那么 Flink Kafka Consumer 依赖于 Kafka 客户端定期自动提交偏移量功能。...启用检查点:如果启用检查点,那么 Flink Kafka Consumer 会在检查点完成提交偏移量存储检查点状态中。

    4.7K30

    Flink实战(10)-checkpoint容错保证

    0 前言程序 Flink 集群运行,某个算子因为某些原因出现故障如何处理故障恢复后,如何保证数据状态,和故障发生之前数据状态一致?1 什么是 checkpoint(检查点)?...第2步当 Sink 算子已经收到所有上游 Checkpoint Barrie ,进行以下 2 步操作:保存自己数据状态并直接通知检查点协调器检查点协调器收集所有的 task 通知后,就认为这次...DeliveryGuarantee.EXACTLY_ONCE: 该模式下,Kafka sink 会将所有数据通过 checkpoint 提交事务写入。...因此,如果 consumer 只读取已提交数据(参见 Kafka consumer 配置 isolation.level), Flink 发生重启不会发生数据重复。...9 Data Source 和 Sink 容错保证当程序出现错误时候,Flink 容错机制能恢复并继续运行程序。这种错误包括机器硬件故障、网络故障、瞬态程序故障等。

    12300

    4个步骤让Flink应用程序达到生产状态

    这是分发最小原子单元,因此也会影响 Flink 应用程序可伸缩性。作业每个算子 key group 个数只能设置一次,可以手动配置或者直接使用默认配置。...可以通过 setMaxParallelism(int maxParallelism) 手动地为每个作业或算子设置最大并发度。 上线任何作业都应该指定最大并发度。但是,一定要仔细考虑这个值大小。...因为一旦设置了最大并发度,就无法以后更新。一个作业想要改变最大并发度,就只能从全新状态重新开始。目前还无法更改最大并发度后,从上一个成功检查点或保存点恢复。...Flink文档提供了有关使用检查点如何配置使用大状态应用程序其他信息和指导。 2....配置 Job Manager 高可用性(HA) 高可用性(HA)配置确保了 Flink 应用程序 JobManager 组件在出现潜在故障可以自动恢复,从而将停机时间降至最低。

    1.7K20

    Flink可靠性基石-checkpoint机制详细解析

    Checkpoint介绍 checkpoint机制是Flink可靠性基石,可以保证Flink集群某个算子因为某些原因(如 异常退出)出现故障,能够将整个应用流图状态恢复故障之前某一状态,保...4) 当由于某些原因出现故障,CheckpointCoordinator通知流图上所有算子统一恢复到某个周期checkpoint状态,然后恢复数据流处理。...分布式情况下,推荐使用本地文件。如果某 个算子节点A上失败,节点B上恢复使用本地文件B上无法读取节点 A上数据,导致状态恢复失败。...(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION) 默认情况下,检查点不被保留,仅用于故障恢复作业,可以启用外部持久化检查点,同时指定保留策略...集群可以通过默认重启策略来重启,这个默认重启策略通常在未指定重启策略情况下使用,而如果Job提交时候指定了重启策略,这个重启策略就会覆盖掉集群默认重启策略。

    4.8K00

    Flink 内核原理与实现-入门

    2、应用级容错 Flink使用轻量级分布式快照机制,设计了检查点(CheckPoint)来实现可靠容错。 一致性 Flink恢复机基于应用程序状态一致性检查点。...Flink利用检查点特性,框架层面提供了Exactly-Once支持,内置了支持Exactly-Once语义Sink,即使出现故障,也能保证数据只写出一次。...内存管理、数据序列化:通过序列化,使用二进制方式在内存中存储数据,避免JVM垃圾回收带来停顿问题。 数据交换:数据计算任务之间本地、跨网络传递。...Flink客户端:是Flink提供CLI命令行工具,用来提交Flink作业Flink集群,客户端中负责Stream Graph(流图)和Job Graph(作业图)构建。...接下来Flink应用篇,如果对Flink感兴趣或者正在使用小伙伴,可以加我入群一起探讨学习。 参考书籍《Flink 内核原理与实现》

    56210

    Flink CDC 原理及生产实践

    Flink将定期执行checkpoints以记录binlog位置。如果发生故障作业将重新启动并从checkpoint完成binlog位置恢复。因此,它保证了仅一次语义。...2、向MySQL用户授予RELOAD权限 如果未授予MySQL用户RELOAD权限,则MySQL CDC源将改为使用表级锁,并使用方法执行快照。这会阻止写入更长时间。...5、扫描数据库表期间无法执行检查点 扫描表期间,由于没有可恢复位置,因此我们无法执行checkpoints。为了执行检查点,MySQL CDC源将保持检查点等待超时。...超时检查点将被识别为失败检查点,默认情况下,这将触发Flink作业故障转移。...可以通过选项进行控制debezium.snapshot.mode,您可以将其设置为: never:指定连接永远不要使用快照,并且第一次使用逻辑服务器名称启动,连接器应该从binlog开头读取;请谨慎使用

    3.4K20

    Flink DataStream—— 状态(State)&检查点(Checkpoint)&保存点(Savepoint)原理

    需要保证数据丢不重,恰好计算一次,尤其是当状态数据非常大或者应用出现故障需要恢复,要保证状态不出任何错误。 一般流处理任务都是7*24小运行,程序可靠性非常高。...假如我们使用一个持久化备份系统,不断将内存中状态备份起来,当流处理作业出现故障,需要考虑如何从备份中恢复。而且,大数据应用一般是横向分布多个节点上,流处理框架需要保证横向伸缩扩展性。...Raw State只支持字节,任何上层数据结构需要序列化为字节数组。使用时,需要用户自己序列化,以非常底层字节数组形式存储,Flink并不知道存储是什么数据结构。...检查点 ​ 在上面介绍了Flink算子都是基于本地,而Flink又是一个部署多节点分布式系统,分布式系统经常出现进程被杀、节点宕机或网络中断等问题,那么本地状态遇到故障如何保证丢呢?...因此,这种方式能够享受本地内存快速读写访问,也能保证大容量状态作业故障恢复能力。 RocksDBStateBackend 这种方式下,本地状态存储本地RocksDB上。

    3.7K41
    领券