如何使用结构化流检查点管理HDFS内存

、、

我有一个长期运行的结构化流媒体作业，它消耗了几个Kafka主题，并在滑动窗口上聚合。我需要了解如何在HDFS中管理/清理检查点。作业运行良好，我能够从失败的步骤中恢复，而不会丢失数据，但是，我可以看到HDFS利用率每天都在增加。我找不到任何关于Spark如何管理/清理检查点的文档。:///path_to_checkpoints") \

浏览 34提问于2019-01-07得票数 2

回答已采纳

1回答

结构化流的检查点周期是多久一次，它是否是可配置的？

、、、

我正在为我们的数据转发工作从Spark批处理切换到结构化流的过程中。我们使用由套接字连接组成的Kafka源和foreach接收器。通过批处理流，我试图通过将偏移量存储在每个ACK上的一个套接字上，从而实现精确的一次语义，但是由于我们的偏移量管理，它很容易每周发生几次生产吞吐量的中断。我理解，由于套接字不是幂等的，所以我们不能通过HDFS检查点保证一次精确的语义。我已经读过，对于结构化，偏移将是每个触发器的检查点，但在没有检查点

浏览 1提问于2018-02-16得票数 3

回答已采纳

1回答

火花流中的偏移管理

、、、、

据我所知，对于星火流应用程序(结构化流或其他类型)来说，手动管理偏移量时，spark提供了检查点的功能，您只需配置检查点位置(大多数情况下都是hdfs)，同时将数据写入接收器，sink本身将负责管理偏移量但是我看到了很多不喜欢检查点的用法，而是创建了一个偏移量管理框架来保存hbase或mongodb等中的偏移量。我只是想了解为什么不喜欢检查点，而是创建了一个自定义框架来管理偏移量？

浏览 4提问于2022-05-15得票数 0

回答已采纳

1回答

卡夫卡的火花偏移管理

、、

我使用的是Spark结构化流(版本2.3.2)。我需要阅读卡夫卡集群，并写入Kerberized。在这里，我想使用卡夫卡作为偏移检查点后，记录是写入Kerberized。问题：请帮帮忙。

浏览 7提问于2020-09-30得票数 0

回答已采纳

2回答

Spark Structured Kafka偏移管理

、、、

我正在研究在kafka中存储kafka偏移量用于Spark结构化流媒体，就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样，与我正在寻找的相同，但用于结构化流媒体。它是否支持结构化流媒体？如果是，我如何实现它？我知道使用.option("checkpointLocation", checkpointLocation)的hdfs检查点，但我对内置的

浏览 10提问于2019-05-16得票数 3

4回答

Kafka结构化流检查点

、、

我正在尝试从Kafka做结构化流媒体。我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录中获取最新的偏移量，并在该偏移量之后加载数据。我将检查点存储在一个目录中，如下所示。, '\files&#

浏览 3提问于2017-10-07得票数 4

1回答

如何在nfs文件系统中存储apache检查点

、

我正在使用Apache 1.10.0从RabbitMQ中提取数据流，现在在内存中使用默认的检查点配置。现在，当任务管理器重新启动时，我需要将状态和检查点存储在文件系统中，所有演示都应该使用“HDFS ://namenode:4000/.”，但是现在我没有HDFS集群，我的Apache Flink运行在kubernetes集群中，如何在文件系统中存储我的检查点</

浏览 5提问于2020-04-09得票数 0

回答已采纳

1回答

spark streaming checkpoint占用多少空间？

我是Spark Streaming的新手，对检查点中存储的checkpoint.Is流数据知之甚少？数据是存储在hdfs中还是存储在内存中?需要多少空间？

浏览 1提问于2021-01-13得票数 0

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。将已连接的DataFrame写入HBase表。我在shell中测试了代码，它运行良好，低于伪代码(我使用</e

浏览 7提问于2020-07-08得票数 3

1回答

星火2.4.0 --卡夫卡的结构化流容错

、、、

当我阅读卡夫卡的时候，我有一些关于星火结构流中的容错的问题。这来自结构化流编程指南： 1)如何重新启动失败的查询？能自动完成吗？您可以配置带有检查点位置的查询，该查询将将所有进度信息(即每个触发器中处理的偏移量的范围)和正在运行的聚合(例如快速示例中的单词计数)保存到检查点位置。此检查点位置必须是<em

浏览 0提问于2019-03-07得票数 1

1回答

火花结构化流-此查询不支持从检查点位置恢复。

、、

spark.readStream .option("host", "localhost") .load()This query does not support recovering from checkpoint loca

浏览 3提问于2021-01-25得票数 1

回答已采纳

5回答

Apache (结构化流)：S3检查点支持

、

根据星星之火结构化流文档：“此检查点位置必须是HDFS兼容的文件系统中的路径，并且可以在启动查询时设置为DataStreamWriter中的选项。”当然，将检查点设置为s3路径会抛出：17/01/31 21:23:56 INFO SparkCon

浏览 8提问于2017-02-02得票数 9

回答已采纳

1回答

我们是如何管理火花结构化流中的抵消的？(与_spark_metadata有关的问题)

、、

背景：，我编写了一个简单的火花结构化蒸汽应用程序，可以将数据从卡夫卡转移到S3。我想摆脱星火结构化流的元数据和检查点文件夹，并自己管理偏移。我们如何管理火花流中的偏移：，我已经使用val offsetRanges = rdd.asInstanceOfHasOffsetRanges.offsetRanges来获得Spark结构化流中的偏移量。但想知道如何获得偏移和其他元数据来

浏览 2提问于2020-06-17得票数 1

回答已采纳

3回答

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。如果要将Kafka源的偏移量存储到事务型DB中，如何从结构化流批处理中获取偏移量？这可以通过将RDD转换为HasOffsetRanges来完成 val offsetRanges = rdd.asInstanceOf[HasOff

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

、、、

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。在检查点操作延迟一定时间后也关闭文件。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Flink)。但是，我无法找到限制卡夫卡

浏览 0提问于2018-08-08得票数 1

回答已采纳

1回答

Spark 2.3.1结构化流状态存储内部工作

、

我一直在浏览spark 2.3.1关于结构化流的文档，但是无法找到有状态操作如何在内部与状态存储一起工作的详细信息。更具体地说，我想知道的是：(1)状态存储是否分布？我知道它是由HDFS支持的，但是没有解释内存存储实际上是如何工作的。实际上，它是内存中的分布式存储吗？我对去复制特别感兴趣，如果数据流来自于(比方说)一个大的数据集，那么这个需要被规划，因为所有“不同”的DataSet最终将作为该数据集处理的结束而保存在内存中。

浏览 0提问于2018-08-17得票数 10

1回答

由于新名称文件已存在，结构化流式kafka驱动程序重新启动失败，并出现HDFS文件重命名错误

、、

我们正在使用Spark 2.1中的结构化流式处理测试重新启动和故障转移。我们有一个精简的kafka结构化流驱动程序，它只执行事件计数。当我们第二次优雅地重新启动驱动程序时(例如，使用yarn应用程序-kill终止驱动程序，并使用相同的检查点目录重新提交驱动程序)，驱动程序会失败，这是因为中止的作业无法在HDFS中提交状态，并出现以下错误重命名为/user/spark/checkpoints/Structured

浏览 31提问于2017-02-04得票数 0

1回答

Azure Event Hubs Streaming:检查点是否会覆盖setStartingPosition？

、、、

EventPosition.fromStartOfStream) .setStartingPosition(EventPosition.fromEndOfStream)谢谢。

浏览 4提问于2021-02-19得票数 2

1回答

如何清理星火结构流中积累的检查点文件？

、、、

我为SparkContext添加了检查点，并为长期运行的火花结构化流作业编写了对kafka数据流的查询。但是，我注意到检查点文件是在HDFS和S3中积累的，没有自动清理。我看到这些文件不断地占用存储空间。是否有办法为这些检查点文件配置保留时间以使其自动删除？还是需要运行某个cron作业来手动删除它们？

浏览 2提问于2020-09-27得票数 1

回答已采纳

1回答

可以在没有HDFS的情况下使用Spark Structured吗？

我经常使用HDFS和Kafka，我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming，我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么，有没有可能在没有HDFS的情况下使用spark structured？奇怪的是，我们只能在Kafka中将HDFS用于流数据。或者，有没有可能告诉斯帕克忘记ChekpPointing并在程序中管理它？ S

浏览 39提问于2021-05-07得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

结构化流的检查点周期是多久一次，它是否是可配置的？

火花流中的偏移管理

卡夫卡的火花偏移管理

Spark Structured Kafka偏移管理

Kafka结构化流检查点

如何在nfs文件系统中存储apache检查点

spark streaming checkpoint占用多少空间？

火花结构化流检查点在生产中的使用

星火2.4.0 --卡夫卡的结构化流容错

火花结构化流-此查询不支持从检查点位置恢复。

Apache (结构化流)：S3检查点支持

我们是如何管理火花结构化流中的抵消的？(与_spark_metadata有关的问题)

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

Spark 2.3.1结构化流状态存储内部工作

由于新名称文件已存在，结构化流式kafka驱动程序重新启动失败，并出现HDFS文件重命名错误

Azure Event Hubs Streaming:检查点是否会覆盖setStartingPosition？

如何清理星火结构流中积累的检查点文件？

可以在没有HDFS的情况下使用Spark Structured吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐