腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
结构化
流
检查点
管理
HDFS
内存
、
、
我有一个长期运行的
结构化
流媒体作业,它消耗了几个Kafka主题,并在滑动窗口上聚合。我需要了解
如何
在
HDFS
中
管理
/清理
检查点
。作业运行良好,我能够从失败的步骤中恢复,而不会丢失数据,但是,我可以看到
HDFS
利用率每天都在增加。我找不到任何关于Spark
如何
管理
/清理
检查点
的文档。:///path_to_checkpoints") \
浏览 34
提问于2019-01-07
得票数 2
回答已采纳
1
回答
结构化
流
的
检查点
周期是多久一次,它是否是可配置的?
、
、
、
我正在为我们的数据转发工作从Spark批处理切换到
结构化
流
的过程中。我们
使用
由套接字连接组成的Kafka源和foreach接收器。通过批处理
流
,我试图通过将偏移量存储在每个ACK上的一个套接字上,从而实现精确的一次语义,但是由于我们的偏移量
管理
,它很容易每周发生几次生产吞吐量的中断。我理解,由于套接字不是幂等的,所以我们不能通过
HDFS
检查点
保证一次精确的语义。我已经读过,对于
结构化
,偏移将是每个触发器的
检查点
,但在没有
检查点
浏览 1
提问于2018-02-16
得票数 3
回答已采纳
1
回答
火花
流
中的偏移
管理
、
、
、
、
据我所知,对于星火
流
应用程序(
结构化
流
或其他类型)来说,手动
管理
偏移量时,spark提供了
检查点
的功能,您只需配置
检查点
位置(大多数情况下都是
hdfs
),同时将数据写入接收器,sink本身将负责
管理
偏移量但是我看到了很多不喜欢
检查点
的用法,而是创建了一个偏移量
管理
框架来保存hbase或mongodb等中的偏移量。我只是想了解为什么不喜欢
检查点
,而是创建了一个自定义框架来
管理
偏移量?
浏览 4
提问于2022-05-15
得票数 0
回答已采纳
1
回答
卡夫卡的火花偏移
管理
、
、
我
使用
的是Spark
结构化
流
(版本2.3.2)。我需要阅读卡夫卡集群,并写入Kerberized。在这里,我想
使用
卡夫卡作为偏移
检查点
后,记录是写入Kerberized。问题: 请帮帮忙。
浏览 7
提问于2020-09-30
得票数 0
回答已采纳
2
回答
Spark Structured Kafka偏移
管理
、
、
、
我正在研究在kafka中存储kafka偏移量用于Spark
结构化
流媒体,就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样,与我正在寻找的相同,但用于
结构化
流媒体。它是否支持
结构化
流媒体?如果是,我
如何
实现它?我知道
使用
.option("checkpointLocation", checkpointLocation)的
hdfs
检查点
,但我对内置的
浏览 10
提问于2019-05-16
得票数 3
4
回答
Kafka
结构化
流
检查点
、
、
我正在尝试从Kafka做
结构化
流媒体。我计划在
HDFS
中存储
检查点
。我读了一篇Cloudera博客,建议不要在
HDFS
中为Spark streaming存储
检查点
。结构
流
检查点
也存在同样的问题吗?。在
结构化
流
中,如果我的spark程序停机了一段时间,我
如何
从
检查点
目录中获取最新的偏移量,并在该偏移量之后加载数据。我将
检查点
存储在一个目录中,如下所示。, '\files
浏览 3
提问于2017-10-07
得票数 4
1
回答
如何
在nfs文件系统中存储apache
检查点
、
我正在
使用
Apache 1.10.0从RabbitMQ中提取数据
流
,现在在
内存
中
使用
默认的
检查点
配置。现在,当任务
管理
器重新启动时,我需要将状态和
检查点
存储在文件系统中,所有演示都应该
使用
“
HDFS
://namenode:4000/.”,但是现在我没有
HDFS
集群,我的Apache Flink运行在kubernetes集群中,
如何
在文件系统中存储我的
检查点</
浏览 5
提问于2020-04-09
得票数 0
回答已采纳
1
回答
spark streaming checkpoint占用多少空间?
我是Spark Streaming的新手,对
检查点
中存储的checkpoint.Is
流
数据知之甚少?数据是存储在
hdfs
中还是存储在
内存
中?需要多少空间?
浏览 1
提问于2021-01-13
得票数 0
1
回答
火花
结构化
流
检查点
在生产中的
使用
、
、
、
、
当
使用
Spark
结构化
流
时,我难以理解
检查点
是
如何
工作的。 将已连接的DataFrame写入HBase表。我在shell中测试了代码,它运行良好,低于伪代码(我
使用</e
浏览 7
提问于2020-07-08
得票数 3
1
回答
星火2.4.0 --卡夫卡的
结构化
流
容错
、
、
、
当我阅读卡夫卡的时候,我有一些关于星火结构
流
中的容错的问题。这来自
结构化
流
编程指南: 1)
如何
重新启动失败的查询?能自动完成吗?您可以配置带有
检查点
位置的查询,该查询将将所有进度信息(即每个触发器中处理的偏移量的范围)和正在运行的聚合(例如快速示例中的单词计数)保存到
检查点
位置。此
检查点
位置必须是<em
浏览 0
提问于2019-03-07
得票数 1
1
回答
火花
结构化
流
-此查询不支持从
检查点
位置恢复。
、
、
spark.readStream .option("host", "localhost") .load()This query does not support recovering from checkpoint loca
浏览 3
提问于2021-01-25
得票数 1
回答已采纳
5
回答
Apache (
结构化
流
):S3
检查点
支持
、
根据星星之火
结构化
流
文档:“此
检查点
位置必须是
HDFS
兼容的文件系统中的路径,并且可以在启动查询时设置为DataStreamWriter中的选项。”当然,将
检查点
设置为s3路径会抛出:17/01/31 21:23:56 INFO SparkCon
浏览 8
提问于2017-02-02
得票数 9
回答已采纳
1
回答
我们是
如何
管理
火花
结构化
流
中的抵消的?(与_spark_metadata有关的问题)
、
、
背景:,我编写了一个简单的火花
结构化
蒸汽应用程序,可以将数据从卡夫卡转移到S3。我想摆脱星火
结构化
流
的元数据和
检查点
文件夹,并自己
管理
偏移。我们
如何
管理
火花
流
中的偏移:,我已经
使用
val offsetRanges = rdd.asInstanceOfHasOffsetRanges.offsetRanges来获得Spark
结构化
流
中的偏移量。但想知道
如何
获得偏移和其他元数据来
浏览 2
提问于2020-06-17
得票数 1
回答已采纳
3
回答
如何
获取Kafka offset,用于
结构化
查询,实现手动、可靠的offset
管理
?
、
、
、
、
Spark 2.2引入了Kafka的
结构化
流媒体源代码。据我所知,它依靠
HDFS
检查点
目录来存储偏移量,并保证“只传递一次”消息。但旧的docks (如)表示,Spark Streaming
检查点
不能跨应用程序或Spark升级恢复,因此不太可靠。如果要将Kafka源的偏移量存储到事务型DB中,
如何
从
结构化
流
批处理中获取偏移量?这可以通过将RDD转换为HasOffsetRanges来完成 val offsetRanges = rdd.asInstanceOf[HasOff
浏览 1
提问于2017-09-11
得票数 28
回答已采纳
1
回答
在通过
hdfs
连接器从kafka写入时,是否有一种限制avro文件大小的方法?
、
、
、
目前,我们
使用
Flink FsStateBackend
检查点
并设置fileStateSizeThreshold,将写入
HDFS
上avro/json文件的数据大小限制在128 on。在
检查点
操作延迟一定时间后也关闭文件。由于我们在新项目中没有
使用
高级Flink特性,所以我们希望
使用
Kafka Connect
HDFS
Connector中的Kafka
流
直接将消息写入
hdfs
(而不是旋转Flink)。但是,我无法找到限制卡夫卡
浏览 0
提问于2018-08-08
得票数 1
回答已采纳
1
回答
Spark 2.3.1
结构化
流
状态存储内部工作
、
我一直在浏览spark 2.3.1关于
结构化
流
的文档,但是无法找到有状态操作
如何
在内部与状态存储一起工作的详细信息。更具体地说,我想知道的是:(1)状态存储是否分布?我知道它是由
HDFS
支持的,但是没有解释
内存
存储实际上是
如何
工作的。 实际上,它是
内存
中的分布式存储吗?我对去复制特别感兴趣,如果数据流来自于(比方说)一个大的数据集,那么这个需要被规划,因为所有“不同”的DataSet最终将作为该数据集处理的结束而保存在
内存
中。
浏览 0
提问于2018-08-17
得票数 10
1
回答
由于新名称文件已存在,
结构化
流式kafka驱动程序重新启动失败,并出现
HDFS
文件重命名错误
、
、
我们正在
使用
Spark 2.1中的
结构化
流式处理测试重新启动和故障转移。 我们有一个精简的kafka
结构化
流
驱动程序,它只执行事件计数。当我们第二次优雅地重新启动驱动程序时(例如,
使用
yarn应用程序-kill终止驱动程序,并
使用
相同的
检查点
目录重新提交驱动程序),驱动程序会失败,这是因为中止的作业无法在
HDFS
中提交状态,并出现以下错误重命名为/user/spark/checkpoints/Structured
浏览 31
提问于2017-02-04
得票数 0
1
回答
Azure Event Hubs Streaming:
检查点
是否会覆盖setStartingPosition?
、
、
、
EventPosition.fromStartOfStream) .setStartingPosition(EventPosition.fromEndOfStream)谢谢。
浏览 4
提问于2021-02-19
得票数 2
1
回答
如何
清理星火结构
流
中积累的
检查点
文件?
、
、
、
我为SparkContext添加了
检查点
,并为长期运行的火花
结构化
流
作业编写了对kafka数据
流
的查询。但是,我注意到
检查点
文件是在
HDFS
和S3中积累的,没有自动清理。我看到这些文件不断地占用存储空间。是否有办法为这些
检查点
文件配置保留时间以使其自动删除?还是需要运行某个cron作业来手动删除它们?
浏览 2
提问于2020-09-27
得票数 1
回答已采纳
1
回答
可以在没有
HDFS
的情况下
使用
Spark Structured吗?
我经常
使用
HDFS
和Kafka,我注意到Kafka比
HDFS
更可靠。所以现在
使用
Spark-structured-streaming,我很惊讶
检查点
只有
HDFS
。用Kafka来勾点会更快更可靠。那么,有没有可能在没有
HDFS
的情况下
使用
spark structured?奇怪的是,我们只能在Kafka中将
HDFS
用于
流
数据。或者,有没有可能告诉斯帕克忘记ChekpPointing并在程序中
管理
它? S
浏览 39
提问于2021-05-07
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop生态圈初识
Hadoop体系结构中的服务解决介绍
大数据hadoop框架中的服务角色详解
数据流中的大数据的发展生态环境与数据处理流程化
大数据特点与社会影响
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券