腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6305)
视频
沙龙
1
回答
如何在其中一个作业失败时关闭/杀死火花
流
应用程序
、
我正在运行一个星火
流
应用程序。有几次,其中一个作业由于某些运行时异常而失败。streaming将作业标记为失败,并继续处理下一个
流
批
。如果其中一个作业失败,是否有一个参数可以设置为通知
Spark
关闭应用程序(而不是处理下一个
流
批
)?我在独立集群模式上使用
Spark
1.4.1。
浏览 0
提问于2016-06-10
得票数 0
1
回答
将火花流连接到
流
集输入
、
、
我想知道是否有可能提供输入来激发来自StreamSets的
流
。我注意到在StreamSets连接器目的地中不支持火花
流
。 我将探讨是否有其他方法将它们连接到一个示例POC。
浏览 3
提问于2016-07-06
得票数 3
回答已采纳
0
回答
Spark
RDD apend
在
Spark
中,我以RDD的形式加载了一个数据集,并且喜欢不频繁地向其追加
流
数据。我知道RDDs是不可变的,因为它简化了锁定,等等。其他处理静态和
流
数据的方法是
一体
的吗? 类似的问题以前也被问过:
浏览 7
提问于2016-12-24
得票数 0
1
回答
处理
spark
结构化
流
中传入的运动
流
中的空批次
、
、
我们正在从kinesis读取数据,并使用
spark
结构
流
将其输出到文件中。当stream.these中没有数据时,kinesis实现正在生成空
批
吗?空
批
正在创建空文件作为输出?你知道怎么让
spark
写出空白文件吗?
浏览 24
提问于2019-02-27
得票数 0
回答已采纳
0
回答
spark
streaming是否必须完成前一
批
数据的处理,然后才能处理下一
批
数据,对吗?
、
我设置火花
流
时间间隔为5s。如果当前的5s接收了非常非常多的数据,而
spark
streaming不能在5s内完成,但下一
批
数据即将到来。
spark
streaming是否会同时处理下一
批
数据?
浏览 10
提问于2016-07-02
得票数 3
回答已采纳
1
回答
重新启动火花结构化
流
作业消耗数百万卡夫卡消息和死亡
、
、
、
我们有一个在
Spark
2.3.3上运行的星火
流
应用程序 kafka_stream =
spark
\ .format("kafka但是由于网络问题,这个工作在上消失了几天,现在卡夫卡
流
中上有数百万条消息等待接收。 当我们重新启动
流
数据作业使用火花提交,第一
批
将是太大,将需要很长时间才能完成。我们认为可能有一种方法可以用一些参数限制第一
批
的大小,但是我们没有发现任何有帮助的
浏览 1
提问于2019-04-02
得票数 10
回答已采纳
2
回答
星火
流
和星火结构化
流
使用相同的微
批
引擎吗?
、
、
星火
流
和星火结构化
流
是否使用相同的微
批
调度引擎?星火结构
流
比星火
流
有更低的延迟吗?
浏览 0
提问于2019-02-01
得票数 3
回答已采纳
1
回答
在卡夫卡星火
流
的情况下,
spark
.streaming.kafka.maxRatePerPartition和
spark
.streaming.backpressure.enabled有什么关系?
、
、
、
、
spark
.streaming.backpressure.enabled和
spark
.streaming.kafka.maxRatePerPartition sparkConf.set("
spark
.streaming.backpressure.enabled",”true”) 启用或禁用火花
流
的内部背压机制(自1.5起)。这使得火花
流
能够根据当前批处理调度延迟和处理时间来控制接收速率,以便系统接收到的速度仅限于系统所能处理的
浏览 0
提问于2021-09-13
得票数 4
回答已采纳
0
回答
spark
流
比较两个批处理和筛选数据
、
我想使用火花
流
比较两
批
和过滤数据第一
批
:aaa 0bbb 0第二
批
:aaa1ddd 0key type相邻的两个批次,最后一个批次的数据(类型为0)必须是前一个批次中的(类型为1),
浏览 3
提问于2017-06-07
得票数 2
1
回答
火花
流
作业中任务之间的长时间一致等待
、
、
、
我在Mesos上运行了一个星火
流
作业。所有批次都需要完全相同的时间,这一次比预期的要长得多。这些工作从卡夫卡提取数据,处理数据并将其插入卡桑德拉,然后再回到卡夫卡的另一个主题。print() streamingContext.awaitTermination()} 即使所有的执行程序都位于同一个节点(
spark
.executor.cores=2
spark
.cores.max=2)中,问题仍然存在,而且与以前的情况完全相同:。即使主题没有消息(0条记录的批处理),
浏览 0
提问于2018-06-07
得票数 3
回答已采纳
1
回答
如何避免火花
流
中批量排队
、
、
、
我有直接
流
的火花
流
,我使用下面的配置
spark
.streaming.kafka.maxRatePerPartition 42 当我使用最早的选项启动
流
批
时,为了更快地使用Kafka的消息并减少延迟,我将
spark
.streaming.kafka.maxRatePerPartition保持为42。是否有可能实现以下场景,我们的批处理间隔为60,如果每批运行在60,下一
批
可以准时开始。如果一<e
浏览 2
提问于2021-03-16
得票数 1
回答已采纳
1
回答
PyFlink性能与Scala的比较
、
、
、
冷(
批
)层将用Apache (PySpark)实现。但是对于热(
流
)层有不同的选择:火花
流
或Flink。提前谢谢你!
浏览 3
提问于2021-11-05
得票数 1
回答已采纳
2
回答
基于wholeTextFiles的火花
流
、
、
我正在使用
Spark
2.0并尝试使用wholeTextFiles API来
流
文件。我的
Spark
程序正在成功地读取文件--文件夹中的第一
批
文件,但是我不能流到后面的一
批
文件。请让我知道如何在使用WholeTextFiles API时
流
文件。df.createOrReplaceTempView("myView"); jssc.start();火花正在处理第一
批
的数据但是
浏览 4
提问于2017-04-05
得票数 0
1
回答
从
Spark
结构化
流
作业写入时的Delta表版本控制
、
、
、
从
Spark
结构化
流
作业到Delta表是否会为所编写的每一
批
微数据创建一个版本?
浏览 1
提问于2021-01-24
得票数 3
回答已采纳
1
回答
在当前的微批处理期间,火花
流
接收器是否继续为每个块间隔提取数据?
、
、
对于每一个
spark
.streaming.blockInterval (比方说,1分钟)接收器听
流
源的数据。假设当前的微批处理需要一段不自然的很长时间才能完成(根据意图,比如20分钟)。在这一
批
处理过程中,接收者是否还会监听
流
源并将其存储在火花存储器中? 当前的管道运行在中,使用的是
Spark
结构化
流
。有人能帮我理解这一点吗?
浏览 1
提问于2020-04-22
得票数 0
1
回答
关于静态数据的mapGroupsWithState函数以及为什么?
、
、
什么时候需要在静态mapGroupsWithState上使用DataFrame函数?在批处理数据集的情况下,只有一次调用,而且由于没有先前的状态,状态对象将为空。本质上,对于批处理数据集,map/flatMapGroupsWithState等同于map/flatMapGroups,状态和/或超时的任何更新都没有任何效果。
浏览 1
提问于2020-10-11
得票数 1
1
回答
阅读星火批次作业中的Kafka主题
、
、
、
、
我正在编写一个
Spark
(v1.6.0)批处理作业,它是从Kafka主题中读取的。为此,我可以使用org.apache.
spark
.streaming.kafka.KafkaUtils#createRDD,但是,我需要为所有分区设置偏移量,还需要将它们存储在某个地方(ZK?知道从哪里开始下一
批
作业。 在批处理作业中读取卡夫卡的正确方法是什么?我还考虑编写一个
流
作业,它从auto.offset.reset=smallest读取,并将检查点保存到HDFS,然后在下一次运行时从该任务开始。但在这种情况下,我如何才能只取一次,并
浏览 0
提问于2016-06-25
得票数 7
回答已采纳
1
回答
Spark
Streaming与Real Streaming计算系统的比较
、
、
有人说
spark
streaming,即使它可以以微
批
的形式处理
流
,它仍然不是一个像storm那样的
流
计算系统。那么,这种微批量计算思想的限制因素是什么?是什么让它不如一个真正的计算系统?谢谢!
浏览 1
提问于2014-09-18
得票数 5
3
回答
火花
流
-从检查点重放上一
批
、
我们正在尝试构建一个容错火花
流
作业,这是我们遇到的一个问题。下面是我们的场景: 2) We have checkpointstreaming job is then restarted from checkpoint 我们现在面临的问题是,在火花
流
作业重新启动后,它会重放最后一个成功的批处理。它总是这样做的,只是重放最后一
批
成功的
批
,而不是先前的
批
浏览 3
提问于2017-05-29
得票数 4
3
回答
在星火中RDDs和批次的区别?
、
、
批处理: SparkStreaming API简单地将数据划分为批处理,这些批处理还包含相同的
流
对象/元素集合。根据需求,一组批处理定义在基于表单时间的批处理窗口和基于集中在线活动的批处理窗口中。Rdd和
批
之间到底有什么区别?
浏览 5
提问于2015-10-30
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Flink on Hive构建流批一体数仓
Flink1.11+Hive批流一体数仓
【流处理】Spark结构化流处理实例(Kafka)
基于Flink+Hive构建流批一体准实时数仓
数据编织Data Fabric:批流一体的数据智能融合平台
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券