腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
获取
每个
spark
批处理
中
的
第一个
事件
、
在
spark
流媒体应用程序
中
,在
每个
批次
中
,我都会收到大约100个包含时间戳字段(Long)
的
对象。我想要得到
第一个
接收到
的
对象
的
时间戳。这个是可能
的
吗?
浏览 12
提问于2016-08-31
得票数 0
1
回答
火花流
中
背压特性是如何工作
的
?
、
、
、
我有一个CustomReceiver,它接收单个
事件
(字符串),在
spark
应用程序运行时使用单个
事件
读取数据,并应用transformations.When,观察到
每个
批处理
的
处理时间大于设置该属性
的
批处理
间隔
spark
.streaming.backpressure.enabled=true 在此之后,我期望CustomReceiver不会在
批处理
比
批处理
窗口更长
的
时间触发和接收
浏览 2
提问于2017-01-25
得票数 7
回答已采纳
2
回答
卡夫卡
的
火花流-从检查点重新启动
、
我们想要实现
的
是一个设置,在这里我们可以降低火花流作业(以模拟故障),然后重新启动它,并仍然确保我们处理来自Kafka
的
每一条消息。这似乎很好,但是,下面是我所看到
的
,我不知道该做什么: 这些批次
中
没有一个正在处理任何数据。正如您在下面的图像中所看到
的
,这些
批处理
的
输入大小=
浏览 1
提问于2016-10-06
得票数 2
1
回答
火花流-获得
批处理
级别的性能状态。
、
、
、
我正在设置一个Apache
Spark
集群来执行实时流计算,并希望通过跟踪各种指标(如批大小、
批处理
时间等)来监视部署
的
性能。我
的
Spark
Streaming程序是用Scala编写
的
每批
事
浏览 4
提问于2017-04-11
得票数 2
回答已采纳
1
回答
Spark
Streaming
中
驱动使用直接Kafka API查询分区偏移量
的
频率是多少?
、
是针对
每个
批处理
间隔查询偏移量还是以不同
的
频率查询偏移量?
浏览 1
提问于2015-11-17
得票数 1
1
回答
在
Spark
Streaming
中
的
微批次结束前执行操作
、
、
、
、
是否有可能在
Spark
Streaming
中
的
DStream内
的
每个
微批次结束时执行一些操作?我
的
目标是计算
Spark
处理
的
事件
数量。
Spark
Streaming给了我一些数字,但平均值似乎也是零值(因为一些微批次是空
的
)。例如,我确实收集了一些统计数据,并希望将它们发送到我
的
服务器,但收集数据
的
对象只存在于某一
批处理
期间,并且为下一
批
浏览 0
提问于2016-05-12
得票数 2
2
回答
Spark
Streaming -基于时间戳字段
的
处理
、
、
我是
spark
streaming
的
新手,我需要一些基本
的
澄清,因为我不能完全理解阅读文档。 用例是,我有一组包含转储
事件
的
文件,
每个
事件
都有一个字段时间戳。目前,我正在加载这个文件并提取JavaRDD
中
的
所有
事件
,我想将它们传递给
Spark
Streaming,以便根据时间戳收集一些统计数据(类似于重放)。我
的
问题是,是否可以使用
事件
时间戳作为时间参考来处理这些
浏览 1
提问于2017-02-14
得票数 2
1
回答
星火结构流在附加模式下显示结果太晚了
、
、
在上
的
文档
中
,使用10分钟
的
窗口、10分钟
的
水印和5分钟
的
触发器显示了一个示例。然而,在12:20,我们已经知道水印是12:11:00。那么为什么
第一个
窗口不是在12:20而不是12:25发送
的
呢?
浏览 2
提问于2018-10-23
得票数 3
回答已采纳
2
回答
Kafka.Utils.createRDD Vs KafkaDirectStreaming
、
、
我观察到,使用
批处理
RDD从不同
的
分区读取数据不会导致
Spark
并发作业。是否有一些
Spark
专有者可以配置以允许此行为? 谢谢。
浏览 0
提问于2016-06-17
得票数 1
2
回答
火花流句柄斜卡夫卡分区
、
、
设想情况:
每个
火花流微
批处理
中
的
逻辑(30秒):我
的
流媒体工作是从大约1000卡夫卡主题中阅读,在10K Kafka分区
中
,吞吐量约为500万
事件
/s。问题在于卡夫卡分区之间
的
流量负载不均衡,一些分区
的
吞吐量大约是较小分区
的
50倍,这导致了RDD分区
的
倾斜(因为KafkaUtils创建了从Kafka分
浏览 4
提问于2020-04-30
得票数 0
回答已采纳
2
回答
流式数据[Hadoop/MapReduce] -挑战是什么?
、
、
、
我在很多地方读过关于流数据
的
文章,但只是试图理解使用Map Reduce技术处理它时所面临
的
挑战?请分享你
的
建议和想法。
浏览 1
提问于2014-11-28
得票数 0
2
回答
避免对
spark
微批进行排队
、
我已经创建了
spark
应用程序,它从Apache flume
获取
输入数据。我将
spark
批处理
间隔设置为4分钟,这样
spark
将每隔4分钟处理一次数据。但是我有一些昂贵
的
spark
批处理
,这需要相当多
的
时间(比如30分钟),所以在这段时间内,大约7个
spark
批处理
将在队列中等待,一旦昂贵
的
批处理
执行完成,它将一个接一个地开始处理。通过这种方式,我
的</e
浏览 1
提问于2019-09-28
得票数 3
1
回答
为什么流数据集会出现foreachPartition错误?
、
、
我正在从
Spark
流迁移到结构化流,并且我面临以下代码
的
问题: .outputMode("append") .start 由: org.apache.
spark
.sql.AnalysisException在这种情况下,writeStre
浏览 3
提问于2017-07-06
得票数 2
回答已采纳
1
回答
结构化流如何为
每个
微批次规划流查询
的
逻辑计划?
、
在ListColumn
中
创建300个相当复杂
的
Spark
列。无聚合。在设置来自Kafka
的
流时,我设置了.option("maxOffsetsPerTrigger",1),以便在
每个
小批量
中
只处理一条消息。所以,看起来
Spark
浏览 0
提问于2019-10-31
得票数 3
1
回答
Spark
streaming使用较少数量
的
执行器
、
、
我正在使用火花流处理一些
事件
。它以独立模式部署,有1个master和3个worker。我已经将
每个
executor
的
核心数设置为4,并将executor
的
总数设置为24。这意味着总共将产生6个执行器。我
的
批处理
间隔是1秒。另外,我已经将
批处理
重新分区为21。剩下
的
3个是给接收者
的
。在运行时,我从
事件
时间线中观察到只有3个executors被使用。其他3个没有被使用。据我所知,在
spark
独立模式下没
浏览 0
提问于2016-11-08
得票数 0
1
回答
Spark
streaming上来自KafkaConsumer
的
过多KDC调用
、
、
、
、
我有一个独立
的
(master=local本身
的
原因)
Spark
结构
的
流媒体应用程序,它从kerberized化
的
kafka集群读取数据。它在功能上工作,但它对KDC进行了太多
的
调用,以便为
每个
微
批处理
执行
获取
TGS。无论是使用useTicketCache=true还是通过在jaas配置中提供keytab,行为都是相同
的
-它为
每个
任务
的
每个
代理轰炸KDC。
浏览 5
提问于2020-07-22
得票数 0
1
回答
未批量返回时间戳
、
、
、
如果exe文件
的
时间戳在最新版本之前,我正在尝试运行
批处理
文件来更新一些软件。为此,我使用了一个众所周知
的
for循环。当我这样做
的
时候:for %%a in (%file%) do set olddate=%%~taset
spark
_exe=%ProgramFiles%\
Spark
\
Spark
.ex
浏览 3
提问于2015-02-20
得票数 0
1
回答
如何将可以在运行时定义
的
规则应用于流式数据集?
、
、
不确定标题是否适合我想要实现
的
目标,所以请耐心等待。许多(比如说数百万) IoT设备正在向我
的
Spark
stream发送数据。这些设备每10秒发送一次当前温度级别。所有这些IoT设备
的
所有者都有能力定义预设规则,例如:如果温度> 50,则执行某些操作。我该怎么做呢。
Spark
是适合这项工
浏览 0
提问于2017-06-21
得票数 1
1
回答
暂停
Spark
Kafka直播
、
、
我有以下代码,创建一个直接使用Kafka连接器
的
火花流。然而,我想要处理一种情况,在这种情况下,我可以决定这个流需要有条件地暂停一段时间,有什么方法可以做到这一点吗?假设我
的
Kafka正在进行一些维护,那么在上午10点到下午12点之间停止处理,然后在晚上12点从最后一个偏移量重新开始,我该怎么办?
浏览 4
提问于2016-08-31
得票数 1
1
回答
在
批处理
之间持久存在
的
内存缓存
中
触发结构化流
、
、
、
在scala应用程序
中
拥有内存
中
的
LRU缓存
的
正确方式是什么,该应用程序运行在跨
批处理
的
spark
结构化流上。我尝试使用Guava缓存,但我认为因为它是不可序列化
的
,即使我将其用作单例,
每个
微
批处理
都会实例化一个新
的
缓存。为了处理
事件
,我需要在外部数据源
中
查找一些元数据,因此我希望避免每次调用都通过网络,而是在本地缓存它们一段时间。
浏览 16
提问于2019-03-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
我们为什么从Kafka迁移至Pulsar?
大数据处理框架是怎样的原理
Hadoop MapReduce与Apache Spark
从Storm到Flink:大数据处理的开源系统及编程模型
Spark:必知必会的基本概念
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券