获取每个spark批处理中的第一个事件

、

在spark流媒体应用程序中，在每个批次中，我都会收到大约100个包含时间戳字段(Long)的对象。我想要得到第一个接收到的对象的时间戳。这个是可能的吗？

浏览 12提问于2016-08-31得票数 0

1回答

火花流中背压特性是如何工作的？

、、、

我有一个CustomReceiver，它接收单个事件(字符串)，在spark应用程序运行时使用单个事件读取数据，并应用transformations.When，观察到每个批处理的处理时间大于设置该属性的批处理间隔spark.streaming.backpressure.enabled=true 在此之后，我期望CustomReceiver不会在批处理比批处理窗口更长的时间触发和接收

浏览 2提问于2017-01-25得票数 7

回答已采纳

2回答

卡夫卡的火花流-从检查点重新启动

、

我们想要实现的是一个设置，在这里我们可以降低火花流作业(以模拟故障)，然后重新启动它，并仍然确保我们处理来自Kafka的每一条消息。这似乎很好，但是，下面是我所看到的，我不知道该做什么：这些批次中没有一个正在处理任何数据。正如您在下面的图像中所看到的，这些批处理的输入大小=

浏览 1提问于2016-10-06得票数 2

1回答

火花流-获得批处理级别的性能状态。

、、、

我正在设置一个Apache Spark集群来执行实时流计算，并希望通过跟踪各种指标(如批大小、批处理时间等)来监视部署的性能。我的Spark Streaming程序是用Scala编写的每批事

浏览 4提问于2017-04-11得票数 2

回答已采纳

1回答

Spark Streaming中驱动使用直接Kafka API查询分区偏移量的频率是多少？

、

是针对每个批处理间隔查询偏移量还是以不同的频率查询偏移量？

浏览 1提问于2015-11-17得票数 1

1回答

在Spark* Streaming中的微批次结束前执行操作*

、、、、

是否有可能在Spark Streaming中的DStream内的每个微批次结束时执行一些操作？我的目标是计算Spark处理的事件数量。Spark Streaming给了我一些数字，但平均值似乎也是零值(因为一些微批次是空的)。例如，我确实收集了一些统计数据，并希望将它们发送到我的服务器，但收集数据的对象只存在于某一批处理期间，并且为下一批

浏览 0提问于2016-05-12得票数 2

2回答

Spark Streaming -基于时间戳字段的处理

、、

我是spark streaming的新手，我需要一些基本的澄清，因为我不能完全理解阅读文档。用例是，我有一组包含转储事件的文件，每个事件都有一个字段时间戳。目前，我正在加载这个文件并提取JavaRDD中的所有事件，我想将它们传递给Spark Streaming，以便根据时间戳收集一些统计数据(类似于重放)。我的问题是，是否可以使用事件时间戳作为时间参考来处理这些

浏览 1提问于2017-02-14得票数 2

1回答

星火结构流在附加模式下显示结果太晚了

、、

在上的文档中，使用10分钟的窗口、10分钟的水印和5分钟的触发器显示了一个示例。然而，在12:20，我们已经知道水印是12:11:00。那么为什么第一个窗口不是在12:20而不是12:25发送的呢？

浏览 2提问于2018-10-23得票数 3

回答已采纳

2回答

Kafka.Utils.createRDD Vs KafkaDirectStreaming

、、

我观察到，使用批处理RDD从不同的分区读取数据不会导致Spark并发作业。是否有一些Spark专有者可以配置以允许此行为？谢谢。

浏览 0提问于2016-06-17得票数 1

2回答

火花流句柄斜卡夫卡分区

、、

设想情况：每个火花流微批处理中的逻辑(30秒)：我的流媒体工作是从大约1000卡夫卡主题中阅读，在10K Kafka分区中，吞吐量约为500万事件/s。问题在于卡夫卡分区之间的流量负载不均衡，一些分区的吞吐量大约是较小分区的50倍，这导致了RDD分区的倾斜(因为KafkaUtils创建了从Kafka分

浏览 4提问于2020-04-30得票数 0

回答已采纳

2回答

流式数据[Hadoop/MapReduce] -挑战是什么？

、、、

我在很多地方读过关于流数据的文章，但只是试图理解使用Map Reduce技术处理它时所面临的挑战？请分享你的建议和想法。

浏览 1提问于2014-11-28得票数 0

2回答

避免对spark微批进行排队

、

我已经创建了spark应用程序，它从Apache flume获取输入数据。我将spark批处理间隔设置为4分钟，这样spark将每隔4分钟处理一次数据。但是我有一些昂贵的spark批处理，这需要相当多的时间(比如30分钟)，所以在这段时间内，大约7个spark批处理将在队列中等待，一旦昂贵的批处理执行完成，它将一个接一个地开始处理。通过这种方式，我的</e

浏览 1提问于2019-09-28得票数 3

1回答

为什么流数据集会出现foreachPartition错误？

、、

我正在从Spark流迁移到结构化流，并且我面临以下代码的问题： .outputMode("append") .start 由: org.apache.spark.sql.AnalysisException在这种情况下，writeStre

浏览 3提问于2017-07-06得票数 2

回答已采纳

1回答

结构化流如何为每个微批次规划流查询的逻辑计划？

、

在ListColumn中创建300个相当复杂的Spark列。无聚合。在设置来自Kafka的流时，我设置了.option("maxOffsetsPerTrigger"，1)，以便在每个小批量中只处理一条消息。所以，看起来Spark

浏览 0提问于2019-10-31得票数 3

1回答

Spark streaming使用较少数量的执行器

、、

我正在使用火花流处理一些事件。它以独立模式部署，有1个master和3个worker。我已经将每个executor的核心数设置为4，并将executor的总数设置为24。这意味着总共将产生6个执行器。我的批处理间隔是1秒。另外，我已经将批处理重新分区为21。剩下的3个是给接收者的。在运行时，我从事件时间线中观察到只有3个executors被使用。其他3个没有被使用。据我所知，在spark独立模式下没

浏览 0提问于2016-11-08得票数 0

1回答

Spark streaming上来自KafkaConsumer的过多KDC调用

、、、、

我有一个独立的(master=local本身的原因) Spark结构的流媒体应用程序，它从kerberized化的kafka集群读取数据。它在功能上工作，但它对KDC进行了太多的调用，以便为每个微批处理执行获取TGS。无论是使用useTicketCache=true还是通过在jaas配置中提供keytab，行为都是相同的-它为每个任务的每个代理轰炸KDC。

浏览 5提问于2020-07-22得票数 0

1回答

未批量返回时间戳

、、、

如果exe文件的时间戳在最新版本之前，我正在尝试运行批处理文件来更新一些软件。为此，我使用了一个众所周知的for循环。当我这样做的时候：for %%a in (%file%) do set olddate=%%~taset spark_exe=%ProgramFiles%\Spark\Spark.ex

浏览 3提问于2015-02-20得票数 0

1回答

如何将可以在运行时定义的规则应用于流式数据集？

、、

不确定标题是否适合我想要实现的目标，所以请耐心等待。许多(比如说数百万) IoT设备正在向我的Spark stream发送数据。这些设备每10秒发送一次当前温度级别。所有这些IoT设备的所有者都有能力定义预设规则，例如:如果温度> 50，则执行某些操作。我该怎么做呢。Spark是适合这项工

浏览 0提问于2017-06-21得票数 1

1回答

暂停Spark* Kafka直播*

、、

我有以下代码，创建一个直接使用Kafka连接器的火花流。然而，我想要处理一种情况，在这种情况下，我可以决定这个流需要有条件地暂停一段时间，有什么方法可以做到这一点吗？假设我的Kafka正在进行一些维护，那么在上午10点到下午12点之间停止处理，然后在晚上12点从最后一个偏移量重新开始，我该怎么办？

浏览 4提问于2016-08-31得票数 1

1回答

在批处理之间持久存在的内存缓存中触发结构化流

、、、

在scala应用程序中拥有内存中的LRU缓存的正确方式是什么，该应用程序运行在跨批处理的spark结构化流上。我尝试使用Guava缓存，但我认为因为它是不可序列化的，即使我将其用作单例，每个微批处理都会实例化一个新的缓存。为了处理事件，我需要在外部数据源中查找一些元数据，因此我希望避免每次调用都通过网络，而是在本地缓存它们一段时间。

浏览 16提问于2019-03-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花流中背压特性是如何工作的？

卡夫卡的火花流-从检查点重新启动

火花流-获得批处理级别的性能状态。

Spark Streaming中驱动使用直接Kafka API查询分区偏移量的频率是多少？

在Spark* Streaming中的微批次结束前执行操作*

Spark Streaming -基于时间戳字段的处理

星火结构流在附加模式下显示结果太晚了

Kafka.Utils.createRDD Vs KafkaDirectStreaming

火花流句柄斜卡夫卡分区

流式数据[Hadoop/MapReduce] -挑战是什么？

避免对spark微批进行排队

为什么流数据集会出现foreachPartition错误？

结构化流如何为每个微批次规划流查询的逻辑计划？

Spark streaming使用较少数量的执行器

Spark streaming上来自KafkaConsumer的过多KDC调用

未批量返回时间戳

如何将可以在运行时定义的规则应用于流式数据集？

暂停Spark* Kafka直播*

在批处理之间持久存在的内存缓存中触发结构化流

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐