Spark Streaming:使可更新的结果集可用于流处理逻辑

、

在Spark Streaming应用程序中，有一个外部数据源(关系数据库)，我需要每隔10分钟查询一次，并使结果可用于我的流处理管道。 /** */def setValue(

浏览 0提问于2017-02-08得票数 0

1回答

使用while循环中的Spark处理日志文件

、

我有一个服务器，每1秒生成一些日志文件，我想使用Apache Spark处理这个文件。我使用python编写了一个spark应用程序，并在while循环中处理了一组日志文件。我的问题是，对于这种无限运行并处理批量或一组生成文件的应用程序，最好的方法是什么。我应该使用一个无限的while循环，还是应该在cron job甚至像airflow这样的调度框架中运行我的代码？

浏览 0提问于2017-04-18得票数 0

1回答

显示Spark结构化流作业使用的事件数

、

是否可以在Spark UI中发布/查看消费/产生的事件数量？

浏览 13提问于2020-04-15得票数 1

回答已采纳

1回答

在Dataset元素中执行“不转换”操作的最佳方法是什么？

、、、

新来的火花，我正在寻找一种方式，以执行所有元素的数据集与星火结构化流我得到了val df = Dataset[Person]，我想做这样的事情： df.foreachsomeHttpClient.doRequest(http

浏览 0提问于2020-08-19得票数 0

2回答

如何对流式DataFrame进行多时间窗操作？

、、、

我在DataFrame中有3列：- time:TimeStamp，col1:Double，col2:Double我想执行以下操作： .groupBy(window(col("time"),"10 seconds","1 second")) .agg(mean("col1") with window of 10 seconds,max("col") with

浏览 0提问于2017-08-30得票数 1

2回答

如何删除流数据中的重复项？

、、

我正在使用spark-sql 2.4.1结构化流与kafka，java8。例如，我的数据集如下所示我需要找出基于ColA ColB ColC的副本，取其中基于ColDate的最新副本，并删除其余的。也就是说，从上面的数据结果应该是如何使用spark streaming来实现？也就是说，我将在流中获取数据，例如...不确定何时出现重复，如果按照前面指定的<em

浏览 2提问于2019-08-06得票数 0

4回答

KStreams +火花流+机器学习

、、、、

我正在做一个在数据流上运行机器学习算法的POC。Spark Streaming -->聚合多个表中的数据-->在数据流上运行MLLib -->产生输出。问题：火花流和卡夫卡流有什么区别？我如何才能与KStreams +火花流+机器学习结合起来？我的想法是持续训练测试数据，而不是批量训练。

浏览 2提问于2016-12-14得票数 9

3回答

为什么不单独使用spark-streaming

、、、

我没有太多使用Kafka/ Spark-Streaming的经验，但我读过很多关于组合在为分析/仪表板构建实时系统方面有多棒的文章。有人能给我解释一下为什么spark-streaming不能单独完成吗？换句话说，为什么Kafka在数据源和spark-streaming之间？谢谢

浏览 1提问于2016-01-11得票数 1

1回答

Spark Direct Stream并发作业限制

、、、

我正在运行来自kafka的spark直接流，其中我需要运行许多并发作业，以便及时处理所有数据。在spark中，您可以将spark.streaming.concurrentJobs设置为要运行的多个并发作业。我想知道的是一种逻辑方法来确定我可以在给定环境中运行多少并发作业。对于我公司的隐私问题，我不能告诉你我有哪些规格，但我想知道的是哪些规格与确定限制相关，为什么？当然，另一种选择

浏览 15提问于2017-02-23得票数 0

回答已采纳

1回答

使用结构化火花流解码Java枚举/自定义非案例类

、、

我试图使用Spark2.1.1中的结构化流从Kafka读取并解码Avro编码的消息。我有一个按照定义的UDFval deser = new[DeviceRead])org.apache.spark.sql.Dataset[DeviceRead].deser.deserialize("topic", bytes.getAs

浏览 3提问于2017-06-23得票数 0

1回答

Databricks/python -创建健壮的长期运行作业的最佳实践方法是什么？

、、

我找不到一个很好的概述，如何创造一个工作，有一定的可能性失败。我的场景是从web中读取大量行。这项工作大约需要36个小时才能完成。我的基本流程如下：将结果输出写入新表(ID + Detai

浏览 6提问于2022-04-20得票数 2

回答已采纳

1回答

我是Spark的新手，如果这个问题太基本了，请原谅。我有一个实时场景，其中数据被连续推送到队列中，并且需要对这些数据运行分析。Spark从队列分析中提取这些数据是多阶段的，RDD通过每个阶段的中间更新一次又一次地迭代，最后我们得到一些映射，这些映射在RDD本身中更新。分析需要每n分钟重复一次，它应该处理RDD +新数据的前一个最终状态。这些作业始终按顺序运行，在前一个作业完成之前，下一个作业永远不会运行。我总是可以将运行中的数据发布到外部存储或缓存，然

浏览 1提问于2017-11-17得票数 0

2回答

ResultSet更新行不工作

、、

在遍历结果集时，我希望在我的ResultSet中更新raw。以下是我的代码 String query="SELECT * FROM smsmessage WHERE recipient = ?我收到了跟随错误 com.mysql.jdbc.NotUpdatable:结果集不可更新。此结果集必须来自使用结果集类型ResultSet.CONCUR_UPDATABLE创建<

浏览 3提问于2015-01-24得票数 3

回答已采纳

5回答

spark流可视化

、、

我正在使用spark streaming从kafka broker中流式传输数据。我正在使用spark streaming对数据执行转换。有没有人能推荐一个可视化工具，我可以用它来显示实时的图形和图表，这些图表会随着数据流的更新而更新？

浏览 0提问于2015-05-15得票数 3

2回答

如何将流数据集转换为DStream？

、、、

是否有可能将流o.a.s.sql.Dataset转换为DStream？如果是这样的话，是怎么做的？我知道如何将它转换为RDD，但它是在流上下文中的。

浏览 1提问于2018-03-29得票数 3

回答已采纳

1回答

将结果集转换为对象数组时未连接的Java数据库

、、

因此，我正在尝试将我的结果集转换成一个对象数组来映射数据字段，然而，即使我调用它是为了打开它，我还是得到了一个db连接错误。显然，我需要添加更多的细节，所以我正在打字，以增加更多的细节，现在。

浏览 4提问于2017-11-29得票数 0

3回答

如何将火花结构流DataFrame插入到Hive外部表/位置？

、、

一个关于星火结构流与HIVE表集成的查询。 val spark =SparkSession.builder().appName("StatsAnalyzer") .confighive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.pa

浏览 0提问于2018-12-28得票数 13

1回答

org.apache.spark.util.SerializableConfiguration提供java.lang.ClassCastException:在从检查点恢复时不能强制转换java.lang.ClassCastException

、、、、

我正面临一个火花流工作的问题，我试图使用广播，mapWithState和检查点在火花。以下为用法：当新创

浏览 5提问于2017-08-01得票数 3

2回答

增加Kafka流消费者吞吐量

、、、

不确定它是否相关，但是90%的星火流执行时间是9ms左右。卡夫卡流，12毫秒。每次处理消息时，将在我的处理器中调用commit()方法。这个问题依赖于高爆发。我看到了相同的结果(每秒70个事件)，不管我使用的是5、10或15个消费者，这促使我认为这与配置有关。我试图通过增加每次提取的记录数和每个分区的最大字节来调整这些值，但是没有得到显著的结果。我知道这些是不同

浏览 4提问于2020-06-23得票数 6

回答已采纳

2回答

使用Apache Spark提供实时web服务查询

、、、

我们有一个使用案例，我们从数百个数据源下载大量数据(订单为每天100 to )，对这些数据进行处理和处理，然后通过RESTful接口将这些数据公开给我们的客户。今天的基础数据大小约为20TB，预计未来还会大幅增长。对于消息/处理部分，我们相信spark对我们来说是一个非常好的选择。现在，对于通过应用程序接口公开处理/消息处理的数据，一种选择是将处理后的数据存储

浏览 8提问于2015-06-05得票数 1

点击加载更多