如何在spark中缓存数据流

、、

我是Apache Spark的初学者。我正在尝试运行一个流作业，它接收一些数据，将其转换为数据帧，并运行一些处理，如连接和删除重复项等。现在我必须缓存这个处理过的数据，这样我就可以将它附加到下一个数据流(使用一些联合/连接)，并再次进行处理。Caused by: org.apache.spark</e

浏览 0提问于2017-02-16得票数 1

2回答

如何有效地对Google云数据流进行大型矩阵乘法？

在第二个场景中，我们需要乘两个大型矩阵，它们都是稀疏的。在第三种情况下，我们需要乘两个大矩阵，它们都是稠密的。在上述三种情况下，如何在Google上高效地进行矩阵乘法(或矩阵的其他线性代数运算)？

浏览 0提问于2016-03-23得票数 1

1回答

在数据流中缓存数据集

、

我想知道我是否可以在Google Dataflow平台上直接缓存数据集(就像在Spark中缓存RDDs一样)。如果没有这样的功能，Dataflow如何在应用程序中挑选热门数据集，特别是当您有多个热门数据集，并且您希望根据数据集的重要性来确定缓存的优先级时？

浏览 1提问于2017-09-02得票数 2

2回答

Hadoop纱簇性能调整

、、

火花吐露：- spark.executor.memory = 5g纱线吐露：- yarn.scheduler.maximum-allocation-mb = 31744 在节点3& 5上，为什么要使用2gb中的节点1、2、4、5、6

浏览 0提问于2015-11-09得票数 0

1回答

、、

我想从kafka中读取结构化的流数据作为数据流，对于每个数据，我想用许多函数来处理它，所以我尝试缓存数据流。lines = spark\ .format("kafka")\ .option("kafka.bootstrap.servers", bootstrapServers

浏览 0提问于2018-01-11得票数 0

2回答

Spark中的转换和动作的行为是什么？

、、

我们正在执行一些测试，以评估Spark和Spark SQL中的转换和操作的行为。在我们的测试中，首先我们设想一个具有2个转换和1个操作的简单数据流：第一个数据流的执行时间是10秒。接下来，我们向数据流中添加了另一个操作： LOAD (result: df_1) > SELECT ALL F

浏览 2提问于2016-12-09得票数 0

1回答

Spark :从单个DStream中获取多个DStream

、、

在spark中，可以从单个DStream中获得多个DStream。我的用例如下:我从HDFS文件中获取日志数据流。日志行包含一个id (id=xyz)。我需要根据id以不同的方式处理日志行。所以我试着对输入数据流中的每个id使用不同的数据流。我在文档中找不到任何相关的东西。有没有人知道如何在Spark中实现这一点，或者指向任何链接。谢谢

浏览 1提问于2016-01-20得票数 0

1回答

Spark Streaming中的Processed与RDD

、、

我在中看到了几个答案(例如)，因此建议批处理中的记录将成为单个RDD。我对此表示怀疑，因为假设一个batchInterval是1分钟，那么一个RDD将包含最后一分钟的所有数据？注意:我不是直接比较batch和RDD，而是比较Spark内部处理的batch。

浏览 0提问于2017-04-26得票数 0

1回答

GCP数据流中的流数据处理支持哪些数据源？

、、、

在阅读了很多关于数据流的内容后，我发现只有PubSub和bigquery是GCP数据流中支持流数据处理的数据源。还支持哪些其他数据源？我是否可以使用数据流完成所有的流任务，这些任务可以使用其他ETL工具，如Spark或Kafka？

浏览 26提问于2020-07-01得票数 0

1回答

数据流无法捕获来自源.csv azure的行更改

、、、

每当我在数据流源预览中更改csv文件的行时，它都会显示旧数据。这是我的源代码预览这是我的源文件，我将最后一个指示器更改为FALSE，并将其上传到blob。

浏览 0提问于2021-07-07得票数 0

3回答

在星火中查找数据

、、、

我正在使用Spark1.6，我想知道如何在dataframes中实现查找。Emp Id | Dept Name1 | Admin如何在SPARK中实现这个查找UDF功能。我不想在两个数据流上使用连接。

浏览 7提问于2016-12-22得票数 4

回答已采纳

1回答

Spark Streaming如何处理多个主题

Spark如何在一个数据流中处理多个Kafka主题？2.同时(每个执行者的主题分区)。

浏览 0提问于2016-07-13得票数 0

1回答

Dataset#persist()是终端操作吗？

、

当org.apache.spark.sql.Dataset#persist()被调用时，spark是否真的缓存了Dataset？或者，当在Dataset上调用某些终端操作(如count)时，它将被延迟缓存。

浏览 11提问于2017-03-01得票数 1

1回答

没有SQLContext的pyspark中的clearCache

、、、

考虑到SQLContext的pySpark documentation说“从Spark2.0开始，这将被SparkSession所取代。”如何在不使用SQLContext的情况下从内存缓存中删除所有缓存表？例如，其中spark是SparkSession，sc是sparkContext from pyspark.sql import SQLContext SQLContext(sc, spark).clearCache

浏览 20提问于2019-05-04得票数 3

回答已采纳

1回答

如何在Amazon EMR上读取kinesis数据流？

、、、

我有一个包含tweet流的kinesis数据流。我如何在pyspark上(在emr上)读取这个流？我希望能够在此数据流上执行操作。jupyter上得到这个错误： 'JavaPackage' object is not callable File "/usr/lib/spark_jvm.org.apache.spark.streaming.kinesis.KinesisUti

浏览 35提问于2020-07-03得票数 1

1回答

Spark 3.0 -从MQTT流中读取数据

、、、、

我想从一个基于蚊子的MQTT主题中读取数据流到我的Spark 3.0应用程序中。localhost:1883"); 不幸的是，这已经失败了： Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/sources/v2/StreamWriteSupport 显然，这只适用于2.x版的Spark。你知道如何在

浏览 87提问于2021-01-27得票数 0

1回答

用sc.parallelize()进行数据库IO缓存？

我浏览了，但是除了设置一个配置设置以启用DBIO缓存之外，没有一行示例说明如何在代码中使用DBIO缓存(而不是标准的Spark缓存)。我是否应该假设，如果我启用了设置spark.conf.set("spark.databricks.io.cache.enabled", "true")，那么在我的星火作业中，无论我创建什么RDD，基本上都将被视为一个DBIO缓存吗？如果我想要区分这两种代码，并将两

浏览 0提问于2018-02-05得票数 2

回答已采纳

1回答

如何在Spark中加入大数据格式？(最佳做法、稳定性、绩效)

、、、

在Spark中加入大型数据格式时，我得到了与相同的错误。建议设置MEMORY_AND_DISK和/或spark.shuffle.memoryFraction 0。但是，在Spark 1.6.0中不推荐使用spark.shuffle.memoryFraction，如果我没有缓存任何>=或Dataframe，那么设置MEMORY_AND_DISK就不会有帮助了，对吧因此，我的问题是：在Spark >= 1.6.0中加入大型数据格

浏览 2提问于2016-06-23得票数 12

回答已采纳

2回答

spark streaming中的缓存是否提高了性能

、

因此，我在kafka流中的同一rdd上执行多个操作。缓存RDD会提高性能吗？

浏览 1提问于2015-05-15得票数 5

1回答

ADF数据流正在创建零字节文件

、、、

我的ADF数据流中有一个条件拆分。成功将行放到SQL数据库中，失败条件收集所有不正确的记录，并将它们放入CSV (分隔文本)类型的接收器中。我怎么才能阻止它呢？

浏览 5提问于2021-07-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Apache Spark Streaming :如何比较2个数据流中的2个数据帧

如何有效地对Google云数据流进行大型矩阵乘法？

在数据流中缓存数据集

Hadoop纱簇性能调整