Spark:无法构建大于8G的HashedRelation

Spark是一个开源的分布式计算框架，用于处理大规模数据集的计算任务。它提供了高效的数据处理能力和易于使用的编程接口，可以在大规模集群上进行并行计算。

对于无法构建大于8G的HashedRelation的问题，可以从以下几个方面进行解答：

概念：HashedRelation是Spark中的一种数据结构，用于表示关联操作中的哈希关系。它通过将关联键的哈希值映射到内存中的桶中，来加速关联操作的执行。当数据量较大时，可能会出现无法构建大于8G的HashedRelation的情况。
分类：HashedRelation属于Spark中的关联操作的一部分，用于处理数据集之间的关联关系。
优势：HashedRelation在关联操作中具有高效的性能，可以加速数据集之间的关联计算。它可以将关联键的哈希值映射到内存中的桶中，从而减少了磁盘IO的开销，提高了计算速度。
应用场景：HashedRelation适用于需要进行大规模数据集之间的关联计算的场景，例如数据清洗、数据分析、机器学习等领域。
推荐的腾讯云相关产品：腾讯云提供了一系列与Spark相关的产品和服务，例如腾讯云EMR（Elastic MapReduce）和腾讯云CVM（云服务器），可以帮助用户快速搭建和管理Spark集群，进行大规模数据处理和分析。

腾讯云EMR产品介绍链接：https://cloud.tencent.com/product/emr 腾讯云CVM产品介绍链接：https://cloud.tencent.com/product/cvm

需要注意的是，以上答案仅供参考，具体的解决方案可能需要根据具体情况进行调整和优化。

Spark:无法构建大于8G的HashedRelation

、

not build a HashedRelation that is larger than 8Gat org.apache.spark.sql.execution.joins.LongToUnsafeRowMap.append(HashedRelation.scala:570) at org.apache.

浏览 44提问于2020-07-02得票数 0

回答已采纳

1回答

java.lang.OutOfMemoryError: Apache Spark中的Java堆空间

、

我试着在Spark中做一个算法(快速傅立叶变换，FFT)。我使用的是32位的Ubuntu系统和Spark-1.6.0。我使用的是Scala IDE eclipse。我使用本地模式和独立模式。当数据小于32m时，工作正常，但当数据大于64m时，则无法工作。在代码中创建SparkConf时，我还尝试添加.set("spark.exetutor.memory", "8g")。但这两种方法都不起作用。

浏览 1提问于2016-10-19得票数 1

1回答

Apache火花配置

、

我在运行火花配置时面临内存问题，我已经将设置更改为最大内存，但仍然无法工作。请查看以下问题:命令- spark2-shell --conf "spark.default.parallelism=40" --executor.memory 8g --driver-memory 32g3:在126935 ms错误scheduler.TaskSetManager之后执行程序心跳超时:23个任务的序列化结果的总大小(1040.5 MB)大于spark

浏览 8提问于2017-08-02得票数 0

1回答

无法设置火花驱动程序内存

、、

我正在构建一个火花(运行在ApacheSparkVersion2.4.3上)会话，如下所示spark_session.conf.set('spark.executor.cores', '3') spark_session.conf.set('<

浏览 1提问于2020-02-26得票数 1

回答已采纳

1回答

在sparklyr中加载文件时出现Java错误

、、

我正在使用"sparklyr“包与R一起开发Spark。在sparklyr中加载文件时出现以下错误：library(sparklyr) 显示的错误： at sun

浏览 1提问于2016-11-21得票数 2

1回答

spark.driver.memory没有作用吗？

、、、

启动Spark应用程序，然后转到Spark查看我看到的环境变量重新启动Docker容器，再次检查我的<

浏览 2提问于2021-08-06得票数 0

1回答

Breeze pinv (摩尔-彭罗斯)伪逆函数使用Spark给出OutOfMemory误差

、、、

我正在Spark中开发一种极端学习机类型的神经网络，它需要使用Moore-Penrose伪逆函数。这在任何Spark库中都不可用，所以我使用Breeze，它需要将Spark数据结构转换为Breeze矩阵。当我走到beta = pinv(H) * T的时候，所有的东西都失败了，出现了一个面向对象的异常(我认为在Spark中是不可能的)。你知道为什么吗？ pinv是微风中的摩尔-彭罗斯伪逆。我的笔记本电脑有8G<

浏览 0提问于2017-09-03得票数 1

1回答

导致TypeError：'int‘对象不可迭代的Lambda函数

、、、、

我正在使用一个API来构建一个IDFs模型，但是我在lambda函数中遇到了一些错误，我无法解决这些错误。)): (term, df))\中，这是错误消息：这就是我叫DocumentFrequencies.collect()的时候得到的这些都是火花公子的吐露： conf = pyspark.SparkConf().setAll([('spark.executor.memory&

浏览 0提问于2018-05-17得票数 1

回答已采纳

1回答

无法将大型spark数据帧保存为pickle

、、

我有很大的数据帧(略高于20G)，试图将其保存为pickle对象，以便稍后在另一个进程中使用。我已经尝试了不同的配置，下面是最新的配置。spark_driver_maxResultSize='8g' spark_kryoserializer_buffer_max='1g'

浏览 35提问于2019-05-15得票数 0

1回答

训练大数据时引擎挂起

当训练400000条记录(大约200MB)时，我遇到了als，类似的产品模板的问题。它在第13阶段停止：===================== 0+1/2 有人能帮我吗？

浏览 4提问于2016-01-07得票数 0

1回答

星火2.4 com.databricks.spark.avro故障排除

、、、

当我用spark 2.2.0提交它时，它工作得很好，但是当我用版本2.4.0提交它时，它却没有启动。只有SPARK_HOME才能带来不同的结果。\--driver-memory 8g \--param1 ${BLA} \顺便说一句: jar是以dependency 2.1作为依赖关系构建的。有什么想法吗？编辑：，我认为我的问题是

浏览 2提问于2019-01-28得票数 1

1回答

电子病历上的PySpark (Step/Job)不能连接到AWS数据目录，但齐柏林飞艇可以

、、

我已经安装了一个启用了数据目录的EMR集群当我使用齐柏林飞艇时，我可以访问数据目录，但是我提交的作业/步骤如下： aws emr add-steps --cluster-id j-XXXXXX--steps "Type=spark,Name=Test,Args=[--deploy-mode,cluster,--master,yarn,--conf,spark.yarn.submit.waitAppCompletion=false,--num-executors,2,--executor-co

浏览 0提问于2019-05-24得票数 3

回答已采纳

2回答

从PowerShell脚本将Json传递给Python

、、

spark-submit `--master local[*] `-main.py `当$param='{ \"\"job_start\"\": \"\"jdbc:mysql://127.0.0.1:3307/test\"\"}'正常工作时，python接收有效<e

浏览 5提问于2020-05-06得票数 1

2回答

在存储从火花流到Cassandra的数据时发出

、、、

SparkStreaming上下文从RabbitMQ读取流的间隔为30秒。我希望修改cassandra中存在的几列对应行的值，然后将数据存储回Cassandra。为此，我需要检查特定主键的行是否存在于Cassandra中，如果是，请获取它并执行必要的操作。但问题是，我在驱动程序上创建了StreamingContext，并且在Worker上执行了操作。因此，他们无法获得StreamingContext对象的原因，因为它没有被序列化并发送给工人，我得到了这个错误：java.

浏览 0提问于2016-09-07得票数 3

1回答

如何在每个Worker中加载Spark* Dataframe中的数据，以防止将大量数据加载到主节点*

、、

我可以使用以下代码从Master节点中的Oracle数据库中读取数据： .builder .config("spark.executor.memory", "8g") .config("spark.executor.cores，无法放

浏览 1提问于2021-10-16得票数 2

1回答

设置星火上下文配置，优先排序火花-提交

、、、

我正在构建一个被坞化的spark应用程序，它将通过一个entrypoint.sh文件运行，该文件反过来运行一个spark-submit --master local \ --conf "spark.driver.extraJavaOptions具有优先权，因此对于以两种方式设置的任何配置，只有使用Sp

浏览 1提问于2021-06-01得票数 1

回答已采纳

1回答

在Yarn上运行spark作业时，HDFS Excel行减少

、、、、

当在本地(IntelliJ IDEA)中运行相同的作业时，输出计数是正常的(例如，eg -55)。但是当在Yarn上使用spark-submit提交它时，只得到了几行(第12行)。spark2-submit --master yarn --deploy-mode client --num-executors 5 --executor-memory 5G --executor-cores5 --driver-memory 8G --class com.test.Main --packages com.cre

浏览 6提问于2021-06-23得票数 0

1回答

spark命令会导致java错误。

、、

我是新来的火花。尝试在具有java版本1.7.0_80的本地机器(mac)中进行安装。取消文件，将文件夹重命名为spak，并将其移动到/usr/local/spark Rajeev: spark rajeevnair$ bin/spark-shell Exception in thread &quo

浏览 0提问于2018-07-03得票数 0

1回答

为什么我的Spark运行得比纯Python慢？性能比较

、、、、

我试图用Spark在我的数据框上做一些pandas操作，令人惊讶的是，它比纯Python慢(即在Python中使用pandas包)。我的Spark比纯Python慢得多，可能有几个原因： 1)我的数据集大约有220,000条记录，24 MB，这不是一个足够大的数据集，无法显示Spark的缩放优势。2)我的spark在本地运行，我应该在类似Amazon EC的环境中

浏览 1提问于2016-01-06得票数 12

回答已采纳

5回答

如何在Spark2.0中使用pyspark构建一个sparkSession？

、、、

我刚接触到spark 2.0；到目前为止，我一直在使用spark 1.6.1。有没有人能帮我用pyspark (python)设置一个sparkSession？我知道网上提供的scala示例是类似的()，但我希望用python语言直接演练。我的特殊情况:我正在从齐柏林飞艇的spark笔记本中加载来自S3的avro文件。然后构建df并在其中运行各种pyspark和sql查询。我所有的旧查询都使用sqlContext。并且可以毫无问题地构建</e

浏览 4提问于2016-09-30得票数 41

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark:无法构建大于8G的HashedRelation

相关·内容

Spark:无法构建大于8G的HashedRelation

java.lang.OutOfMemoryError: Apache Spark中的Java堆空间

Apache火花配置

无法设置火花驱动程序内存

在sparklyr中加载文件时出现Java错误

spark.driver.memory没有作用吗？

Breeze pinv (摩尔-彭罗斯)伪逆函数使用Spark给出OutOfMemory误差

导致TypeError：'int‘对象不可迭代的Lambda函数

无法将大型spark数据帧保存为pickle

训练大数据时引擎挂起

星火2.4 com.databricks.spark.avro故障排除

电子病历上的PySpark (Step/Job)不能连接到AWS数据目录，但齐柏林飞艇可以

从PowerShell脚本将Json传递给Python

在存储从火花流到Cassandra的数据时发出

如何在每个Worker中加载Spark* Dataframe中的数据，以防止将大量数据加载到主节点*

设置星火上下文配置，优先排序火花-提交

在Yarn上运行spark作业时，HDFS Excel行减少

spark命令会导致java错误。

为什么我的Spark运行得比纯Python慢？性能比较

如何在Spark2.0中使用pyspark构建一个sparkSession？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐