org.apache.spark.shuffle.FetchFailedException: java.lang.OutOfMemoryError:直接缓冲内存,在org.apache.spark.storage.ShuffleBlockFetcherIterator.throwFetchFailedException)( org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:297) at org.apa
我试着理解如何使用Spark,但总是有一些问题,所以也许有人可以建议我读什么等等。我试着阅读火花文档和学习火花-O‘’Reilly媒体书,但找不到任何解释,我们需要多少内存来处理不同大小的网络等等。(每1台机器有1台工人,每台机器有4Gb内存):at org.apache.spark.rdd.RDD$$anonfun$15.apply(RDD.scala:631)
at org.apache.spark.rdd.
我正在运行Spark1.5.1在独立(客户端)模式下使用Pyspark。我正在尝试启动一个内存似乎很重的作业(也就是说,在python中,这不应该是executor-memory设置的一部分)。然而,两个执行程序被启动,每个有30g的内存和40个核心。为什么火花会这么做?我试图限制内核的数量,以使每个内核有更多的内存,我如何执行这一点呢?现在,我的应用程序因为占用太多内存而被淘汰。(RDD.scala:297)
at org.apache.spark.Cache