spark集群查看rdd - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

您可以在多群集节点中运行Java-Spark应用程序(桌面)吗

、、、

我用Java实现了一个使用Apache Spark处理和转换数据的脚本。我希望在多台机器(多集群节点)上运行此脚本，但我找不到任何关于如何在Java中为脚本执行此操作的文档。

浏览 20提问于2020-09-06得票数 0

回答已采纳

1回答

Spark是否使用数据局部性？

、、、

我在试着理解Apache Spark的内部结构。我想知道在从InputFormat读取或写入OutputFormat (或其他由Spark原生支持且不是从MapReduce派生的格式)时，Spark是否使用了一些机制来确保数据的局部性。其中包含数据，因此Spark尝试将任务分配给执行器，以尽可能减少网络传输。在写作的情况下，这样的机制是如何工作的？有没有办法告诉spark根据输出接收器(目标NoSQL数据库，本地或通过OutputFormat)所期望的数据分布来优化数据局部性的方式来对RDD</

浏览 1提问于2014-12-24得票数 13

2回答

在亚马逊EC2上使用HDFS和Apache Spark

、、、、

我使用spark EC2脚本设置了spark集群。我设置了集群，现在正在尝试将一个文件放到HDFS上，这样我就可以让我的集群工作了。 at org.apache.spark.rdd.RDD.partitions(RDD.scala:217) at org.apache.spark.rdd.MapParti

浏览 1提问于2015-06-08得票数 0

1回答

持久化星火RDD在另一个星火外壳中不可用

、、

我们有一个Spark-1.1.0独立的2节点集群，在该集群上已经使用Spark创建了一个Spark。RDD已被持久化(MEMORY_ONLY)。我无法使用sc.getPersistentRDDs()从另一个shell检索这个RDD。我有遗漏什么吗？

浏览 2提问于2014-10-29得票数 1

回答已采纳

1回答

在这种情况下，火花是如何内部工作的？

、、

我有一个带有四核的单机processor.Here是我的理解火花如何在这里实现并行 Spark将在单线程中从文件中读取切割机块。不确定是否有默认的块大小或取决于文件大小。

浏览 3提问于2017-06-13得票数 0

2回答

为什么foreach没有给驱动程序带来任何东西？

我用spark shell写的这个程序array.foreach(x => println(x))for(num <- array.take(4)) {}我怎样才能使rdd上的foreach工作？

浏览 0提问于2015-03-02得票数 15

回答已采纳

1回答

将org.apache.spark.rdd.RDD[String]转换为并行化集合

、、、

为此，我需要运行以下命令：data: org.apache.spark.rdd.RDD[Stringsc.parallelize(data)<console>:40: error: type mismatch; found : org.apache.spark.rdd.RD

浏览 23提问于2016-09-26得票数 1

回答已采纳

1回答

在spark-submit命令中，是否存在用于控制并行级别的标志

、、、、

在Apache Spark中，对于"Spark-submit“命令，是否存在一个”标志“来控制并行级别。

浏览 0提问于2016-08-27得票数 0

1回答

火花2.0:星星之火-信息理论-特性选择java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix

、、、、

我试图使用InfoGain第三方()软件包的MRMR功能.但是我的集群是2.0，我得到了这个异常。即使我添加了所有必需的Jar文件来激发类路径。但它仍然不起作用。虽然它在本地机器上正常工作，但不在集群上工作。670)at org.apache.spark.rdd.RDD.iterator(RDD.scal

浏览 0提问于2018-03-28得票数 0

回答已采纳

1回答

KMeansModel.clusterCenters返回空

、、、、

我正在使用AWS胶水在我的数据集上执行Kmeans集群。我不仅希望找到集群标签，还希望找到集群中心。我找不到晚一点的。import org.apache.spark.sql.") def getDat

浏览 0提问于2018-09-25得票数 0

1回答

spark是否创建了两个工作在相同逻辑上的数据集或阶段？

、、、

我发现，内部spark创建了两个RDD，即rdd__0和rdd__1，它们工作在相同的数据上并完成所有处理。有谁能帮助找出为什么不同的数据集会两次调用调用方法。Exception { conf.set(“spark.cassand

浏览 3提问于2015-05-29得票数 0

1回答

Spark:无法构建大于8G的HashedRelation

、

当我在一个80节点的集群上运行Azure HDInsight 3.6时，我在Spark 2.3中遇到了这个异常： java.lang.UnsupportedOperationException: Can(RDD.scala:324)at org.apache.spark.rdd.MapPartitionsRDD.compute(M

浏览 44提问于2020-07-02得票数 0

回答已采纳

2回答

找不到AWS Glue RDD.saveAsTextFile()引发类org.apache.hadoop.mapred.DirectOutputCommitter

、、、

:112)org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(RDD.scala:363)org.apache

浏览 0提问于2020-12-22得票数 1

2回答

星火批处理以在两个cassandra簇之间迁移数据

、、

我使用星火将一些数据从一个cassandra表移动到另一个集群上的cassandra表中。我为其中一个源集群指定了cassandra配置，如下所示：spark.cassandra.connection.host: spark.cassandra.auth.username:spark.cassandra.connectio

浏览 3提问于2019-11-07得票数 2

回答已采纳

2回答

获取pyspark中的分区数。

、、、

它被划分为：现在，我希望通过使用但它返回的数目(15642个分区)比预期的

浏览 3提问于2019-10-19得票数 1

回答已采纳

1回答

尝试使用spark* shell对本地HDFS上托管的文件中的行数进行计数时出现HadoopRDD错误*

、、、、

我是Apache Spark、Scala和Hadoop工具的新手。更进一步，我将一个示例文件上传到HDFS，并使用Hadoop localhost验证它是否可用。(HadoopRDD.scala:329) at org.apache.spark</e

浏览 0提问于2018-06-23得票数 1

1回答

Spark无法读取本地文件

、、、

我在EMR集群中的所有Spark节点上都有一个本地文件，具有以下权限：我以ec2-user身份运行集群，使用yarn调度器。org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:101) at org.apache.spark.rdd.RDD

浏览 2提问于2016-06-21得票数 0

1回答

如何使用spark和ElasticSearch从/写入不同的elasticsearch集群？

、、、、

我很高兴地使用了spark和elasticsearch (与elasticsearch-hadoop驱动程序)和几个巨大的集群。有时，我希望将整个数据集群提取出来，处理每个文档，并将它们放到不同的Elasticsearch (ES)集群中(是的，数据迁移也是这样)。目前，无法将ES数据从集群中读取到RDD中，并使用spark + elasticsearch-hadoop将RDD写入另一个RDD中，因为这将涉及从RDD

浏览 9提问于2015-03-12得票数 6

回答已采纳

1回答

DataProc上的执行器心跳超时

、、

我正在尝试在一个Google DataProc集群上安装Spark (2.0.0)的ml模型。当拟合模型时，我会收到执行者心跳超时错误。我怎么解决这个问题？我作为解决方案阅读:设置正确的设置、重新分区、缓存和获得一个更大的集群。我能做什么，最好不设置一个更大的集群？(创建更多/更少的分区？缓存更少？调整设置？)我的背景：在Google DataProc集群上火花2.0.0 :1主处理器和2名工作人员都具有相同的规格: n1-highmem-8 -> 8 vCPU，52.0GB内存-500

浏览 3提问于2016-09-03得票数 0

1回答

火花RDD循环容错

、、、、

RDD通过谱系图提供容错功能，这就是星火成为容错的方式那么，在使用spark数据帧时，spark是否会在后台创建RDDs以实现容错呢？一般来说，如果我在星火集群上执行任何活动/转换，那么spark是否使用RDD？

浏览 3提问于2022-11-17得票数 0

点击加载更多

您可以在多群集节点中运行Java-Spark应用程序(桌面)吗

Spark是否使用数据局部性？

在亚马逊EC2上使用HDFS和Apache Spark

持久化星火RDD在另一个星火外壳中不可用

在这种情况下，火花是如何内部工作的？

为什么foreach没有给驱动程序带来任何东西？

将org.apache.spark.rdd.RDD[String]转换为并行化集合

在spark-submit命令中，是否存在用于控制并行级别的标志

火花2.0:星星之火-信息理论-特性选择java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix

KMeansModel.clusterCenters返回空

spark是否创建了两个工作在相同逻辑上的数据集或阶段？

Spark:无法构建大于8G的HashedRelation

找不到AWS Glue RDD.saveAsTextFile()引发类org.apache.hadoop.mapred.DirectOutputCommitter

星火批处理以在两个cassandra簇之间迁移数据

获取pyspark中的分区数。

尝试使用spark* shell对本地HDFS上托管的文件中的行数进行计数时出现HadoopRDD错误*

Spark无法读取本地文件

如何使用spark和ElasticSearch从/写入不同的elasticsearch集群？

DataProc上的执行器心跳超时

火花RDD循环容错

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐