腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
您可以在多群集节点中运行Java-
Spark
应用程序(桌面)吗
、
、
、
我用Java实现了一个使用Apache
Spark
处理和转换数据的脚本。我希望在多台机器(多
集群
节点)上运行此脚本,但我找不到任何关于如何在Java中为脚本执行此操作的文档。
浏览 20
提问于2020-09-06
得票数 0
回答已采纳
1
回答
Spark
是否使用数据局部性?
、
、
、
我在试着理解Apache
Spark
的内部结构。我想知道在从InputFormat读取或写入OutputFormat (或其他由
Spark
原生支持且不是从MapReduce派生的格式)时,
Spark
是否使用了一些机制来确保数据的局部性。其中包含数据,因此
Spark
尝试将任务分配给执行器,以尽可能减少网络传输。 在写作的情况下,这样的机制是如何工作的?有没有办法告诉
spark
根据输出接收器(目标NoSQL数据库,本地或通过OutputFormat)所期望的数据分布来优化数据局部性的方式来对
RDD</
浏览 1
提问于2014-12-24
得票数 13
2
回答
在亚马逊EC2上使用HDFS和Apache
Spark
、
、
、
、
我使用
spark
EC2脚本设置了
spark
集群
。我设置了
集群
,现在正在尝试将一个文件放到HDFS上,这样我就可以让我的
集群
工作了。 at org.apache.
spark
.
rdd
.
RDD
.partitions(
RDD
.scala:217) at org.apache.
spark
.
rdd
.MapParti
浏览 1
提问于2015-06-08
得票数 0
1
回答
持久化星火
RDD
在另一个星火外壳中不可用
、
、
我们有一个
Spark
-1.1.0独立的2节点
集群
,在该
集群
上已经使用
Spark
创建了一个
Spark
。
RDD
已被持久化(MEMORY_ONLY)。我无法使用sc.getPersistentRDDs()从另一个shell检索这个
RDD
。我有遗漏什么吗?
浏览 2
提问于2014-10-29
得票数 1
回答已采纳
1
回答
在这种情况下,火花是如何内部工作的?
、
、
我有一个带有四核的单机processor.Here是我的理解火花如何在这里实现并行
Spark
将在单线程中从文件中读取切割机块。不确定是否有默认的块大小或取决于文件大小。
浏览 3
提问于2017-06-13
得票数 0
2
回答
为什么foreach没有给驱动程序带来任何东西?
我用
spark
shell写的这个程序array.foreach(x => println(x))for(num <- array.take(4)) {}我怎样才能使
rdd
上的foreach工作?
浏览 0
提问于2015-03-02
得票数 15
回答已采纳
1
回答
将org.apache.
spark
.
rdd
.
RDD
[String]转换为并行化集合
、
、
、
为此,我需要运行以下命令:data: org.apache.
spark
.
rdd
.
RDD
[Stringsc.parallelize(data)<console>:40: error: type mismatch; found : org.apache.
spark
.
rdd
.
RD
浏览 23
提问于2016-09-26
得票数 1
回答已采纳
1
回答
在
spark
-submit命令中,是否存在用于控制并行级别的标志
、
、
、
、
在Apache
Spark
中,对于"
Spark
-submit“命令,是否存在一个”标志“来控制并行级别。
浏览 0
提问于2016-08-27
得票数 0
1
回答
火花2.0:星星之火-信息理论-特性选择java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix
、
、
、
、
我试图使用InfoGain第三方()软件包的MRMR功能.但是我的
集群
是2.0,我得到了这个异常。即使我添加了所有必需的Jar文件来激发类路径。但它仍然不起作用。虽然它在本地机器上正常工作,但不在
集群
上工作。670)at org.apache.
spark
.
rdd
.
RDD
.iterator(
RDD
.scal
浏览 0
提问于2018-03-28
得票数 0
回答已采纳
1
回答
KMeansModel.clusterCenters返回空
、
、
、
、
我正在使用AWS胶水在我的数据集上执行Kmeans
集群
。我不仅希望找到
集群
标签,还希望找到
集群
中心。我找不到晚一点的。import org.apache.
spark
.sql.") def getDat
浏览 0
提问于2018-09-25
得票数 0
1
回答
spark
是否创建了两个工作在相同逻辑上的数据集或阶段?
、
、
、
我发现,内部
spark
创建了两个
RDD
,即
rdd
__0和
rdd
__1,它们工作在相同的数据上并完成所有处理。有谁能帮助找出为什么不同的数据集会两次调用调用方法。Exception { conf.set(“
spark
.cassand
浏览 3
提问于2015-05-29
得票数 0
1
回答
Spark
:无法构建大于8G的HashedRelation
、
当我在一个80节点的
集群
上运行Azure HDInsight 3.6时,我在
Spark
2.3中遇到了这个异常: java.lang.UnsupportedOperationException: Can(
RDD
.scala:324)at org.apache.
spark
.
rdd
.MapPartitionsRDD.compute(M
浏览 44
提问于2020-07-02
得票数 0
回答已采纳
2
回答
找不到AWS Glue
RDD
.saveAsTextFile()引发类org.apache.hadoop.mapred.DirectOutputCommitter
、
、
、
:112)org.apache.
spark
.
rdd
.PairRDDFunctions.saveAsHadoopFile(
RDD
.scala:363)org.apache
浏览 0
提问于2020-12-22
得票数 1
2
回答
星火批处理以在两个cassandra簇之间迁移数据
、
、
我使用星火将一些数据从一个cassandra表移动到另一个
集群
上的cassandra表中。我为其中一个源
集群
指定了cassandra配置,如下所示:
spark
.cassandra.connection.host:
spark
.cassandra.auth.username:
spark
.cassandra.connectio
浏览 3
提问于2019-11-07
得票数 2
回答已采纳
2
回答
获取pyspark中的分区数。
、
、
、
它被划分为:现在,我希望通过使用但它返回的数目(15642个分区)比预期的
浏览 3
提问于2019-10-19
得票数 1
回答已采纳
1
回答
尝试使用
spark
shell对本地HDFS上托管的文件中的行数进行计数时出现HadoopRDD错误
、
、
、
、
我是Apache
Spark
、Scala和Hadoop工具的新手。更进一步,我将一个示例文件上传到HDFS,并使用Hadoop localhost验证它是否可用。(HadoopRDD.scala:329) at org.apache.
spark</e
浏览 0
提问于2018-06-23
得票数 1
1
回答
Spark
无法读取本地文件
、
、
、
我在EMR
集群
中的所有
Spark
节点上都有一个本地文件,具有以下权限:我以ec2-user身份运行
集群
,使用yarn调度器。org.apache.
spark
.
rdd
.HadoopRDD.compute(HadoopRDD.scala:101) at org.apache.
spark
.
rdd
.
RDD
浏览 2
提问于2016-06-21
得票数 0
1
回答
如何使用
spark
和ElasticSearch从/写入不同的elasticsearch
集群
?
、
、
、
、
我很高兴地使用了
spark
和elasticsearch (与elasticsearch-hadoop驱动程序)和几个巨大的
集群
。有时,我希望将整个数据
集群
提取出来,处理每个文档,并将它们放到不同的Elasticsearch (ES)
集群
中(是的,数据迁移也是这样)。目前,无法将ES数据从
集群
中读取到
RDD
中,并使用
spark
+ elasticsearch-hadoop将
RDD
写入另一个
RDD
中,因为这将涉及从
RDD
浏览 9
提问于2015-03-12
得票数 6
回答已采纳
1
回答
DataProc上的执行器心跳超时
、
、
我正在尝试在一个Google DataProc
集群
上安装
Spark
(2.0.0)的ml模型。当拟合模型时,我会收到执行者心跳超时错误。我怎么解决这个问题?我作为解决方案阅读:设置正确的设置、重新分区、缓存和获得一个更大的
集群
。我能做什么,最好不设置一个更大的
集群
?(创建更多/更少的分区?缓存更少?调整设置?)我的背景: 在Google DataProc
集群
上火花2.0.0 :1主处理器和2名工作人员都具有相同的规格: n1-highmem-8 -> 8 vCPU,52.0GB内存-500
浏览 3
提问于2016-09-03
得票数 0
1
回答
火花
RDD
循环容错
、
、
、
、
RDD
通过谱系图提供容错功能,这就是星火成为容错的方式 那么,在使用
spark
数据帧时,
spark
是否会在后台创建RDDs以实现容错呢?一般来说,如果我在星火
集群
上执行任何活动/转换,那么
spark
是否使用
RDD
?
浏览 3
提问于2022-11-17
得票数 0
点击加载更多
相关
资讯
什么是 Spark RDD?
Spark地基之RDD
Spark 核心编程RDD 行动算子
Spark SQL DataFrame与RDD交互
大数据之谜Spark基础篇,Spark RDD内幕详解
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券