腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
是
分布式
文件存储(HDFS/Cassandra/S3等)是否强制
spark
在群集模式下运行?若有,原因为何?
、
、
是
分布式
文件存储(HDFS/Cassandra/S3等)是否强制
spark
在群集模式下运行?若有,原因为何?
Spark
是用于计算海量数据的
分布式
数据处理引擎。
Spark
从mysql读取数据,并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行
spark
需要
分布式
文件存储?
浏览 3
提问于2021-03-25
得票数 0
2
回答
Apache Cassandra和
Spark
、
、
但我是Apache Cassandra和
Spark
的新手。我学习了Cassandra的CQL,文档说CQL不支持连接和子查询,因为Cassandra的
分布式
数据特性使它在Cassandra中的效率太低。因此,我的结论是,在
分布式
数据环境中,连接和子查询不受支持,因为它们会严重影响性能。 但后来我学习了
Spark
,它也可以处理
分布式
数据,但
Spark
支持所有SQL功能,包括连接和子查询。尽管
Spark
不是数据库系统,因此甚至没有索引...那么,我的问题是,
Spar
浏览 0
提问于2016-05-19
得票数 1
1
回答
如何使用Docker创建
分布式
spark
集群
、
、
我正在尝试使用这个docker-compose创建一个只有一个工人的
分布式
spark
集群 image: gettyimages/
spark
:2.0.0-hadoop-2.7:
spark
-master
SPARK
_CONF_DIR: /conf expose:/data:/tmp/data
浏览 0
提问于2018-09-19
得票数 3
1
回答
Apache livy for Dask
分布式
替代方案
、
、
Dask是一个纯粹的基于python的
分布式
计算平台,类似于Apache
Spark
。有没有办法通过REST API运行和监控Dask
分布式
作业/任务,比如Apache Livy for Apache
Spark
?
浏览 41
提问于2021-09-26
得票数 1
2
回答
分布式
互相关矩阵计算
、
、
、
、
如何计算大型(>10TB)数据集的皮尔逊互相关矩阵,可能是
分布式
的?任何有效的
分布式
算法建议都将受到赞赏。更新:我阅读了apache
spark
mlib关联的实现/home/d066537/codespark/
spark
/mllib/src/main/scala/
spark
/mllib/src/main/scala/
浏览 20
提问于2017-02-18
得票数 9
1
回答
SPARK
中的用户定义函数(UDF)是否以
分布式
方式工作?
、
、
、
如果数据存储在不同的节点中,或者将所有数据累加到主节点以进行处理,那么
SPARK
中的用户定义函数(UDF)是以
分布式
方式工作吗?如果它以
分布式
方式工作,那么我们是否可以将python中的任何函数(无论是预定义的还是用户定义的)转换为
spark
,如下所述:
spark
.udf.register("myFunctionName",
浏览 2
提问于2020-08-03
得票数 3
回答已采纳
1
回答
在HDFS或S3以外的
分布式
文件系统上运行
Spark
或Flink
、
有没有一种方法可以在
分布式
文件系统上运行
Spark
或Flink,比如lustre,或者除了HDFS或者S3之外的任何东西。因此,我们可以使用Unix集群创建
分布式
文件系统框架,我们是否可以在集群模式下运行
spark
/flink,而不是独立运行。
浏览 1
提问于2020-03-31
得票数 0
1
回答
在pySpark中,如何有效地替换字符串数据帧中多个正则表达式模式的所有实例?
、
、
、
我有权访问Hue (Hive,Impala)和Zeppelin (
Spark
,Python和库)来执行此操作。= df.rdd.map(lambda line: removeNames(line, nameList)) rdd.toDF().show() 代码正在执行,但即使我将输入文本限制为1000行(对于
Spark
浏览 23
提问于2019-05-30
得票数 0
0
回答
如何在集群模式下运行
spark
分布式
,但在本地获取文件?
、
、
、
有没有可能让
spark
接受本地文件作为输入,但对其进行
分布式
处理?Py4JJavaError: An error occurred while calling z:org.apache.
spark
.api.python.PythonRDD.collectAndServe. : org.apache.
spark
.SparkException: Job
浏览 12
提问于2016-07-06
得票数 1
回答已采纳
1
回答
Scala:我如何返回拼花文件(在adls中)的Option[Dataframe] -而不使用
spark
/sql会话
下面的链接可能是提示,但最好能看到一些这样做的示例代码
浏览 0
提问于2018-09-13
得票数 0
回答已采纳
1
回答
Spark
作业仅在主服务器上运行
、
、
、
我有几个python作业需要用
spark
来执行。不过,python代码并没有使用任何
spark
特定的
分布式
库。它只是使用pandas、scipy和sklearn来操作数据。我使用以下命令提交要触发的作业:
spark
-submit --master
spark
://ip:7077 python_code.py我知道我的代码没有使用
spark</e
浏览 2
提问于2016-04-29
得票数 0
1
回答
Apache
Spark
可以在ZFS上运行吗?
、
、
我正在做一些关于ZFS的研究,如果它可以用作
分布式
处理框架的一个组件。我试图回答的主要问题是-如果数据驻留在zfs中,Apache
Spark
是否会以高效、
分布式
的方式运行? 即。HDFS上的
Spark
有数据局部性的概念,ZFS也可以这样说吗?
浏览 8
提问于2018-01-26
得票数 1
回答已采纳
1
回答
H20机器学习库中火花水的优点
、
、
、
我知道H20是在星火环境下执行的,所以它可以使用火花引擎(和所有的星火
分布式
结构)来分配计算,但是就性能而言,H2O已经是一个
分布式
和可伸缩的机器学习库了。而且,独立版本的H2O真的能够管理计算机集群上的
分布式
处理吗?
浏览 1
提问于2017-12-19
得票数 1
回答已采纳
1
回答
连接到tableau中的
spark
数据框
、
、
、
我们试图通过
spark
SQL连接在tableau中生成报告,但我发现我们最终连接到了hive meta-store。 如果是这样的话,这种新的
spark
SQL连接有什么优势呢?有没有一种方法可以使用
spark
SQL从tableau连接到持久的
spark
数据帧。
浏览 0
提问于2016-02-05
得票数 0
1
回答
如何在jvm之间分发代码
、
、
、
一些
分布式
计算引擎,如
Spark
或Flink,能够在计算机和jvm之间分发代码,例如(在scala中使用
spark
): sc.parallelize(1 to 10).map(i => i+1).collect另外,如果有人能给我指出一些现有的
分布式
计算框架(如
Spark
/Flink )中与此问题相关的源代码(类),我将不胜感激
浏览 4
提问于2018-04-03
得票数 2
1
回答
缩放基于Java的树
、
、
、
、
首先想到的是
Spark
。我对它的理解是,
Spark
对事件窗口进行批量处理--几乎去掉了“流中”的部分。时间在这里是非常关键的。 所以我在考虑利用Hadoop的文件系统。
浏览 0
提问于2017-06-07
得票数 0
1
回答
什么时候我们应该/不应该在
Spark
中序列化一个类?
、
我有一个类,它从HDFS中的文件中读取数据,并尝试从该文件中创建图形。我在类初始化中对文件进行了一些转换,除非我使类可序列化,否则这些转换是不起作用的。 extends java.io.Serializable { records.cach
浏览 1
提问于2015-08-19
得票数 2
1
回答
“
分布式
数据处理”和“
分布式
计算”有什么区别?
、
在学习hadoop和
spark
的过程中,我遇到了“
分布式
数据处理”和“
分布式
计算”。 你可否让我知道两者是相同的,还是指不同的概念?
浏览 0
提问于2020-05-06
得票数 0
回答已采纳
1
回答
为apache
Spark
编写并行代码
、
、
有没有一套我应该遵循的标准规则,以确保为
Spark
编写的Scala代码能够并行运行?我发现自己在编写
Spark
代码,其中包括对map和filter等函数的调用,我认为这些函数将以并行/
分布式
方式运行。但实际上,我不知道如何测试这些函数是否并行/
分布式
运行。有没有专门为
Spark
提供的解释这一点的文本,或者可以应用于
Spark
的通用文本? 这个问题有两个不同的答案:。一个答案声称另一个答案不是并行运行的。但我不确定为什么偏爱一种实现而不是另一种。
浏览 2
提问于2014-10-30
得票数 0
1
回答
如何传递命令行参数来触发-shell scala脚本?
、
、
我想使用以下命令在shell中运行scala脚本:它在没有任何程序参数的情况下运行良好。但是,如果我想为file.scale添加一些命令行参数。引用scala 中的操作方式,我尝试了以下方法:我试图检索这些论点,但失败了,如下所示 var input = args
浏览 4
提问于2016-01-13
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop及Spark 分布式HA运行环境搭建
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
走进大数据 Spark-Spark streaming
Spark实战(5)_Spark Core核心编程
Spark及Spark Streaming 核心原理及实践
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券