腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Hadoop
:
spark
作业
无法
处理
小型
数据
集
、
我们的轨迹
数据
挖掘代码很快就完成了2M的
数据
,但由于许多失败的任务,它在20M这样的更大的
数据
上失败了。我们试图增加内存,但还是失败了。我们有3台机器集群,有4个核心和32 We。我们的配置是
spark
.executor.memory 26g
spark
.driver.memory 6g 当我们试图解决这个问题时,出现了错误信息
浏览 9
提问于2020-08-23
得票数 0
3
回答
性能比较: Hive和MapReduce
、
、
Hive提供了一个抽象层,用于java地图减少
作业
,因此与相比,它应该存在性能问题。使用运行时
数据
的实际用例场景将是真正的帮助. 谢谢
浏览 1
提问于2013-01-16
得票数 0
6
回答
Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么?
、
、
我正在使用Google Data Flow来实现一个ETL
数据
仓库解决方案。而且看起来DataProc比DataFlow便宜一点。
浏览 1
提问于2017-09-27
得票数 66
1
回答
Spark
vs
Hadoop
、
、
、
、
我有一个使用
Hadoop
或
Spark
编写大
数据
处理
应用程序的要求。我知道
Hadoop
对于批
处理
应用来说是最好的技术,而
Spark
对于分析应用来说是最好的技术。应用程序将获得一个输入文件和几个配置文件。现在,利益相关者建议使用
Spark
,因为他们认为
Spark
比MapReduce更快。但是我认为
Spark
不适合这个场景,因为它适用于分析应用,而不是批
处理
。此外,我只能在
Spark
中看
浏览 0
提问于2015-01-06
得票数 1
1
回答
我如何知道Apache
Spark
是否是合适的工具?
只是想知道,为了知道
Spark
是不是正确的工具,有没有什么问题可以问我们自己?我再一次花了一周的时间用Apache
Spark
实现了一个POC,以便与纯python代码进行性能比较,当我看到1/100的比率(更倾向于python)时,我感到困惑。我知道
Spark
是一个“大
数据
”工具,每个人都在说"
Spark
是
处理
TB/PB级
数据
的合适工具“,但我认为这不是唯一需要考虑的因素。简而言之,我的问题是,当给定小
数据
作为输入时,我
浏览 1
提问于2017-06-02
得票数 0
1
回答
Apache
Spark
优化
、
、
我正在使用
Spark
MLlib和Pyspark来完成我的
作业
,我需要证明它比传统的机器学习方法更好。我有一个
数据
集
,我正在对其运行Logistic回归,并且我正在寻找诸如精确度、精确度、召回率等指标。当在PySpark和一个普通的Python脚本中运行代码时,我意识到普通的puthon脚本会更快地完成执行,这不应该是这样的,因为
数据
集中有很多
数据
。我很快深入研究,并意识到
Spark
只有一个工人运行,并且只分配了一个核心。因此,我在
spark
-defa
浏览 3
提问于2019-12-02
得票数 0
2
回答
Apache Hive的实际工业应用是什么?
、
、
、
、
与其他
数据
仓库/
数据
库相比,Hive在业界真的不那么受欢迎吗?
浏览 0
提问于2018-02-09
得票数 0
3
回答
在
Hadoop
上使用MapReduce还是
Spark
进行批
处理
?
、
、
、
我知道MapReduce是一个在
Hadoop
上进行批
处理
的很好的框架。但是,
Spark
也可以用作
Hadoop
上的批
处理
框架,与MapReduce相比,它提供了可伸缩性、容错性和高性能。Cloudera,Hortonworks和MapR也开始在
Hadoop
上用纱线支持火花。 有什么想法吗?
浏览 2
提问于2014-10-31
得票数 5
1
回答
hadoop
临时表中的Dataproc冲突
、
、
我有一个流,它为不同的区域并行执行Dataproc集群上的火花
作业
。对于每个区域,它创建一个集群,执行星火
作业
,并在集群完成后删除它。
spark
作业
使用传递org.apache.
spark
.rdd.PairRDDFunctions.saveAsNewAPIHadoopDataset的方法将
数据
保存到BigQuery表中。
作业
将
数据
保存在多个表中,每个
作业
调用saveAsNewAPIHadoopDataset方法不止一次。问题是,有时我
浏览 0
提问于2018-03-13
得票数 0
回答已采纳
3
回答
以高效的方式从BigQuery读取到
Spark
?
、
、
、
当使用从BigQuery读取
数据
时,我发现它首先将所有
数据
复制到Google Cloud Storage。然后将这些
数据
并行读取到
Spark
中,但当读取大表时,复制
数据
阶段需要很长时间。那么有没有更有效的方法将
数据
从BigQuery读取到
Spark
中呢? 另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS,从GCS并行阅读)。复制阶段是否受
Spark
簇大小的影响,还是需要固定的时间?
浏览 6
提问于2017-01-04
得票数 7
回答已采纳
1
回答
多节点
hadoop
集群和在mesos上运行
hadoop
有什么区别?
、
我已经构建了一个多节点
hadoop
集群,然后我开始研究mesos和在mesos集群上运行
hadoop
的能力,所以我的问题是: 1) Should I run
hadoop
on mesos cluster
浏览 0
提问于2015-09-12
得票数 0
3
回答
Apache如何在
Hadoop
MapReduce上实现100倍的加速,以及在什么情况下?
、
、
、
Spark
的RDDs (弹性分布式
数据
集
)和DataFrames都能提供这种加速吗?对于上述一些场景,星火社区是否获得了任何基准测试结果?
浏览 2
提问于2015-12-05
得票数 1
1
回答
hadoop
map-reduce有没有比apache
spark
做得更好的用例?
、
、
我同意iterative和interactive编程范式使用
spark
比map-reduce更好。我也同意我们可以使用HDFS或者任何像HBase这样的
hadoop
数据
存储作为
Spark
的存储层。因此,我的问题是-在现实世界中,我们是否有任何用例可以说
hadoop
MR在这些上下文中比apache
spark
更好。与使用
spark
相比,
hadoop
MR仍然是进行批
处理
的好方法。 如果是这样的话,谁能告诉advantages of <
浏览 1
提问于2015-08-03
得票数 3
1
回答
从我的Azure Blob存储中获取Excel
数据
时发生的
数据
库火花放电错误
、
下面是我的代码:.option("header", "true") \ .option(":java.lang.NoClassDefFoundError:
无法
初始化com.crealytics.
spark
.excel.DefaultSource.createRelation(DefaultSource.scala:13) at com.crea
浏览 11
提问于2021-12-08
得票数 1
回答已采纳
1
回答
多次迭代mysqli无缓冲查询结果
、
、
问题:我需要多次迭代数组,但是mysqli_data_seek不能
处理
无缓冲的查询。
浏览 5
提问于2013-08-08
得票数 1
1
回答
似乎不能为火花而建蜂巢
、
、
None.org.apache.
spark
.sql.hive.HiveContext.\n', JavaObject id=o44))在我的本地机器上运行这些命令之前,我提交了导出
SPARK
_HIVE=TRUE,但是我看到消息说它不受欢迎,无论如何都会被忽略。
浏览 2
提问于2015-12-11
得票数 0
回答已采纳
3
回答
Spark
、
Hadoop
和Cassandra之间的关系是什么
、
、
、
我的理解是
Spark
是
Hadoop
的替代品。但是,当尝试安装
Spark
时,安装页面要求安装现有的
Hadoop
。我找不到任何可以澄清这种关系的东西。其次,
Spark
显然与Cassandra和Hive有很好的连接性。两者都有sql风格的界面。然而,
Spark
有它自己的sql。为什么要使用Cassandra/Hive而不是
Spark
的原生sql?
浏览 2
提问于2015-06-27
得票数 38
3
回答
在纱线客户端错误上运行火花壳
、
、
、
我有
Spark
1.6.1,我已经设置了现在,如果我运行星火外壳:$.short-circuit local reads feature cannot be used because libhadoop cannot be loaded.org.apache.
h
浏览 7
提问于2016-09-18
得票数 0
回答已采纳
1
回答
我在哪里运行
spark
- Standalone、
Hadoop
或Mesos
、
、
、
我正在学习
Spark
,但如果我必须在
Hadoop
/Yarn或Mesos上运行
spark
,我会感到困惑。 如果我在
Hadoop
/Mesos上运行,会有什么性能提升吗?
浏览 0
提问于2015-07-24
得票数 1
1
回答
比较内存中的集群计算系统
、
、
、
我正在从事
Spark
(Berkeley)集群计算系统的工作。在我的研究中,我了解了一些其他的内存系统,如Redis,Memcachedb等。如果有人能给我一个
SPARK
和REDIS (以及MEMCACHEDB)的比较,那就太好了。
Spark
在哪些情况下比其他内存系统更有优势?
浏览 4
提问于2013-05-22
得票数 10
回答已采纳
点击加载更多
相关
资讯
分享用小型数据集处理数据的7个小技巧
Spark 概述以及与Hadoop的关系
为什么工业大数据处理领域,我只看好“ApacheSpark”?
Hadoop和Spark的异同
Hadoop生态圈初识
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券