Hadoop: spark作业无法处理小型数据集

文章/答案/技术大牛

发布

1回答

、

我们的轨迹数据挖掘代码很快就完成了2M的数据，但由于许多失败的任务，它在20M这样的更大的数据上失败了。我们试图增加内存，但还是失败了。我们有3台机器集群，有4个核心和32 We。我们的配置是 spark.executor.memory 26g spark.driver.memory 6g 当我们试图解决这个问题时，出现了错误信息

浏览 9提问于2020-08-23得票数 0

3回答

性能比较: Hive和MapReduce

、、

Hive提供了一个抽象层，用于java地图减少作业，因此与相比，它应该存在性能问题。使用运行时数据的实际用例场景将是真正的帮助. 谢谢

浏览 1提问于2013-01-16得票数 0

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

、、

我正在使用Google Data Flow来实现一个ETL数据仓库解决方案。而且看起来DataProc比DataFlow便宜一点。

浏览 1提问于2017-09-27得票数 66

1回答

我有一个使用Hadoop或Spark编写大数据处理应用程序的要求。我知道Hadoop对于批处理应用来说是最好的技术，而Spark对于分析应用来说是最好的技术。应用程序将获得一个输入文件和几个配置文件。现在，利益相关者建议使用Spark，因为他们认为Spark比MapReduce更快。但是我认为Spark不适合这个场景，因为它适用于分析应用，而不是批处理。此外，我只能在Spark中看

浏览 0提问于2015-01-06得票数 1

1回答

我如何知道Apache Spark是否是合适的工具？

只是想知道，为了知道Spark是不是正确的工具，有没有什么问题可以问我们自己？我再一次花了一周的时间用Apache Spark实现了一个POC，以便与纯python代码进行性能比较，当我看到1/100的比率(更倾向于python)时，我感到困惑。我知道Spark是一个“大数据”工具，每个人都在说"Spark是处理TB/PB级数据的合适工具“，但我认为这不是唯一需要考虑的因素。简而言之，我的问题是，当给定小数据作为输入时，我

浏览 1提问于2017-06-02得票数 0

1回答

Apache Spark优化

、、

我正在使用Spark MLlib和Pyspark来完成我的作业，我需要证明它比传统的机器学习方法更好。我有一个数据集，我正在对其运行Logistic回归，并且我正在寻找诸如精确度、精确度、召回率等指标。当在PySpark和一个普通的Python脚本中运行代码时，我意识到普通的puthon脚本会更快地完成执行，这不应该是这样的，因为数据集中有很多数据。我很快深入研究，并意识到Spark只有一个工人运行，并且只分配了一个核心。因此，我在spark-defa

浏览 3提问于2019-12-02得票数 0

2回答

Apache Hive的实际工业应用是什么？

、、、、

与其他数据仓库/数据库相比，Hive在业界真的不那么受欢迎吗？

浏览 0提问于2018-02-09得票数 0

3回答

在Hadoop上使用MapReduce还是Spark进行批处理？

、、、

我知道MapReduce是一个在Hadoop上进行批处理的很好的框架。但是，Spark也可以用作Hadoop上的批处理框架，与MapReduce相比，它提供了可伸缩性、容错性和高性能。Cloudera，Hortonworks和MapR也开始在Hadoop上用纱线支持火花。有什么想法吗？

浏览 2提问于2014-10-31得票数 5

1回答

hadoop临时表中的Dataproc冲突

、、

我有一个流，它为不同的区域并行执行Dataproc集群上的火花作业。对于每个区域，它创建一个集群，执行星火作业，并在集群完成后删除它。spark作业使用传递org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopDataset的方法将数据保存到BigQuery表中。作业将数据保存在多个表中，每个作业调用saveAsNewAPIHadoopDataset方法不止一次。问题是，有时我

浏览 0提问于2018-03-13得票数 0

回答已采纳

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。复制阶段是否受Spark簇大小的影响，还是需要固定的时间？

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

多节点hadoop集群和在mesos上运行hadoop有什么区别？

、

我已经构建了一个多节点hadoop集群，然后我开始研究mesos和在mesos集群上运行hadoop的能力，所以我的问题是： 1) Should I run hadoop on mesos cluster

浏览 0提问于2015-09-12得票数 0

3回答

Apache如何在Hadoop MapReduce上实现100倍的加速，以及在什么情况下？

、、、

Spark的RDDs (弹性分布式数据集)和DataFrames都能提供这种加速吗？对于上述一些场景，星火社区是否获得了任何基准测试结果？

浏览 2提问于2015-12-05得票数 1

1回答

hadoop map-reduce有没有比apache spark做得更好的用例？

、、

我同意iterative和interactive编程范式使用spark比map-reduce更好。我也同意我们可以使用HDFS或者任何像HBase这样的hadoop数据存储作为Spark的存储层。因此，我的问题是-在现实世界中，我们是否有任何用例可以说hadoop MR在这些上下文中比apache spark更好。与使用spark相比，hadoop MR仍然是进行批处理的好方法。如果是这样的话，谁能告诉advantages of <

浏览 1提问于2015-08-03得票数 3

1回答

从我的Azure Blob存储中获取Excel数据时发生的数据库火花放电错误

、

下面是我的代码：.option("header", "true") \ .option("：java.lang.NoClassDefFoundError:无法初始化com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:13) at com.crea

浏览 11提问于2021-12-08得票数 1

回答已采纳

1回答

多次迭代mysqli无缓冲查询结果

、、

问题：我需要多次迭代数组，但是mysqli_data_seek不能处理无缓冲的查询。

浏览 5提问于2013-08-08得票数 1

1回答

似乎不能为火花而建蜂巢

、、

None.org.apache.spark.sql.hive.HiveContext.\n', JavaObject id=o44))在我的本地机器上运行这些命令之前，我提交了导出SPARK_HIVE=TRUE，但是我看到消息说它不受欢迎，无论如何都会被忽略。

浏览 2提问于2015-12-11得票数 0

回答已采纳

3回答

Spark、Hadoop和Cassandra之间的关系是什么

、、、

我的理解是Spark是Hadoop的替代品。但是，当尝试安装Spark时，安装页面要求安装现有的Hadoop。我找不到任何可以澄清这种关系的东西。其次，Spark显然与Cassandra和Hive有很好的连接性。两者都有sql风格的界面。然而，Spark有它自己的sql。为什么要使用Cassandra/Hive而不是Spark的原生sql？

浏览 2提问于2015-06-27得票数 38

3回答

在纱线客户端错误上运行火花壳

、、、

我有Spark1.6.1，我已经设置了现在，如果我运行星火外壳：$.short-circuit local reads feature cannot be used because libhadoop cannot be loaded.org.apache.h

浏览 7提问于2016-09-18得票数 0

回答已采纳

1回答

我在哪里运行spark* - Standalone、Hadoop或Mesos*

、、、

我正在学习Spark，但如果我必须在Hadoop/Yarn或Mesos上运行spark，我会感到困惑。如果我在Hadoop/Mesos上运行，会有什么性能提升吗？

浏览 0提问于2015-07-24得票数 1

1回答

比较内存中的集群计算系统

、、、

我正在从事Spark(Berkeley)集群计算系统的工作。在我的研究中，我了解了一些其他的内存系统，如Redis，Memcachedb等。如果有人能给我一个SPARK和REDIS (以及MEMCACHEDB)的比较，那就太好了。Spark在哪些情况下比其他内存系统更有优势？

浏览 4提问于2013-05-22得票数 10

回答已采纳

点击加载更多