Hive和Spark的执行差异

Hive和Spark都是大数据处理领域中的重要工具，它们各自具有独特的优势和适用场景。以下是它们在执行方面的主要差异：

执行引擎

Hive：默认使用MapReduce作为执行引擎，适合批处理任务，但在处理大规模数据时可能会出现较高的延迟。
Spark：使用内存计算和线程级并行，提供了更快的速度，特别是在迭代计算和机器学习任务中表现优异。

性能特点

Hive：由于依赖于磁盘I/O和MapReduce模型，对于大规模数据处理时可能会出现较高的延迟。
Spark：利用内存计算大幅提高处理速度，特别是在迭代计算和机器学习任务中表现优异。

并行方式

Hive：采用进程级并行，为每个查询启动一个独立的MapReduce作业，这在资源管理方面相对复杂。
Spark：采用线程级并行，可以更高效地利用系统资源，提高性能。

Hive和Spark的执行差异

、、

所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花的理解我一直在研究不同的大型数据库解决方案，我试图了解Hive和Spark在执行方面的差异。我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和Spark工作。我不能让蜂巢去工作。当我在Spark中运行查询，在它们通过优化器之后，似乎最大<

浏览 44提问于2021-04-09得票数 0

回答已采纳

1回答

在物理计划中执行交换和排序步骤的配置单元存储桶表

、、、

我有两个表，它们都聚集在相同的列上，但是在连接聚集列上的两个表时，执行计划同时显示了交换和排序步骤。我希望在我的计划中避免排序和交换步骤，并且根据文档，存储桶的表应该避免排序和交换步骤。我甚至尝试了下面的hive属性： spark.sql(&#x

浏览 1提问于2019-06-12得票数 1

1回答

我试图从Spark应用程序连接到Hive-metastore，但每次尝试连接时都会卡住，并因超时而崩溃： INFO metastore:376 - Trying to connect to metastoreorg.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out 应用程序在我创建外部配置单元表的地方崩溃我在Kubernetes集群中运行Hive-metastore以及Spark

浏览 44提问于2019-02-21得票数 2

回答已采纳

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：hive scala> spark.conf.set&

浏览 3提问于2019-08-02得票数 0

1回答

调用sql()和使用Spark* API call()的区别*

、、、

我是Spark/Scala/Hive的新手。我只是想知道打电话和打电话spark.sql("SELECR * FROM table")spark= new SparkSession(...).getHiveContext() // not using spark.read.t

浏览 0提问于2017-09-21得票数 0

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的Hive外部表<e

浏览 0提问于2019-08-24得票数 3

2回答

将星星之母插入动态分区单元表引发错误-分区规范，其中包含非分区列。

、、

我使用的是火花2.2.1和hive2.1。我正在尝试将多个分区插入到现有的分区单元格/分区表中。我有一个带有分区P1和P2的表“mytable”。我收到以下错误： org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.Table.ValidationFailureSemanticException它看起来

浏览 1提问于2018-08-06得票数 0

1回答

火花作为执行引擎与蜂巢

、、、、

spark 2.4.2是否可以作为一个在Amazon上使用Hive2.3.4的执行引擎？我已经通过以下命令将jar文件与hive (scala-库、火花-核心、火花-公共网络)链接起来：ln -s $SPARK_HOME/jars/spark-network-common-2.11.12.jar<property

浏览 2提问于2019-07-01得票数 1

1回答

如何列出Hive表的分区剪枝输入？

、、

我正在使用Spark查询Hive中的数据。数据被分区，Spark在查询时正确地修剪分区。但是，我需要列出给定查询的源表以及分区过滤器或特定的输入文件(.inputFiles是很明显的选择，但它并不反映剪枝)，以便确定计算的哪一部分数据。我能得到的最接近的是打电话给df.queryExecution.executedPlan.collectLeaves()。这将相关的计划节点包含为HiveTableS

浏览 12提问于2017-09-14得票数 1

回答已采纳

3回答

与BigQuery兼容的Spark* AVRO*

、、、

我正在尝试在Hive中创建一个外部表，并在BigQuery中创建另一个表，使用与Spark编写的Avro格式存储在Google Storage中的相同数据。我使用的是带有Spark 2.2.0、Spark-avro 4.0.0和Hive 2.1.1的Dataproc集群 Avro版本/包之间有相同的差异，但如果我使用Hive创建表，然后使用Spa

浏览 30提问于2017-12-18得票数 1

3回答

SparkSQL vs Hive* on Spark - Difference和利弊？*

、、、

SparkSQL CLI在内部使用HiveQL，并且在spark( Hive -7292)上使用配置单元，hive使用spark作为后端引擎。有没有人能再解释一下，这两种方案到底有什么不同，两种方法的优缺点是什么？

浏览 1提问于2015-07-24得票数 40

1回答

spark如何从Hive读取和写入数据？

、

val spark = SparkSession .appName("Spark Hive Example") .enableHiveSupport()当我使用spark-shell执行spark-sql从<em

浏览 1提问于2017-11-10得票数 1

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

我已经安装和设置了和集成。通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。然后转到下一步，设置。通过使用hive / beeline，我还可以创建Hive表，加载数据，然后进行适当的选择。蜂箱在纱线/火花上正确地执行。我怎么知道它起作用了？目前我还无法完成的步骤是将pyspark/SparkSQL集成到Hive on

浏览 0提问于2020-02-23得票数 0

回答已采纳

3回答

消息:Hive* Schema版本1.2.0与亚西亚的模式2.1.0版本不匹配，Metastore没有升级或损坏*

、

环境:火花2.11 hive2.2 hadoop2.8.2/usr/local/spark/bin/spark-submit \--num-executors/hive-site.xml \ --driver-class-path /usr/local/<

浏览 8提问于2017-11-28得票数 7

回答已采纳

1回答

使用Spark优化Hive* SQL查询？*

、、、、

我有一个复杂的SQL查询，用于在Hadoop Hive中获取数据。我对这些技术的理解正确吗？

浏览 0提问于2019-12-20得票数 0

3回答

Spark似乎不使用与Hive相同的仓库

、、、、

我已经开始在我的Eclipse上使用Spark 2.0，我创建了一个maven项目，并获得了所有最新的依赖项。我能够毫无问题地运行配置单元查询。我担心的是Spark为hive创建了另一个仓库，并且没有使用我想要的数据仓库。因此，我的服务器上的所有配置单元表，我无法将这些配置单元表读取到我的Spark数据集中，也无法进行任何转换。我只能创建和处理新表，但我希望在hive中读取我<em

浏览 1提问于2016-11-11得票数 1

1回答

Spark和Spark上的Hive作为hive执行引擎:有什么区别

、、、

Spark使用Hive metastore和Spark作为hive执行引擎有什么不同？我遵循来配置spark和hive，并且我已经成功地创建、填充和分析了hive表中的数据。现在让我困惑的是我做了什么？ a)我是否将Spark配置为使用Hive metastore，并使用SparkSQL分析hive表中

浏览 1提问于2017-07-27得票数 1

1回答

火花新手(ODBC/SparkSQL)

、、

我有一个spark集群设置，并在我的数据集中尝试了本机scala和spark，并且这个设置在大多数情况下似乎都是有效的。我有以下问题沿着蜂巢的思路是错误的吗

浏览 3提问于2014-10-03得票数 3

回答已采纳

1回答

使用Spark访问Hive表

、、、

我已经设置了一个AWS EMR集群，其中包括spark 2.3.2、hive 2.3.3和hbase 1.4.7。如何配置spark来访问蜂巢表？我已经执行了以下步骤，但是结果是错误消息：请

浏览 2提问于2019-05-02得票数 0

1回答

ValidationFailureSemanticException:分区规范包含非分区列

、、、

我正在尝试一个简单的用例，将其插入到S3上的单元格分区表中。我正在齐柏林飞艇笔记本上运行我的代码，下面是我的代码以及命令输出的截图。我检查了hive表和dataframe的模式，列名没有大小写差异。我得到了下面提到的例外。import org.apache.spark.sql.hive.HiveContext Syste

浏览 2提问于2020-10-07得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Hive和Spark的执行差异

执行引擎

性能特点

并行方式

相关·内容

Hive和Spark的执行差异

在物理计划中执行交换和排序步骤的配置单元存储桶表

无法从Spark应用程序连接到配置单元元存储

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

调用sql()和使用Spark* API call()的区别*

Apache不使用来自Hive分区外部表的分区信息

将星星之母插入动态分区单元表引发错误-分区规范，其中包含非分区列。

火花作为执行引擎与蜂巢

如何列出Hive表的分区剪枝输入？

与BigQuery兼容的Spark* AVRO*

SparkSQL vs Hive* on Spark - Difference和利弊？*

spark如何从Hive读取和写入数据？

如何使火花放电和SparkSQL在星火上执行蜂巢？

消息:Hive* Schema版本1.2.0与亚西亚的模式2.1.0版本不匹配，Metastore没有升级或损坏*

使用Spark优化Hive* SQL查询？*

Spark似乎不使用与Hive相同的仓库

Spark和Spark上的Hive作为hive执行引擎:有什么区别

火花新手(ODBC/SparkSQL)

使用Spark访问Hive表

ValidationFailureSemanticException:分区规范包含非分区列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐