打印Spark上查询配置单元的物理计划

我使用hive 2.3.7和spark-2.0.0作为执行引擎。我想知道如何打印物理计划，以查看caclcite选择在查询上执行哪种连接算法。

浏览 27提问于2020-11-30得票数 0

1回答

spark物理计划中的步骤未分配给DAG步骤

、、、、

我正尝试在spark SQL中调试一个返回不正确数据的简单查询。在本例中，查询是两个配置单元表之间的简单连接。这个问题似乎与以下事实有关: spark生成的物理计划(使用catalyst引擎)似乎已被破坏，其中物理计划中的一些步骤尚未分配订单id，因此在spark查询中连接右侧的所有评估都未

浏览 3提问于2020-02-11得票数 1

1回答

触发了2个select查询，一个在扣式列上，另一个在非桶列上，但我没有看到执行时间上的任何不同。我能从DAG或物理计划中得到任何信息吗？我两者都见过，但我看不出这和我在物理计划中看到的有什么不同 ==物理计划== *(1)项目col1#0，col2#1，col3#2，col4#3，col5#4，col6#5，col7#6，col8#7，它不应该做一个HiveTableScan，因为表是作为一个单元表

浏览 1提问于2018-10-11得票数 0

1回答

可以获得pyspark数据帧的源/原始查询吗

、

输入：输出：

浏览 0提问于2020-05-10得票数 0

2回答

过滤器与Hive where子句

、、、

我只是想知道这个火花密码就像这个一样有效率：在第一组中，我们是将所有的单元数据加载到RAM中，还是足够聪明地在执行生成的DAG时过滤蜂巢中的这些值

浏览 2提问于2020-08-28得票数 0

回答已采纳

1回答

不在Presto v.s Spark SQL的实现中

、、、

我得到了一个非常简单的查询，当在相同的硬件上运行Spark SQL和Presto (3小时v.s 3分钟)时，显示出显着的性能差异。SELECT field WHERE field NOT IN (SELECT field FROM test2) 通过对查询计划的研究，我发现原因在于Spark SQL如何处理在NOT EXISTS的查询计划</em

浏览 13提问于2019-11-07得票数 6

回答已采纳

2回答

Spark Executors内存vs作业时间

、

我是pyspark的初学者，很难理解对executor内存的更改是如何影响作业运行时的。我使用不同的配置运行代码(在下面分享)，并意识到当我减少执行器内存时-我的工作占用的时间更少。谁能告诉我背后的原因是什么？我运行了下面的pyspark代码： spark = SparkSession.builder.enableHiveSupport().getOrCreate() hiveCtx = HiveContext(spark</

浏览 31提问于2020-01-02得票数 0

1回答

使用sparklyr返回逻辑计划

、、、

我们正在尝试获取逻辑计划(不要与物理计划混淆)，该计划是由Spark为给定查询生成的。根据Spark ，您应该能够使用scala命令检索它：或者在sparklyr中使用示例代码：sc <- spark_connect(master = "local", version = <em

浏览 3提问于2019-11-05得票数 1

回答已采纳

1回答

如何避免每次执行查询时的查询准备(解析、规划和优化)？

、、

在我们的Spark流应用程序中，使用60秒批处理，我们在一个DF上创建一个临时表，然后对它运行大约80个查询，如下所示：没有一种方法可以生成、缓存和重用查询计划吗？即使每个查询只保存

浏览 0提问于2018-03-31得票数 5

1回答

如何读取火花sql查询执行计划并将其保存到文本文件中？

、、、

我希望读取spark sql查询执行计划，并将其保存到文本文件中，以进一步分析逻辑和物理计划。我如何读取它，使它可以保存到一个文件。我使用的是df.explain()方法，但它只是将计划打印到cmd控制台。是否有任何方法将其存储在字符串或中，直接将其保存到文本文件或中，从控制台提取计划

浏览 0提问于2020-09-24得票数 1

1回答

Apache Spark日志记录扩展计划

、

我想登录df.explain(true)，我想看看物理和逻辑计划。我在文档中找不到如何使用log4j.properties来做到这一点，查看源代码，似乎他们使用println()进行打印，这意味着他们使用标准输出。我怎样才能做到这一点呢？

浏览 0提问于2016-12-11得票数 2

1回答

Spark-sql在没有安装hive的情况下能工作吗？

、、

我已经在一个干净的ubuntu实例上安装了spark 2.4.0。Spark数据帧工作得很好，但是当我尝试对数据帧使用spark.sql时，比如在下面的例子中，我得到了一个错误“无法访问metastore。这个类不应该在运行时被访问”。.createOrReplaceTempView("some_

浏览 176提问于2018-12-17得票数 3

回答已采纳

1回答

如果我的理解是正确的，火花申请可能包含一个或多个工作。作业可以分为阶段，阶段可以划分为任务。我或多或少可以在星火用户界面中遵循这一点(或者至少我认为是这样)。但我对SQL选项卡的含义感到困惑。特别是：为了理解，我一直在列举一些例子，但仍然不太清楚。

浏览 3提问于2021-07-28得票数 1

1回答

在物理计划中执行交换和排序步骤的配置单元存储桶表

、、、

我有两个表，它们都聚集在相同的列上，但是在连接聚集列上的两个表时，执行计划同时显示了交换和排序步骤。我希望在我的计划中避免排序和交换步骤，并且根据文档，存储桶的表应该避免排序和交换步骤。') spark.sql('set hive.optimize.index.

浏览 1提问于2019-06-12得票数 1

1回答

为什么Spark查询在第二次执行时运行得更快？

、、

第二次运行查询时，速度要快得多。为什么？代码： publicvoidtest3() { //result1.show();} <em

浏览 70提问于2020-10-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark物理计划中的步骤未分配给DAG步骤

蜂箱内装桶与SparkSql

可以获得pyspark数据帧的源/原始查询吗

过滤器与Hive where子句

不在Presto v.s Spark SQL的实现中

Spark Executors内存vs作业时间

使用sparklyr返回逻辑计划

如何避免每次执行查询时的查询准备(解析、规划和优化)？

如何读取火花sql查询执行计划并将其保存到文本文件中？

Apache Spark日志记录扩展计划

Spark-sql在没有安装hive的情况下能工作吗？

排除Spark优化器中的特定规则

DataFrame API如何依赖于星火中的RDDs？

星火如何做字节码到机器代码指令运行时转换？

火花过滤器操作顺序为O(1)或O(n)

如何知道哪个计数查询最快？

星星之火UI，SQL选项卡的含义是什么？

在物理计划中执行交换和排序步骤的配置单元存储桶表

为什么Spark查询在第二次执行时运行得更快？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐