为什么Spark SQL中嵌套列的查询性能会有所不同？

、

我使用Spark SQL编写了一些Parquet格式的数据，结果模式如下所示：|-- stateLevel: struct (nullable = true)|-- globalCount5: integer (nullable = false) 现在，当我在像global.count1这样的列上对第一个数据集运行查询时，它比查询第二个数据集中的

浏览 4提问于2016-09-22得票数 5

1回答

为什么在spark中spark.sql.orc.filterPushdown默认是false？

、、

为什么spark中的spark.sql.orc.filterPushdown默认值是false？将spark的值设置为true是否会导致一些性能开销，或者在spark.sql.orc.filterPushdown的orc读取功能中存在一些限制？

浏览 0提问于2019-03-14得票数 0

1回答

索引- SQL -它是什么？用途？类型？

、、

我正在学习SQL。最近遇到了SQL中的索引。不能完全理解。谁能用简单的语言解释什么是索引，用途和不同的类型。提前谢谢你，瓦鲁。

浏览 1提问于2013-08-28得票数 0

1回答

在emr上使用自动广播(即使禁用)和用于简单sql查询的嵌套连接的pyspark

、、、

使用sqlContext.sql查询在电子病历上运行pyspark代码。其中一个查询会引发与driver.maxResultSize相关的错误。已尝试对查询产生的数据帧使用explain，以了解原因。在那里，我看到spark出于某种原因(没有明确的指令)正在使用带有嵌套连接的广播。我想了解一下： 1)为什么spark使用广播和嵌套join来执行此

浏览 9提问于2019-08-23得票数 1

1回答

在星火中将拼花文件加载到案例类中的性能

、、、

在我们的Parquet文件中，我们有以下类型的嵌套案例类：case class B(/* a dozen of attributesRowf1DF.toRDD[A].map(_.fieldToSum).sum() 我理解为什么使用Spark的方法在升级到Spark2.0时会降低<

浏览 2提问于2016-08-24得票数 7

2回答

当对Snowflake使用Spark Connector时，在哪里处理该查询？

、、

例如，如果我使用Spark Connector从客户端(在EMR -1上运行)运行一个查询，以从Snowflake (在EMR -2上运行)获取数据，那么该查询实际上是在哪里执行的？它是在Snowflake本身上处理，然后返回结果，还是在客户端EMR上作为spark作业处理？当我看到Snowflake上的查询历史时，它也显示了执行的查询。这是否意味着它也会消耗那里的资源？

浏览 0提问于2020-02-25得票数 1

1回答

具有Struct列类型的读/写部分

、、、、

中加载Parquet，并使用Spark查询数据，例如：df.registerTempTable('my_toy_table')我的问题是，尽管fastp

浏览 8提问于2020-02-14得票数 4

回答已采纳

1回答

连接中表的顺序

、、、

在spark sql中，我有一个查询，它在Joins中使用了几个表(大小表)。我的问题是- does the order of these tables matter with respect to query performance ?代表。smallerLeft Join larger2我在网上搜索过，但没有得到确切的答案那么，如果我更改左表和右表的</e

浏览 1提问于2019-07-31得票数 2

回答已采纳

2回答

了解我的SnappyData表的存储桶数量吗？

为什么？为什么不是110呢？使用某个“可除数”值时，存储桶逻辑是否表现得更好？选择less的含义是什么？更多的水桶呢？我在我的Spark SQL查询中看到了很多日志记录，以查找每个存储桶中的数据。存储桶越

浏览 0提问于2016-08-25得票数 1

2回答

火花卡桑德拉连接器直接连接不适用于IN查询

、、

我在cassandra中有一个表，其中A(String)和B (int)是分区键，我正在用spark编写sql查询在解释计划中，它似乎是在进行批处理扫描，而不是直接连接分区键。，D]请求列: A，B. 在文档中，spark.cassandra.sql.inClauseToJo

浏览 8提问于2020-08-04得票数 1

2回答

星星之火SQL性能

、、、、

sql执行第一个简单的sql查询。' ") Step5.使用spark执行第二个简单的sql使用spark执行第三个简单的sql查询。显然，最后一个2 spark

浏览 6提问于2014-12-25得票数 7

回答已采纳

2回答

对dataframe的200万次查询

、

我需要对大小为100亿行的三列表t (s，p，o)运行200万次查询。每一列的数据类型为字符串。数据库中，则使用Java ThreadPoolExecutor需要6个小时。你认为Spark能更快地处理查询吗？最好的策略是什么？以下是我的想法：将表加载到一个dataframe中，并启动对dataframe的查询。将表加载到parquet数据库中</em

浏览 4提问于2020-07-13得票数 1

2回答

两个表的联接中的火花性能问题

、、

我有两个大蜂巢表，我想加入spark.sql。假设我们有表1和表2中的表1和表2，表1中有500万行，表2中有7000万行。我预计集群中的性能可能会有所不同。怎样才能提高参加比赛的表现？我应该使用缓存吗？我同时缓

浏览 2提问于2017-11-30得票数 2

回答已采纳

1回答

spark广播加入错误，即使spark.sql.autoBroadcastJoinThreshold=-1

、、

I一个大小约为5 5GB的静态数据帧(staticDF如下所示)和一个火花流数据。(staticDF, ($"key1" == $"key2"), "left")ERROR Could not execute broadcast in 300 secs. java.util.concurrent.TimeoutException$$a

浏览 641提问于2019-07-31得票数 1

4回答

如何读取Spark中的嵌套集合

、、、、

我有一张镶木镶木桌上有一根柱子在Spark文档中找不到任何与此相关的引用。提前感谢您提供的任何信息！ ps。我觉得在谈判桌上提供一些统计数据可能会有所帮助。主表中<em

浏览 191提问于2015-05-03得票数 19

回答已采纳

1回答

星星之火:尽管缓存仍然生成相同的阶段。

、、

我想知道，我怎么可能有两个完全相同的阶段，尽管我缓存我的数据之前，每个行动在星火。你能看看下面的截图吗?对我来说很奇怪。这是否意味着我要在各个阶段执行两次任务？不幸的是，给出代码示例非常困难，但我将尝试解释我所做的事情。通过在第3点创建的DF上使用不同的过滤器来创建7个新的

浏览 0提问于2018-11-02得票数 0

1回答

分析视图数据库中的表优化

、、、

在执行Analyze table Compute Statistics之后，我的连接在Databricks Delta表中的性能变得更好。与在Spark sql中一样，不支持sql分析视图。我想知道，如果我在使用Analyze table compute statistics的同一个表上创建了视图，查询优化器是否会优化查询。

浏览 2提问于2020-02-20得票数 0

1回答

单个记录查找的火花性能

、、、、

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。但是，有一个值得注意的例外情况，即查询涉及在单个记录级别上基于键的选择。在这种情况下，星火在Tez上比Hive慢得多。数据位于内部Hive表中</e

浏览 12提问于2016-10-18得票数 2

回答已采纳

1回答

中断SQL查询提高Spark效率

、

我有一个非常大的HIVE查询，它将被迁移到spark。Dataset<Row> sqlDF = spark.sql("select c.name from order o join customer c on o.orderID=c.orderIDwhere o.productPrice > 100");Dataset<Row> order = spa

浏览 0提问于2018-12-24得票数 3

回答已采纳

1回答

火花中的spark.sql.shuffle.partitions -2.0.3不起作用

、、、、

我打算基于星火库上的蜂巢执行SQL，设置如下：设置hive.execution.engine=spark；设置spark.sql.shuffle.partitions我已经测试了另一个更复杂的SQL (其中包含逐组SQL查询，嵌套SQL查询)，它在第2阶段只产生17个任务，这将导致大量的

浏览 0提问于2018-04-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么在spark中spark.sql.orc.filterPushdown默认是false？

索引- SQL -它是什么？用途？类型？

在emr上使用自动广播(即使禁用)和用于简单sql查询的嵌套连接的pyspark

在星火中将拼花文件加载到案例类中的性能

当对Snowflake使用Spark Connector时，在哪里处理该查询？

具有Struct列类型的读/写部分

连接中表的顺序

了解我的SnappyData表的存储桶数量吗？

火花卡桑德拉连接器直接连接不适用于IN查询

星星之火SQL性能

对dataframe的200万次查询

两个表的联接中的火花性能问题

spark广播加入错误，即使spark.sql.autoBroadcastJoinThreshold=-1

如何读取Spark中的嵌套集合

星星之火:尽管缓存仍然生成相同的阶段。

分析视图数据库中的表优化

单个记录查找的火花性能

中断SQL查询提高Spark效率

火花中的spark.sql.shuffle.partitions -2.0.3不起作用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐