在spark中使用下推查询，如何在spark-HBASE (BIGSQL作为SQL引擎)中获得并行性？

、、、、

在Spark中，PushdownQuery由数据库的SQL引擎进行处理，并根据处理结果构造数据框架。因此，spark查询该查询的结果。- mysql中的另一个引用()中看到，下推查询中的并行性是通过基于参数numPartitions和partitionColumn触发多个查询来实现的。构建了4个查询；触发到DB，并根据这些<em

浏览 6提问于2018-08-23得票数 0

回答已采纳

1回答

从Azure数据库查询SAP表

、、

我想从databricks查询SAP表。我已经安装了用于连接到SAP服务器的JDBC库。我可以使用spark.read.JDBC(url = jdbcUrl，table = query，properties = connectionProperties)连接和获取记录。在table参数中，我提供了模式和表名。我想获取选择性记录。有没有办法提供查询？

浏览 22提问于2021-11-17得票数 1

2回答

我想使用PySpark.But执行Cassandra CQL查询，我没有找到执行它的方法。我可以将整个表加载到dataframe并创建临时视图并查询它。df = spark.read.format("org.apache.spark.sql.cassandra")."country_production2",keyspace="country").load() df.createOrReplaceTempView("T

浏览 17提问于2020-07-22得票数 0

2回答

将数据从火花加载到雪花中

、

雪片的负荷是利用火花发动机还是它的完全向下推到雪花？谢了，纳维德

浏览 2提问于2020-05-07得票数 0

回答已采纳

1回答

不支持火花sql上下文中的子句。

、、

我试图用下面的查询从大型机表中提取记录，使用spark上下文但是它正在抛出下面的错误com.ibm.db2.jcc.am.SqlSyntaxErrorException: DB2 SQL错误: SQLCODE=-199，SQLSTATE=42601，SQLERRMC=WITH;HAVING，其中组顺序相交减除UNION )，FETCH，DRIVER=4.19.26 但是，如果我在</

浏览 0提问于2019-03-16得票数 3

1回答

PySpark下推时间戳过滤器

我正在使用JDBC2.4版来读取一些带有Postgres驱动程序的PySpark。df = spark.read.jdbc(url=data_base_url, table="tablename", properties=properties)这样，过滤器被下推为SQL查询，但datetime格式不正确。df_new_data = df.where

浏览 1提问于2018-12-06得票数 0

1回答

如何防止谓词下推？

、

最近，我正在使用Spark，使用JDBC数据源。考虑以下片段： val df = spark.read.如果PRED是一个简单的谓词，如x = 10，查询将更快。但是，如果存在一些非等条件(如date > someOtherDate or date < someOtherDate2 )，则查询要比没有谓词下推慢得多。正如您可能知道的那样，DB引擎对这类谓词的扫描非常慢，在我的例子

浏览 0提问于2018-05-14得票数 6

回答已采纳

1回答

如何使用SparkR将MySQL数据库连接到Apache Spark？

、、、

我正在开发Spark2.0和SparkR库。我想获得一个关于如何在SparkR中做以下事情的示例代码？我知道使用R来做这件事，但是我需要一些帮助来使用Spark Sessions或SparkSQL context。我正在使用</em

浏览 4提问于2016-08-21得票数 0

2回答

火花谓词下推性能

、

我在分区中按日期将拼板文件存储在目录中，如： /date=20180802spark.read.parquet(".../activity") .filter($"date"

浏览 0提问于2018-08-15得票数 5

回答已采纳

2回答

谓词下推vs布隆过滤器

、

在寻找大数据上的查询优化时，尤其是在ORC文件上，我遇到了两种可能的谓词下推和Bloom过滤器。谓词下推帮助我们避免读取不必要的条带，这有助于减少IO，但对我来说，Bloom Filter似乎也有相同的目的，除了以下几点。对于谓词下推，我们不需要在编写ORC文件时显式创建任何工件，而对于Bloom filters，我们需要在写入ORC文件时配置列。谢谢Santosh

浏览 0提问于2019-02-11得票数 2

5回答

Parquet谓词下推是否使用Spark在S3上工作？

、、

只是想知道Parquet谓词下推是否也适用于S3，而不仅仅是HDFS。特别是如果我们使用火花(非EMR)。进一步的解释可能会有帮助，因为它可能涉及了解分布式文件系统。

浏览 8提问于2016-01-21得票数 14

回答已采纳

1回答

如何通过Spark作为JDBC分布式查询引擎访问RDD表？

、

堆栈溢出上的几个帖子有一些响应，其中包含关于如何通过Spark作为JDBC分布式查询引擎访问RDD表的部分信息。因此，关于如何做到这一点，我想问以下问题以获得完整的信息：在Spark应用程序中，我们需要使用HiveContext注册表吗？或者我们可以只使用SQL上下文吗？我们在哪里以及如何使用HiveThriftServer2.startWithContext？当我们运行st

浏览 2提问于2015-07-18得票数 6

回答已采纳

1回答

在spark中优化Hive表加载时间

、、、、

所以我在spark中加载表并缓存它。以下是给定的示例查询-该表有99%的重复数据，因此我使用行号逻辑来获得distinct。我是否应该使用上面的<em

浏览 1提问于2019-03-22得票数 4

2回答

星火SQL与Databricks SQL

、、

我最近开始使用spark，并且非常想知道我是否需要执行更好的查询，比如spark sql或databricks sql，以及为什么？

浏览 11提问于2022-11-25得票数 1

2回答

Apache Spark是否从目标数据库加载整个数据？

、、、

我想使用Apache Spark并通过JDBC连接到Vertica。似乎Spark从目标服务器加载了所有数据。option("user", "user").option("pa

浏览 5提问于2017-02-16得票数 1

2回答

将蜂巢查询推送到数据库级别

、、、

我需要查询这些数据的3列，并筛选出用于进一步处理的记录。方法1将数据存储为中的csv或parquet。当我需要查询时，读取整个数据并使用Spark进行查询。方法2使用HiveContext创建一个Hive表，并持久化该表和Hive元数据。需要时使用HiveContext查询此表。怀疑：在方法2中，是否将查询推送到数据库级别(HDFS)，并且只读取并

浏览 0提问于2018-04-10得票数 3

1回答

spark中的智能数据源是什么？

我想知道在spark中哪些数据源可以被称为“智能”。根据“精通Apache Spark 2.x”一书，如果spark可以在数据源端处理数据，那么任何数据源都可以称为smart。示例JDBC源代码。

浏览 1提问于2018-11-22得票数 0

3回答

如何使用作为查询引擎？

、、、

我正在使用Apache进行大数据处理。数据从平面文件源或JDBC源加载到数据帧。任务是使用spark sql从数据框架中搜索特定的记录。如果我可以在数据帧中加载数据一次，并在不提交

浏览 6提问于2016-09-14得票数 3

回答已采纳

2回答

使用Spark读取Azure Synapse表

、

我正在寻找如何从Scala Spark读取Azure Synapse表，但没有成功。我在其他带有Spark的Azure数据库的连接器中找到了，但在新的Azure Data Warehouse中没有。

浏览 1提问于2020-03-23得票数 0

1回答

催化剂优化相

、、、

在第一阶段(分析阶段)，otimizer将创建查询的逻辑计划。但是在这里，列是未解析的，因此它需要为此使用一个目录对象。怀疑：您知道这个目录对象是如何工作的吗?因此可以解决这个问题，例如，如果我们对hive表执行查询，优化器会连接到hdfs中的hivetable来解析列？在第二阶段(逻辑优化)中，otimizer将标准规则应用于逻辑计划，如常量折叠、谓词推倒和项目剪枝。怀疑：我试图找一些例子来更好地理解火花在这个阶段到底做了什么，常量折叠、谓词下推和

浏览 1提问于2016-05-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从Azure数据库查询SAP表

如何使用pyspark执行CQL查询

将数据从火花加载到雪花中

不支持火花sql上下文中的子句。

PySpark下推时间戳过滤器

如何防止谓词下推？

如何使用SparkR将MySQL数据库连接到Apache Spark？

火花谓词下推性能

谓词下推vs布隆过滤器

Parquet谓词下推是否使用Spark在S3上工作？

如何通过Spark作为JDBC分布式查询引擎访问RDD表？

在spark中优化Hive表加载时间

星火SQL与Databricks SQL

Apache Spark是否从目标数据库加载整个数据？

将蜂巢查询推送到数据库级别

spark中的智能数据源是什么？

如何使用作为查询引擎？

使用Spark读取Azure Synapse表

催化剂优化相

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐