腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4780)
视频
沙龙
1
回答
在
spark
中
使用
下推
查询
,如
何在
spark-HBASE
(
BIGSQL
作为
SQL
引擎
)
中
获得
并行性
?
、
、
、
、
在
Spark
中
,PushdownQuery由数据库的
SQL
引擎
进行处理,并根据处理结果构造数据框架。因此,
spark
查询
该
查询
的结果。- mysql
中
的另一个引用()中看到,
下推
查询
中
的
并行性
是通过基于参数numPartitions和partitionColumn触发多个
查询
来实现的。构建了4个
查询
;触发到DB,并根据这些<em
浏览 6
提问于2018-08-23
得票数 0
回答已采纳
1
回答
从Azure数据库
查询
SAP表
、
、
我想从databricks
查询
SAP表。我已经安装了用于连接到SAP服务器的JDBC库。我可以
使用
spark
.read.JDBC(url = jdbcUrl,table = query,properties = connectionProperties)连接和获取记录。
在
table参数
中
,我提供了模式和表名。我想获取选择性记录。有没有办法提供
查询
?
浏览 22
提问于2021-11-17
得票数 1
2
回答
如何
使用
pyspark执行CQL
查询
、
、
、
我想
使用
PySpark.But执行Cassandra CQL
查询
,我没有找到执行它的方法。我可以将整个表加载到dataframe并创建临时视图并
查询
它。df =
spark
.read.format("org.apache.
spark
.
sql
.cassandra")."country_production2",keyspace="country").load() df.createOrReplaceTempView("T
浏览 17
提问于2020-07-22
得票数 0
2
回答
将数据从火花加载到雪花中
、
雪片的负荷是利用火花发动机还是它的完全向
下推
到雪花? 谢了,纳维德
浏览 2
提问于2020-05-07
得票数 0
回答已采纳
1
回答
不支持火花
sql
上下文中的子句。
、
、
我试图用下面的
查询
从大型机表中提取记录,
使用
spark
上下文但是它正在抛出下面的错误com.ibm.db2.jcc.am.SqlSyntaxErrorException: DB2
SQL
错误: SQLCODE=-199,SQLSTATE=42601,SQLERRMC=WITH;HAVING,其中组顺序相交减除UNION ),FETCH,DRIVER=4.19.26 但是,如果我
在</
浏览 0
提问于2019-03-16
得票数 3
1
回答
PySpark
下推
时间戳过滤器
我正在
使用
JDBC2.4版来读取一些带有Postgres驱动程序的PySpark。df =
spark
.read.jdbc(url=data_base_url, table="tablename", properties=properties)这样,过滤器被
下推
为
SQL
查询
,但datetime格式不正确。df_new_data = df.where
浏览 1
提问于2018-12-06
得票数 0
1
回答
如何防止谓词
下推
?
、
最近,我正在
使用
Spark
,
使用
JDBC数据源。考虑以下片段: val df =
spark
.read.如果PRED是一个简单的谓词,
如
x = 10,
查询
将更快。但是,如果存在一些非等条件(
如
date > someOtherDate or date < someOtherDate2 ),则
查询
要比没有谓词
下推
慢得多。正如您可能知道的那样,DB
引擎
对这类谓词的扫描非常慢,
在
我的例子
浏览 0
提问于2018-05-14
得票数 6
回答已采纳
1
回答
如何
使用
SparkR将MySQL数据库连接到Apache
Spark
?
、
、
、
我正在开发
Spark
2.0和SparkR库。我想
获得
一个关于如
何在
SparkR
中
做以下事情的示例代码?我知道
使用
R来做这件事,但是我需要一些帮助来
使用
Spark
Sessions或SparkSQL context。我正在
使用</em
浏览 4
提问于2016-08-21
得票数 0
2
回答
火花谓词
下推
性能
、
我
在
分区
中
按日期将拼板文件存储
在
目录
中
,
如
: /date=20180802
spark
.read.parquet(".../activity") .filter($"date"
浏览 0
提问于2018-08-15
得票数 5
回答已采纳
2
回答
谓词
下推
vs布隆过滤器
、
在
寻找大数据上的
查询
优化时,尤其是
在
ORC文件上,我遇到了两种可能的谓词
下推
和Bloom过滤器。谓词
下推
帮助我们避免读取不必要的条带,这有助于减少IO,但对我来说,Bloom Filter似乎也有相同的目的,除了以下几点。对于谓词
下推
,我们不需要在编写ORC文件时显式创建任何工件,而对于Bloom filters,我们需要在写入ORC文件时配置列。谢谢Santosh
浏览 0
提问于2019-02-11
得票数 2
5
回答
Parquet谓词
下推
是否
使用
Spark
在
S3上工作?
、
、
只是想知道Parquet谓词
下推
是否也适用于S3,而不仅仅是HDFS。特别是如果我们
使用
火花(非EMR)。 进一步的解释可能会有帮助,因为它可能涉及了解分布式文件系统。
浏览 8
提问于2016-01-21
得票数 14
回答已采纳
1
回答
如何通过
Spark
作为
JDBC分布式
查询
引擎
访问RDD表?
、
堆栈溢出上的几个帖子有一些响应,其中包含关于如何通过
Spark
作为
JDBC分布式
查询
引擎
访问RDD表的部分信息。因此,关于如何做到这一点,我想问以下问题以
获得
完整的信息:
在
Spark
应用程序
中
,我们需要
使用
HiveContext注册表吗?或者我们可以只
使用
SQL
上下文吗?我们在哪里以及如何
使用
HiveThriftServer2.startWithContext?当我们运行st
浏览 2
提问于2015-07-18
得票数 6
回答已采纳
1
回答
在
spark
中
优化Hive表加载时间
、
、
、
、
所以我
在
spark
中加载表并缓存它。以下是给定的示例
查询
-该表有99%的重复数据,因此我
使用
行号逻辑来
获得
distinct。我是否应该
使用
上面的<em
浏览 1
提问于2019-03-22
得票数 4
2
回答
星火
SQL
与Databricks
SQL
、
、
我最近开始
使用
spark
,并且非常想知道我是否需要执行更好的
查询
,比如
spark
sql
或databricks
sql
,以及为什么?
浏览 11
提问于2022-11-25
得票数 1
2
回答
Apache
Spark
是否从目标数据库加载整个数据?
、
、
、
我想
使用
Apache
Spark
并通过JDBC连接到Vertica。似乎
Spark
从目标服务器加载了所有数据。option("user", "user").option("pa
浏览 5
提问于2017-02-16
得票数 1
2
回答
将蜂巢
查询
推送到数据库级别
、
、
、
我需要
查询
这些数据的3列,并筛选出用于进一步处理的记录。方法1将数据存储为
中
的csv或parquet。当我需要
查询
时,读取整个数据并
使用
Spark
进行
查询
。方法2
使用
HiveContext创建一个Hive表,并持久化该表和Hive元数据。需要时
使用
HiveContext
查询
此表。怀疑:
在
方法2
中
,是否将
查询
推送到数据库级别(HDFS),并且只读取并
浏览 0
提问于2018-04-10
得票数 3
1
回答
spark
中
的智能数据源是什么?
我想知道
在
spark
中
哪些数据源可以被称为“智能”。根据“精通Apache
Spark
2.x”一书,如果
spark
可以在数据源端处理数据,那么任何数据源都可以称为smart。示例JDBC源代码。
浏览 1
提问于2018-11-22
得票数 0
3
回答
如何
使用
作为
查询
引擎
?
、
、
、
我正在
使用
Apache进行大数据处理。数据从平面文件源或JDBC源加载到数据帧。任务是
使用
spark
sql
从数据框架
中
搜索特定的记录。 如果我可以在数据帧中加载数据一次,并在不提交
浏览 6
提问于2016-09-14
得票数 3
回答已采纳
2
回答
使用
Spark
读取Azure Synapse表
、
我正在寻找如何从Scala
Spark
读取Azure Synapse表,但没有成功。我在其他带有
Spark
的Azure数据库的连接器中找到了,但在新的Azure Data Warehouse
中
没有。
浏览 1
提问于2020-03-23
得票数 0
1
回答
催化剂优化相
、
、
、
在
第一阶段(分析阶段),otimizer将创建
查询
的逻辑计划。但是在这里,列是未解析的,因此它需要为此
使用
一个目录对象。 怀疑:您知道这个目录对象是如何工作的吗?因此可以解决这个问题,例如,如果我们对hive表执行
查询
,优化器会连接到hdfs
中
的hivetable来解析列?
在
第二阶段(逻辑优化)
中
,otimizer将标准规则应用于逻辑计划,如常量折叠、谓词推倒和项目剪枝。怀疑:我试图找一些例子来更好地理解火花在这个阶段到底做了什么,常量折叠、谓词
下推
和
浏览 1
提问于2016-05-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
IBM Db2 Big SQL简介和快速上手
什么是Spark SQL,它的作用是什么?
Spark On HBase
Moonbox#计算服务平台简介
Presto在滴滴的探索与实践
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券