腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Spark
SQL
识别
hive
表
中
的
分区
列
、
、
、
、
我正在尝试
使用
Spark
.I来
识别
hive
表
中
的
分区
列名。我可以
使用
show partitions,然后解析结果集来提取
分区
列
.However,缺点是,如果一些tales
中
没有
分区
,show partition失败.Is有一种更有机
的
方法来
识别
hive
表
中
的</em
浏览 94
提问于2019-09-24
得票数 2
6
回答
将火花数据作为动态
分区
表
保存在蜂巢
中
、
、
、
我有一个示例应用程序可以从csv文件
中
读取数据。可以
使用
df.saveAsTable(tablename,mode)方法以拼花格式将数据存储到
Hive
表
中
。上面的代码工作正常,但是我每天都有这么多
的
数据,所以我想根据creationdate(
表
中
的
列
)动态地划分
hive
表
。 是否有任何方法来动态划分数据并将其存储到蜂窝仓库。希望避免
使用
hivesqlcontext
浏览 7
提问于2015-07-10
得票数 41
回答已采纳
3
回答
单元
分区
表
读取所有
分区
,尽管有火花筛选器
、
、
、
我
使用
spark
和scala来读取一个特定
的
Hive
分区
。
分区
是year、month、day、a和b。scala>
spark
.
sql
("select * from db.table where year=2019 and month=2 and day=28 and a='y' and b='z'")
spark
正在尝试读取一个不同
的
分区</e
浏览 2
提问于2019-05-22
得票数 14
回答已采纳
4
回答
用星星之火覆盖蜂窝
分区
、
、
、
、
我正在
使用
AWS,我有
使用
Spark
和
Hive
的
工作流。我
的
数据是按日期划分
的
,所以每天我在S3存储中都有一个新
的
分区
。我
的
问题是,当有一天加载数据失败时,我必须重新执行该
分区
。如果我
使用
SaveMode.Overwrite,完整
的
表
将被删除,并且只保存
分区
。如果我
使用
SaveMode.Append,我可能有重
浏览 2
提问于2018-04-23
得票数 11
回答已采纳
2
回答
将星星之母插入动态
分区
单元
表
引发错误-
分区
规范,其中包含非
分区
列
。
、
、
我
使用
的
是火花2.2.1和
hive
2.1。我正在尝试将多个
分区
插入到现有的
分区
单元格/
分区
表
中
。我有一个带有
分区
P1和P2
的
表
“mytable”。它看起来像问题
的
套管(上下)。我在我
的
查询
中
尝试了这两种情况,但仍然不起作用。编辑: Inse
浏览 1
提问于2018-08-06
得票数 0
1
回答
如果有在加载阶段拥有'maxRecordsPerFile‘
的
好方法,就会产生火花
、
、
我已经按存储在s3上
的
空间
列
(四键)数据进行了
分区
。假设将150个
分区
中
的
5000个文件加载到我
的
spark
应用程序
中
时,我希望将数据分解为15,000个
分区
,但我希望保留已存在
的
分区
。例如,通常我现在每个
分区
有200mb,所以我想将这些
分区
分解到50mb,对于已经少于50mb
的
分区
,我希望保持原样。当然,这方
浏览 48
提问于2020-03-25
得票数 1
2
回答
spark
HWC无法写入现有
表
、
、
、
、
在HDP 3.1.0
中
,HWC
hive
-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar,i不能根据数据库追加(或覆盖)到现有的
表
。我在一个名为DSN
的
数据库上测试,它工作,但在另一个名为CLEAN_CRYPT
的
数据库上它失败了。两个数据库都是加密
的
+ kerberos import com.hortonworks.
spark
.
sql
.
hive
.llap.HiveWarehouseS
浏览 2
提问于2020-01-28
得票数 2
1
回答
Spark
不
使用
Hive
分区
外部
表
中
的
分区
信息
、
、
、
我有一个复杂/嵌套
的
Hive
-External
表
,它是在HDFS上创建
的
(文件采用avro格式)。当我运行配置单元查询时,它会显示所有记录和
分区
。但是,当我在
Spark
中
使用
相同
的
表
时: val df =
spark
.format("avro").option("avroSchema",但是
浏览 15
提问于2020-01-21
得票数 0
2
回答
Spark
Partitioning
Hive
表
、
、
、
、
我正在尝试
使用
不同
的
时间戳对
hive
表
进行
分区
。我有一个带有时间戳
的
表
,但是当我执行
hive
分区
查询时,它告诉我它不是有效
的
分区
列
。18:39.824||3 |2019-06-12 17:18:39.824|
spark
.
sql</e
浏览 0
提问于2019-06-13
得票数 3
2
回答
Spark
2.3.1 AWS EMR没有返回某些
列
的
数据,但在雅典娜/Presto和频谱
中
工作
、
上表
中
每一行
的
每个值都返回空。数据存储在拼板
中
。。 当我在AWS雅典娜/Presto或AWs红移谱上运行相同
的
SQL
查询时,我将得到所有正确返回
的
列
数据(大多数列值不是null)。上面的
列
不是
分区
的
,但
表
是在其他列上
分区
的
。我试着用修
表
,没什么用。.appName("Python
Spark
SQL<
浏览 1
提问于2018-09-13
得票数 4
回答已采纳
2
回答
蜂箱
分区
、火花
分区
和加入火花-它们之间
的
关系
、
、
、
试图理解
Hive
分区
是
如何
与
Spark
分区
相关联
的
,最后提出了一个关于联接
的
问题。我有两个外部
Hive
表
;这两个
表
都由S3桶支持,并由date
分区
;因此,在每个桶中都有带有名称格式date=<yyyy-MM-dd>/<filename>
的
键。
分区
等于S3
中
的
对象数?假设这两个行类型有以
浏览 4
提问于2018-04-25
得票数 5
1
回答
在单元
表
中
交换
分区
时出错
、
为了进行测试,我从基
表
中
创建了一个虚拟
表
,如下所示:
表
: base.fact_table是基于dbsourceString
的
分区
,当我检查虚拟
表
的
DDL时,我可以看到
分区
列
是正确定义
的
。PARTITIONED BY (
浏览 0
提问于2019-07-05
得票数 1
回答已采纳
1
回答
ValidationFailureSemanticException:
分区
规范包含非
分区
列
、
、
、
我正在尝试一个简单
的
用例,将其插入到S3上
的
单元格
分区
表
中
。我正在齐柏林飞艇笔记本上运行我
的
代码,下面是我
的
代码以及命令输出
的
截图。我检查了
hive
表
和dataframe
的
模式,列名没有大小写差异。import org.apache.
spark
.
sql
.
hive
.HiveContext
浏览 2
提问于2020-10-07
得票数 2
回答已采纳
2
回答
无法从
spark
sql
插入到配置单元
分区
表
、
、
、
我有一个配置单元
分区
表
txnaggr_rt_fact,它有2个
列
分区
txninterval和intervaltype。我正在尝试
使用
java从
spark
sql
插入一条记录到这个
表
中
。在插入过程
中
抛出异常。如果
分区
不存在,因为它必须创建一个新
分区
,并且创建失败,但是如果
分区
已经存在,则插入记录。
分区
表
时异常如下 Exceptio
浏览 0
提问于2018-08-20
得票数 0
1
回答
来自带有AWS Glue
表
分区
的
EMR笔记本
的
Spark
SQL
错误
、
、
、
、
在部署之前,我正在EMR笔记本
中
测试一些pyspark代码,并且在
使用
Spark
SQL
时总是遇到这个奇怪
的
错误。我将我所有的
表
和元数据都集成到了AWS Glue目录
中
,这样我就可以通过
spark
对它们进行读写。') 然后我尝试
使用
Spark
SQL
访问这个
表
,但是当我运行像
spark
.
sql
('select * from <
浏览 26
提问于2021-05-11
得票数 1
2
回答
如何
为
Spark
SQL
建立元数据数据库?
、
Hive
可以有自己
的
元数据,并在那里存储
表
、
列
、
分区
信息。如果我不想
使用
hive
.Can,我们将为
spark
创建一个与
hive
相同
的
元数据。我想查询
spark
SQL
(不
使用
dataframe),就像
Hive
(select,from和where)一样,我们能做到吗?如果是,我们可以
使用
哪个关系数据库来存储元数据?
浏览 1
提问于2018-12-18
得票数 1
1
回答
Pyspark
sql
用于创建配置单元
分区
表
、
、
我正在尝试
使用
spark
sql
从pyspark dataframe创建一个
hive
paritioned
表
。下面是我正在执行
的
命令,但得到了一个错误。错误消息如下。df.createOrReplaceTempView(df_view)
spark
.
sql
("create table if not exists tablename PARTITION (date)AS select * from df_view") 错误:pyspa
浏览 113
提问于2021-09-19
得票数 0
回答已采纳
1
回答
在物理计划
中
执行交换和排序步骤
的
配置单元存储桶
表
、
、
、
我有两个
表
,它们都聚集在相同
的
列上,但是在连接聚集列上
的
两个
表
时,执行计划同时显示了交换和排序步骤。我希望在我
的
计划
中
避免排序和交换步骤,并且根据文档,存储桶
的
表
应该避免排序
浏览 1
提问于2019-06-12
得票数 1
1
回答
spark
数据集覆盖在
spark
2.4
中
无法工作
的
特定
分区
、
、
、
在我
的
工作
中
,最后一步是将执行
的
数据存储在
Hive
表
中
,并在"date“列上进行
分区
。有时,由于作业失败,我需要单独为特定
分区
重新运行作业。正如所观察到
的
,当我
使用
下面的代码时,
spark
在
使用
覆盖模式时覆盖了所有
分区
。Step 1: Enbable dynamic partition for overwrite mode
spark
.
浏览 1
提问于2020-03-18
得票数 1
1
回答
Java
spark
to
hive
表
插入到动态
分区
异常
、
、
、
我有以下代码,其中我将数据插入到
表
txnaggr_rt_fact
中
,该
表
有2
列
,分别为
分区
的
txninterval和intervaltype。我已经在
spark
sql
中
启用了动态
分区
。如果
分区
已经存在,则没有问题。 数据将被插入到
表
中
,但是如果
分区
不存在,则会出现异常,但是如果
分区
已经存在,则不会出现问题。("<em
浏览 26
提问于2018-09-06
得票数 0
回答已采纳
点击加载更多
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
Spark SQL,DataFrames 以及 Datasets 编程指南
Hive SQL使用过程中的奇怪现象
Spark SQL在字节跳动数据仓库领域的优化实践
Flink+ 数据湖 Iceberg 的体验
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券