腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
确定
hive
中
的
存储
桶
数量
、
如何
确定
蜂巢
中
存储
桶
的
数量
?提前谢谢你。
浏览 0
提问于2017-07-21
得票数 0
4
回答
我们怎样才能决定总
的
不。配置单元表
的
存储
桶
的
数量
、
、
、
我是hadoop
的
新手。据我所知,知识
桶
是固定不变
的
。
hive
表和
hive
中
的
分区
的
编号。减水剂
的
数量
与总no。创建表时定义
的
存储
桶
的
数量
。那么,谁能告诉我
如何
计算总
的
no。蜂窝表
中
的
桶
的
数量
。是否有计算
浏览 5
提问于2015-06-09
得票数 5
3
回答
两个表
的
Hive
- Efficient连接
、
、
、
我正在连接
Hive
中
的
两个大表(一个超过10亿行,一个大约1亿行),如下所示:我已经以相同
的
方式对这两个表进行了
存储
桶
操作,根据id将每个表聚集为100个
存储
桶
,但是查询仍然需要很长时间。对
如何
加快速度有什么建议吗?
浏览 4
提问于2013-11-26
得票数 15
回答已采纳
2
回答
Apache
Hive
分区和分组结构
、
在Apache
Hive
中
,在对一个巨大
的
数据集进行分区和
存储
桶
之后,目录结构是什么样子
的
? 对于Ex -I有一个国家/地区
的
客户数据集,数据按州分区,然后按城市分
桶
。我们
如何
知道一个城市
存储
桶
中会有多少个文件?
浏览 28
提问于2020-01-26
得票数 2
1
回答
如何
在配置单元中隔离行?
我想要实现NTILE所做
的
事情,但不是通过传递
存储
桶
的
数量
,而是通过传递每个
存储
桶
中
的
项
的
数量
。有没有办法在
Hive
中
做到这一点?83 1 S1 75 2 我希望实现相同
的
目的,但不是通过传递
存储<
浏览 6
提问于2021-08-25
得票数 0
回答已采纳
1
回答
配置单元表
中
的
分区/
存储
桶
的
数量
与它为该数据
的
任何操作启动
的
映射任务
的
数量
之间是否存在关系?
、
、
、
、
我知道map任务
的
数量
与输入格式给出
的
输入拆分
数量
相同。当在分区或分
桶
的
配置单元表上执行操作时,当数据以分区或分
桶
的
数据
的
目录
中
的
文件
的
形式存在时,InputFormat类
如何
计算输入拆分?输入拆分(映射任务
的
数量
)与分区或
存储
桶
的
数量
之间是否存在某种关系?
浏览 0
提问于2016-05-05
得票数 0
2
回答
配置单元
中
的
存储
桶
策略
我们可以在
Hive
中
的
字符字段上创建bucket吗?emp_id string, emp_city string,); 是否可以在emp_grade列上创建
存储
桶
浏览 1
提问于2020-01-24
得票数 1
3
回答
在配置单元中使用排序表
、
令人不快
的
细节如下:我设置了以下flags:=============set mapred.reduce.tasksBTW
中
,这里
的
数据按符号聚集,并按时间排序。我似乎不能让
Hive
使用这个概念。另外,有没有办法让整个过程在一个查询步骤而不是两个步骤
中
工作?请注意,该表是用sort by子句构造和填充
的
。以下是查询
的
计划
浏览 0
提问于2011-08-04
得票数 3
回答已采纳
8
回答
在
Hive
中
划分和
存储
表有什么区别?
、
我知道这两个操作都是在表
中
的
一个列上执行
的
,但是每个操作有什么不同。
浏览 0
提问于2013-10-02
得票数 152
回答已采纳
1
回答
每桶一个以上
的
减速机
、
我有一个蜂箱表,里面有1024个
桶
。最大减速器限制设置为1024,通常经验法则是每个
桶
1个减速器。现在我想增加reducers
的
数量
以获得更快
的
性能,并且我想知道我是否可以为每个bucket设置多个reducer。如果我能做到这一点,那么它对性能有什么影响呢?
浏览 1
提问于2016-02-26
得票数 0
1
回答
蜂箱汤匙和水桶
、
、
我现在正在学习
桶
,我
的
任务是创建一个由2个
桶
组成
的
Hive
表,然后将至少5条记录放入该表
中
。我不知道
的
是以下内容--我必须运行这个查询:当我运行它时,它返回0行,我不知道为什么我试着在网上查一下,但没有找到确切
的
答案。如果我用表
中
的
其他字段替换id,它将返回
桶
<
浏览 4
提问于2020-04-13
得票数 1
回答已采纳
1
回答
配置单元中排序合并
存储
桶
映射联接
的
输入
、
、
、
、
我想使用以下选项执行排序-合并连接,如配置单元手册()中所述set
hive
.optimize.bucketmapjoin = true;两个表都必须在join列上进行
存储
和排序。我
的
问题是-排序是否必须是全局
的</em
浏览 2
提问于2013-07-11
得票数 1
回答已采纳
1
回答
蜂箱
桶
-理解TABLESAMPLE(Y
中
的
X
桶
)
、
、
嗨,我是非常新
的
蜂巢,我已经通过了
桶
的
概念在hadoop
的
行动,但未能理解下面的lines.can,有人帮助我这一点吗?SELECT avg(viewTime)TABLESAMPLE
的
一般语法是TABLESAMPLE(
桶
x出y) 查询
的
样本大小约为1/y,此外,y需要是表创建时为表指定
的
桶
数
的
倍数或因子。y更
浏览 3
提问于2013-09-13
得票数 9
1
回答
S3和spark。S3上有多个蜂窝目标。对某些表使用s3:sse,对某些配置单元表不使用s3:sse。
、
我想编写一个spark应用程序,在其中我可以从多个
hive
表
中
读取数据,并向多个
hive
表
中
写入数据。然而,这里有一个奇怪
的
地方。据我所知,我只能在全局级别设置属性fs.s3a.server-side-encryption algorithm。 我该怎么做呢?我非常
确定
这是一个常见
的</
浏览 2
提问于2017-04-06
得票数 0
1
回答
确定
Hive
的
存储
桶
连接
的
存储
桶
数
、
、
我希望能够使用
Hive
的
存储
桶
映射连接。我知道A、B、C
的
存储
桶
应该是彼此
的
倍数。 在创建表时,是否有一个通用规则来估计所需
的
#
存储
桶
,以确保映射端连接?
浏览 1
提问于2014-04-13
得票数 0
1
回答
存储
桶
未在hadoop-
hive
上创建
、
我正在尝试使用以下命令在配置单元
中
创建
存储
桶
: clustered by( country)fields terminated by ','命令执行成功:当我将数据加载到这个表
中
时,它成功执行,并且在使用但是,在HDFS上,它只创建一个表,并且只有一个包含所有数据
浏览 6
提问于2015-04-05
得票数 0
2
回答
蜂箱桶状地图连接
、
、
、
我在执行
桶
形地图连接时面临问题。Table1是一个按年、月和日划分
的
表。每个分区数据由列c1放入128个
桶
中
。我每天有将近一亿张唱片。我把8000万张唱片装进128个
桶
里。Table 2( c2)我已经检查了数据,并按照预期将其加载到
桶
中
。set
hive
.au
浏览 1
提问于2014-05-20
得票数 0
2
回答
蜂箱和分区
、
、
我们应该根据什么来缩小范围,无论是使用分区还是在蜂巢
中
的
一组列上使用
桶
?假设我们有一个庞大
的
数据集,其中有两个列是最常被查询
的
--所以我很明显
的
选择是基于这两列创建分区,但如果这会导致在大量目录
中
创建大量
的
小文件,那么基于这些列对数据进行分区是一个错误
的
决定,并且可能是一个更好
的
选择我们是否可以定义一种方法,我们可以用它来决定我们应该采用
的
是
桶
式还是分区?
浏览 3
提问于2015-12-04
得票数 0
回答已采纳
1
回答
在presto
中
对配置单元
存储
区表运行查询时出现异常
HIVE
_PARTITION_SCHEMA_MISMATCH (16777224)at com.facebook.presto.
hive
.BackgroundHiveSplitLoader.loadPartition(BackgroundHiveSplitLoader.java:333) at com.facebook.presto.
hive
.BackgroundHiveSplitLoader.loadSpl
浏览 2
提问于2016-04-14
得票数 1
2
回答
通过sparkSQL创建蜂窝
、
、
、
我对蜂巢
中
的
扣环有一个疑问。我已经创建了一个临时表,该表在列关键字上
存储
桶
。当我检查这个表
的
基目录时,它显示了前缀为part_*
的
文件名。但是,当我通过另一个表手动将数据插入到这个表
中
时,我看到了以00000_*为前缀
的
文件。 我不
确定
spark sql是否将数
浏览 1
提问于2018-08-02
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【大数据】Hive 分区和分桶的区别及示例讲解
0516-如何查看Hive中某个角色所有已授权的组
大数据入门基础系列之浅谈Hive的桶表
Hive 3的ACID表
Hive|如何避免数据倾斜
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券