文章/答案/技术大牛

发布

首页视频066-尚硅谷-Hive-分桶表

066-尚硅谷-Hive-分桶表

2022-12-022022-12-02 16:02:20播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Hive（2020版）/视频/066-尚硅谷-Hive-分桶表.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
啊，其实刚才我们所说的那个动态分区那块内容呢，其实在官方文档当中，这都能够去找得到，属于电源杠当中插入数据的，然后刚才我们说了动态分区的这个列呢，必须是指定在所有列的什么指定到最后对吧？啊指到最后，然后呢，还要说跟这个长语句当中有拥有着相同的这个顺序，这个指的什么意思呢？是这样的啊，假如说我们是二级分区，是不是第一个有一个对，第二个有个什么over，那你在circle最后写的时候，把分区信息放在最后两个。倒数第二个得是D，倒数第一个是哦，能懂这意思吗？它顺序得相同对吧？啊A相同的顺序，而且呢，刚才我们说了在have3.0，这注意啊，3.0才有的啊，之前是不行的，已经可以不再需要指定什么动态分离字段了，对吧？啊不需要指定了，就是刚才我们所写的这个语法啊，就这个我们之前是不是还指定了一下，还要开启那个所谓的非严格模式，就到了3.0之后，非严格模式不用开了，然后这后面这个东西也可以干什么不写了，对吧？啊不写了就方便一点，倒不是说这个有功能上呢，有多大的一个更新，就是稍微方便一点，做动态分区的时候少写点东西，不用看那个属性了，对吧，就除了这个其他的也没什么差别了啊行，这是我们关于这个分区这块的一个内容，对吧，那之后呢，还有一个分组点。
01:29
啊分图表，呃分图表呢，既然之前我们说分区，现在呢有个分图，它其实也是将数据集干什么。分开也是将数据集给它分开，但是这个分开啊，它不是针对于文件夹来做的区分，它是直接针对于文件，它是将我们一个表，本来我们看到的一个数据叫STu.TC是一个文件放在里边的，如果我们做了分图，它会把这个文件拆分成更多的几个小文件啊，那分组表呢，是在数据集极大的时候才会用到的，因为分组表呢，它可以配合后面的我们抽样查询。
02:12
啊，可以做这个事情啊，一般的这公司当中这个东分钟表咱们做一个了解就好了，不像分区表，那你下去要多练一练分钟表做一个了解，然后里边的搜个呢，稍微的去敲一敲，有个音响就好了啊，这个不作为重点掌握的啊，行，那我们看一下这个分钟表啊，首先呢，刚才我们提到的分区表呢，针对的是路径，就文件夹，而分组表呢，针对的是数据文件啊，它会把一个文件呢拆成好几个小文件啊，是这样的，首先呢，我们准备一个数据啊，来当主任。还是在这data塔目录底下，我外那个STU点插入啊，然后呢，把它放进来保存退出啊，没有什么其他就16条数据啊，从1001~1016这边呢SS1对吧到呃，其实这个SS呢指的是送送啊，从送送一到送送16好吧，呃，然后呢，因为要等会呢，还是要执行MR任务啊，所以呢，我们还是一样的去干一个什么事啊，分发一下啊分发一下，省得报错了，或者还有一种方法，我们把这个东西上传到HDFS。
03:23
那你随便哪个节点执行，是不是NDF的数据大家都能访问到呀，对吧？啊，所以然分发一下啊嗯，然后接下来呢，我们去见表，这个见表语句呢，我们先搂过来看一眼，放在这S啊对吧？同，然后呢，里边有个ID，有那找两个字段嘛，完之后呢，来注意看这，我们把这个分区表的建表语句拿过来做一个对比，分区表刚才还记得我之前在这写的时候，我写一个dp number跟这个完全一样，它直接干什么报错，也就分区表的时候呢，分期分区字段必须跟我们表里的字段不同，它是独立的一个字段，相当于它还要在这指定什么int类型呢，而分同表看a Di Di，而且呢，也没有指定int，分同表必须用的是这里边字段的某。
04:23
其中某一个。啊，用其中的某一个来作为它的一个。分筒字段啊，分筒呢，用的是class t，注意也加了什么ED，对吧？加了ED是不是在查询语句当中有一个class，还记得class，回忆一下它是干什么用的？对，当和字段相同的时候，可以用class by代替那间表语句当中加了什么ED，所以要注意一下，然后呢，我们把整个数据分到四个桶里边，最后这个就不用解释了吧，对吧，其实就是分钟秒呢，多了这两个东西。
05:07
指定分桶字段，以及指定什么分筒的个数啊，桶的个数对吧？好，那我们把这个创建好了啊，同表创建好了，然后之后呢，你也可以正常的去描述一下啊，那这个就无所谓，其实只要看一下什么统的个数对吧，然后我们看一下，找一找这个属性在。在这对吧，而且呢，这个信息是不是在这对吧？哎，我们按照ID进行分组的，好，那表已经记好了，接下来呢，我们把数据导进来。啊，漏的一个数据对吧，还是一样的叫漏。Data我们用local pass，这个时候我们放心大胆的用local，因为三台机器怎么样啊，都有吧，啊在本地都有啊，那其实最好这个东西呢，还是用什么用HDFS对吧？啊into table哪张表S下划线。
06:09
哎，是我是Bo的啊，Bo可是批量，应该是桶6CK啊B啊，BK是Bo是批量的意思写错了。这个落个病例呢，他也会去走这个MR的一个任务是吧。嗯。最后呢，它就会形成这样的一个四个文件啊。他会根据ID去分的。
07:05
等以后大家讲了那个Spark之后，这个have换成Spark引擎就会好很多，这就不至于这么慢，这个实在是太慢了。啊，学8UG以后就毕业了，想太多了，学8UG之后还没两个多月呢，学项目呀，项目学完还有弗Li呢，咋啦，不学Li了就不学了，我们这是这张表啊s do报这张表是不是四个呀，对吧，让我们看一下啊，它其实按ID去分的。这个属于零，那四八十二十六除以四的对吧，还是零对吧？啊，那这个里边毋庸置疑就是什么了。反应这么慢吗？一五九十三对吧，一嘛，除以四对吧，那我们就知道了，二三里边我们就不用去看了，大概知道它是什么样现象对吧？好，那我们就查询一下总的表啊，它的数据呢，就这样子啊，因为它正常加载的时候呢，它是从按照文件的顺序去加载的，从前往后读嘛，对吧？那这是不是零号那个文件，这个是不是刚才我们看到一号文件啊，这个是属于二号文件，因为二六十十四是不是除以四正号二了对吧？这个除以的正号十三零二三啊，它其实也是类似于这种哈希来的，因为in特类型的哈希是自己的对吧？啊不是string类型，斯类型，可能根据这个字间字间码阿斯柯玛值去乘以一个什么31对吧，然后再加上一个什么阿斯柯玛值，又乘以一个31，对吧？啊，为什么乘以31啊，容易。
08:56
有两个情况对吧，第一个31是一个质数，质数的话是不是减少了哈希碰撞呀，对吧？啊会减少哈希碰撞，第二个呢，31正好是32减一是吧？它在做乘以31运算的时候，它可以换成不运算。
09:17
啊，它可以往左移五位去扩大三12倍对吧，然后整个的减一啊，就扩大三11倍，就是它底层为什么选这个数字考虑的这么多啊，所以源码当中有时候要多去看一看，能学到很多东西啊，能学到很多东西啊好，这是我们所看到的一个点，就说分钟表呢，把数据放进去，其实它就是根据ID，然后呢，去模拟四对吧？啊去模拟四得到的这个内容啊，得到这个内容啊呃，然后这个地方要注意一个事情，就是说reduce的个数我刚刚刚好是四对吧，最好的情况下啊是设置为负一，如果说我们设置负一的时候，那分钟表分几个桶，它就会有几个reducer，因为最后他写出来什么几个文件，是不是有几个reducer写出来的，我之前是不是刚好设置了四，我就没改了，所以大家在测的时候最好改成什么负一啊，负一或者说呢，大于等于分桶的一个桶数，要不然你就分不出来什么是桶。
10:16
你分四个桶，最后要四个文件两个，我设置为两个，那有用吗？你只有两个文件了，对吧，所以要大于它，最好是设置为负一啊，第二个这个地方。说从ipdf漏的数据，否则避免掉问题，找不到，这个我们是怎么解决呀，我并没有把它放到ipdfs，我是不是分发一下也可以啊，对吧？啊，两种方式都行，最后一个不要从本地模式，本地模式我们还没聊啊，我们还没聊这个到时候再说啊，本地模式呢能快一点，最后呢，我们就可以把数据放进去，也可以从另外一张表里面in色进去，这种方式也可以啊，这种方式也可以，刚才我们是不是用漏命令啊，对吧？In色的方式也可以啊，这是往里面放数据，这两种都行啊，那接下来我们去抽样查询，所谓抽样查询呢，来看一下S新还是这样子，然后加一个参数叫table sample table表，对吧？Sample什么意思？就是样本的意思对吧？啊，样本的意思好，那这里面呢，叫8124ON ID ID不用聊吧。
11:20
就是说还是以ID作为分等的一个条件，对吧，那我们这个来运行一下，看一下什么情况啊来。这就是所谓的一个抽象查询，其实你看不出规律啊，然后呢，我们再改一个这个值。还有啊，就是说这个地方呢，它要从考虑到每个桶当中，假如说我们改成八来看一下。就那么一点啊，抽出来一条数据。
12:00
这个大体上啊，就是说因为它抽象嘛，是随机的，我们只能说一个大体上这个概念，其实他抽多少东西呢，是这样的啊，基本上它这个位置。就后面这个位置啊，代表的是我样本总共要分成多少份啊，现在呢，我有四个桶对吧，你现在如果说是四，基本上呢，它抽出来的数据呢，是大概是一个桶的内容，一个桶里面现在说大四条数据啊，就是随机的四条数据左右吧，但是因为咱们数据量小啊，就是你要测这种随机算法，数据量特别大的时候才能看出来效果啊，特别大的时候才能看出效果，而前面这个内容啊。前面这个X这个内容，呃，一般指的是就是数函数量小的问题啊，你看不出来这个效果，它指的是从基本上从哪个桶开始抽，从哪个桶开始往后去找数据。啊，从哪个桶开始往后找数据指的是这个意思啊，两个嗯，一般的最最终呢们是抽取出来，你看啊，一般我们抽取出来之后，它不是一个整张表的一个数据了，不是整张表的，也就是说我们之前就提到了分工表在审它的应用场景是什么。
13:17
数据量极大的时候，对吧，数据量极大的时候，我们呢，会对它进行一个分组，然后有时候查询数据，我们看它的规律的时候呢，我们就结合着我们这块的一个什么抽样查询去做这个事情，而且呢，抽啊抽样的话，这个东西它里边还是一样的用到了算法啊，就类似于你之前我们提到的可能用到什么伯努利啊，郭松啊这些东西。你没办法去找到，因为抽象每一次实验都是随机的，对吧，但是只不过说呢，对于我们这个固定的数据来说，它一样的，但这里面有一个点，嗯，他们说X值不能。必须小于Y的值。
14:01
啊，那这个东西我们看一下啊，大家根据我刚才所说的，你去推一下，就是说这个地方我写个五。这个地方我写个四。画错了，他说这边其实就是说我们前面这个值不能大于后面这个值，那你推一下刚才我说的这两个参数的意思。我要把整个数据集分成四等份，然后你从第五个图看出。就是第五份开始抽有吗？没有对吧？啊，根本就不存在这种数据，我分成四等份了，把数据呢，分成四等份，你非得说从第五等份开始开始考虑抽，有这个数据吗？根本就没有对吧，根本就没有，所以他不能大于它，包括我们有可能说我那你说是不是说我总共分了分了这个。
15:04
四个铜你写五不行对吧，那这个写三，这个写二，大家觉得这个能行吗？也不行啊，它这个东西啊，我们说了所谓的哪个桶，指的是重新按这个数据分之后，对吧，就是说你现在16条数据，虽然两个桶，也就说将来我应该抽多少啊，一半一半开始抽，对吧，我要抽1/2，可能然后呢，我们从第三个位置开抽，有第三个位置吗？没有对吧，所以说呢，他不能在他这个其实指定的是从哪个位置开始抽，这个呢，是将你整个的均分为多少抽多少啊抽多少就抽整个的抽1/2啊，抽1/2啊，这个是抽1/4，大概的一一个一个范围啊，就类似于大概的一个范围，因为是抽样嘛，他不可能说我说抽1/2，你16条数据我就抽八条，那15条数据他就不能抽了吗。
16:00
它不可能是一个绝对的概念，能理解这个意思吗？因为是抽象嘛，对吧，你16条是有一半可说，那15条13条怎么办呢。抽6.5抽7.5吗？不可能这样的情况对吧？啊，所以它只是一个抽样啊，大家了解一下这个东西呢，我们今天说过了，分投表呢，其实在公司当中，你们去工作之后啊，呃，也不太常见到，第二个呢，面试的时候也不太能见到，不太常见到，你知道一下他还有这个分工表对吧？然后呢，它结合着可以结合着我们所谓的一个抽样查询来用就行了，但是分区表这个东西一定要是去掌握的。这个就是我们每章当中都涉及到有重点内容对吧，那分区表的重点内容，而分组表和账号查询呢，去了解一下，自己去玩一玩，对都测一测对吧。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hive（2020版）

（66/125）

12分2秒

001-尚硅谷-Hive-课程介绍

460

18分23秒

002-尚硅谷-Hive-概念介绍-

420

11分7秒

003-尚硅谷-Hive-优缺点

380

11分0秒

004-尚硅谷-Hive-架构

380

7分8秒

005-尚硅谷-Hive-与数据库比较

320

21分53秒

006-尚硅谷-Hive-安装&启动

400

10分50秒

007-尚硅谷-Hive-简单使用&Derby存储元数据的问题

420

17分42秒

008-尚硅谷-Hive-MySQL的安装&启动

450

12分20秒

009-尚硅谷-Hive-配置Hive元数据存储为MySQL&再次启动测试

420

7分55秒

010-尚硅谷-Hive-使用元数据服务的方式访问Hive

370

12分18秒

011-尚硅谷-Hive-使用JDBC的方式访问Hive

430

30分10秒

012-尚硅谷-Hive-元数据服务&Hiveserver2脚本封装

480

1分8秒

013-尚硅谷-Hive-修改配置文件使用直连方式访问Hive

320

12分0秒

014-尚硅谷-Hive-其他交互方式

390

10分15秒

015-尚硅谷-Hive-配置日志文件位置&打印当前库名&表头信息

490

15分22秒

016-尚硅谷-Hive-配置信息位置&优先级

450

27分21秒

017-尚硅谷-Hive-课程回顾

330

13分8秒

018-尚硅谷-Hive-关于count star不执行MR任务的说明

360

24分3秒

019-尚硅谷-Hive-Hive中数据类型一

350

2分43秒

020-尚硅谷-Hive-Hive中数据类型二

330

10分20秒

021-尚硅谷-Hive-DDL 创建数据库

420

3分32秒

022-尚硅谷-Hive-DDL 查询&切换数据库

670

6分52秒

023-尚硅谷-Hive-DDL 修改&删除数据库

400

8分27秒

024-尚硅谷-Hive-DDL 建表语句分析

320

8分25秒

025-尚硅谷-Hive-DDL 内外部创建&区别

390

2分53秒

026-尚硅谷-Hive-DDL 内外部互相转换

450

13分51秒

027-尚硅谷-Hive-DDL 建表时指定字段分隔符

410

22分41秒

028-尚硅谷-Hive-DDL 修改&删除表

400

17分14秒

029-尚硅谷-Hive-DML 加载数据 load

360

15分40秒

030-尚硅谷-Hive-DML 加载数据 insert

350

2分48秒

031-尚硅谷-Hive-DML 加载数据 as select

290

5分53秒

032-尚硅谷-Hive-DML 加载数据 location

360

4分50秒

033-尚硅谷-Hive-DML 加载数据 import 未完待续

310

9分1秒

034-尚硅谷-Hive-DML 导出数据 insert

390

3分23秒

035-尚硅谷-Hive-DML 导出数据 hadoop命令&Hive shell

410

15分6秒

036-尚硅谷-Hive-DML 导出数据 export&sqoop说明 import补充

350

5分30秒

037-尚硅谷-Hive-DML 清空全表

340

9分48秒

038-尚硅谷-Hive-DML 查询准备数据

320

6分56秒

039-尚硅谷-Hive-DML 查询查询全表&指定列注意事项

350

4分16秒

040-尚硅谷-Hive-DML 查询列别名&运算符

340

4分58秒

041-尚硅谷-Hive-DML 查询聚合函数&Limit&Where

450

11分35秒

042-尚硅谷-Hive-DML 查询比较运算符&逻辑运算符

400

6分19秒

043-尚硅谷-Hive-DML 查询 GroupBy & Having

370

23分3秒

044-尚硅谷-Hive-课程回顾

380

14分3秒

045-尚硅谷-Hive-DML 查询 JOIN 内连接

280

5分59秒

046-尚硅谷-Hive-DML 查询 JOIN 左外连接

360

3分27秒

047-尚硅谷-Hive-DML 查询 JOIN 右外连接

400

6分30秒

048-尚硅谷-Hive-DML 查询 JOIN 满外连接

330

13分2秒

049-尚硅谷-Hive-DML 查询 JOIN 取左表独有数据

350

3分35秒

050-尚硅谷-Hive-DML 查询 JOIN 取右表独有数据

340

15分52秒

051-尚硅谷-Hive-DML 查询 JOIN 取左右两表独有数据

420

6分3秒

052-尚硅谷-Hive-DML 查询 JOIN 多表连接

330

5分23秒

053-尚硅谷-Hive-DML 查询 JOIN 笛卡尔积

420

5分49秒

054-尚硅谷-Hive-DML 查询排序 Order By

330

10分33秒

055-尚硅谷-Hive-DML 查询排序 Sort By

390

11分28秒

056-尚硅谷-Hive-DML 查询排序 Distribute By & Cluster By

380

2分40秒

057-尚硅谷-Hive-DML 查询排序 4个By总结

390

4分53秒

058-尚硅谷-Hive-分区表说明

370

11分15秒

059-尚硅谷-Hive-分区表创建&简单使用

330

7分57秒

060-尚硅谷-Hive-分区表分区的增删查

340

5分2秒

061-尚硅谷-Hive-分区表二级分区

420

10分18秒

062-尚硅谷-Hive-分区表使HDFS数据与分区表产生联系的方式

330

5分1秒

063-尚硅谷-Hive-分区表 load加载数据不指定分区演示

420

11分30秒

064-尚硅谷-Hive-分区表动态分区演示

410

5分43秒

065-尚硅谷-Hive-分区表动态分区 3.0新特性

370

16分48秒

066-尚硅谷-Hive-分桶表

350

7分56秒

067-尚硅谷-Hive-DML 函数查询系统函数

400

2分1秒

068-尚硅谷-Hive-DML 函数 NVL

370

13分0秒

069-尚硅谷-Hive-DML 函数 CASE WHEN THEN ELSE END

430

17分44秒

070-尚硅谷-Hive-课程回顾

270

11分6秒

071-尚硅谷-Hive-DML 函数拼接字符串函数说明

430

12分52秒

072-尚硅谷-Hive-DML 函数拼接字符串函数使用

300

12分45秒

073-尚硅谷-Hive-DML 函数 Explode

420

1分42秒

074-尚硅谷-Hive-DML 函数行转列&列转行说明

400

25分35秒

075-尚硅谷-Hive-DML 函数窗口函数初体验

460

9分10秒

076-尚硅谷-Hive-DML 函数窗口函数需求二

350

17分22秒

077-尚硅谷-Hive-DML 函数窗口函数需求三

380

5分59秒

078-尚硅谷-Hive-DML 函数窗口函数排序值相同时说明

340

12分39秒

079-尚硅谷-Hive-DML 函数窗口函数需求四

430

6分17秒

080-尚硅谷-Hive-DML 函数窗口函数需求五

380

16分16秒

081-尚硅谷-Hive-DML 函数窗口函数 Rank

310

21分13秒

082-尚硅谷-Hive-DML 函数其他常用函数日期函数

360

1分49秒

083-尚硅谷-Hive-DML 函数其他常用函数数据取整函数

360

7分19秒

084-尚硅谷-Hive-DML 函数其他常用函数字符串相关函数

370

3分8秒

085-尚硅谷-Hive-DML 函数其他常用函数集合函数

310

1分47秒

086-尚硅谷-Hive-DML 函数课堂练习布置任务

350

20分48秒

087-尚硅谷-Hive-DML 函数自定义UDF 编码

410

9分18秒

088-尚硅谷-Hive-DML 函数自定义UDF 打包测试

430

14分11秒

089-尚硅谷-Hive-DML 函数自定义UDTF 编码

390

6分30秒

090-尚硅谷-Hive-DML 函数自定义UDTF 打包测试

320

13分28秒

091-尚硅谷-Hive-课程回顾

340

3分28秒

092-尚硅谷-Hive-DML 函数课堂练习 Hive实现WordCount完成

330

8分38秒

093-尚硅谷-Hive-DML 函数课堂练习自定义UDTF炸裂出两个列

340

20分53秒

094-尚硅谷-Hive-DML 函数 Grouping Sets

470

10分37秒

095-尚硅谷-Hive-压缩和存储压缩方式说明&启用Map端输出压缩

400

2分40秒

096-尚硅谷-Hive-压缩和存储启用最终输出压缩

380

5分5秒

097-尚硅谷-Hive-压缩和存储行式&列式存储说明

360

9分9秒

098-尚硅谷-Hive-压缩和存储 ORC&Parquet文件格式

290

8分8秒

099-尚硅谷-Hive-压缩和存储 Text&ORC&Parquet 存储和查询对比

390

100

5分18秒

100-尚硅谷-Hive-压缩和存储存储方式结合压缩使用测试

460

101

9分58秒

101-尚硅谷-Hive-优化 Explain查看执行计划

420

102

2分52秒

102-尚硅谷-Hive-优化 Fetch抓取

310

103

3分8秒

103-尚硅谷-Hive-优化本地模式

320

104

13分24秒

104-尚硅谷-Hive-优化小表JOIN大表

360

105

6分0秒

105-尚硅谷-Hive-优化大表JOIN大表空key过滤

400

106

10分6秒

106-尚硅谷-Hive-优化大表JOIN大表空key转换

330

107

15分0秒

107-尚硅谷-Hive-优化大表JOIN大表 SMB JOIN

330

108

6分0秒

108-尚硅谷-Hive-优化 GroupBy 数据倾斜

390

109

6分3秒

109-尚硅谷-Hive-优化 Count(distinct）

390

110

11分42秒

110-尚硅谷-Hive-优化行列过滤

330

111

7分20秒

111-尚硅谷-Hive-优化设置Map任务数

360

112

3分40秒

112-尚硅谷-Hive-优化设置Reducer任务数

420

113

2分35秒

113-尚硅谷-Hive-优化并行执行

360

114

6分1秒

114-尚硅谷-Hive-优化严格模式

430

115

2分8秒

115-尚硅谷-Hive-优化 JVM重用&压缩

320

116

11分38秒

116-尚硅谷-Hive-案例实操数据准备

380

117

11分52秒

117-尚硅谷-Hive-案例实操安装Tez引擎&测试

610

118

21分37秒

118-尚硅谷-Hive-课程回顾

370

119

6分10秒

119-尚硅谷-Hive-案例实操需求一

380

120

8分18秒

120-尚硅谷-Hive-案例实操需求二

340

121

5分55秒

121-尚硅谷-Hive-案例实操需求三

330

122

10分22秒

122-尚硅谷-Hive-案例实操需求四

330

123

10分10秒

123-尚硅谷-Hive-案例实操需求五

350

124

4分19秒

124-尚硅谷-Hive-案例实操需求六

350

125

11分37秒

125-尚硅谷-Hive-案例实操需求七

330

066-尚硅谷-Hive-分桶表

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐