文章/答案/技术大牛

发布

首页视频86_尚硅谷_用户行为数仓_Hive企业面试题总结

86_尚硅谷_用户行为数仓_Hive企业面试题总结

2022-12-022022-12-02 16:02:32播放37

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据项目之电商数仓/4.视频/86_尚硅谷_用户行为数仓_Hive企业面试题总结.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们继续看这个第15章总结的内容，那第15.1呢，就是整个用户行为数章的业务方面的内容的一个总结啊，希望大家呢，要把这些东西掌握到啊，然后有精力的或者有时间的同学，你再把前边这些能敲第二遍，再敲第二遍啊，如果你现在没有时间，那没关系，在最后一天的时候，我可以一天的时间啊，把前面东西再给我敲一下啊，快速的捋一遍这个思路那就OK了，比如说这个代码，如果你不敲到第二遍，这个感觉是肯定是差点意思的啊，我希望大家呢，这个要有这种感觉啊，OK，那那看一下这个15.2，那这里面呢，就是总结维度，之前我们学的have当中有哪些技术方面的点。啊，你说日后你在写简历的时候，一方面是业务方面，你会哪些，另一方面就是技术啊，分成两块啊，那刚才我们上面这块呢，就是属于业务范畴的，你分析过哪些指标，做哪些事，平时干什么活了，那下面这块呢，就是你在这个学习过程当中用到了什么框架，你对这个框架的理解是什么样的这么两个维度，那好，那我们来看一下第一个。
01:14
汉语当中有这么多面试题？那大家想想，闭上眼睛或者看上我这个空白桌面，能想起来还有有啥事儿？啊，这跟我们复习之前的卡法啊，主宾格是一样的。到未来的时候，你说你毕业之前，你一定要在两个小时之内，把你所有学过的框架以及项目当中的业点全部在你的脑海中展现出来，那就够了。你那你就是这个无敌状态，如果达不到这种状态，那就差点意思。啊，如果你真的是，你就通过我的模拟面试，你说两个小时你能把我想要的东西都给我说出来，我帮你找个，如果你找不到，我可以送上你啊2K是吧，不到没有任何问题，行，那么下面我们就复习一下这个have啊，从还有这个学习这个从上到下这个顺序，那have第一道题就是have的组成。
02:16
转架构，那上边这块是客户端，左侧是原数据默认存储站德尔数据库，后来把它存储在MYL数据库，为什么？支持多个各端同时访问，好那这块是四个器，哪个器，编译器，优化器，执行器，还有一个解析器，是这样吗？好，那下面在运算的底层是。Number下面存储是好，这是第一道题，还有个组成，那这里面其实还会有一个进步的一个，呃，身份就是这个逻辑执行计划呀，物理执行计划呀，啊这些东西啊，个别的会有问，但是问的不多啊，有经验同学可以看一下，那么下面第二道问题。
03:10
第二大问题是什么呢？Have与买SQL数据库的一个。低价。啊，他们之间什么区别和联系，还有。买，还有有比较havell和h base的啊，还有havell跟mango DB啊，其他一些数据库的都有啊，但是呢类似那还和MY色Le它们类似的地方就是hi和circle啊，你是查询语句上略微相同，那剩下的基本什么都不同，比如说存储。它存储是大量的数据，它相对的数据量像啊像还长。谁的速度快这快对吧，那相对来说慢一些，因为底层是M2啊，那这么几个角度就差不多了啊，一说速度上啊，一个什么量级上啊，相同的是。
04:07
四口啊，或者黑口啊，那第三道问题也说明说这样问的就是内部表和外部表的区别。那什么区别？在删除数据的时候，内部表是把原始数据也删除掉，外部表只是删除原数据，并没有删除原始数据，OK啊，但是这个啊，真的是最高频的，应该说所只要问汉当中是最高频的，那再问你在整个咱们这个书仓当中，或者说你做过的数仓。用没用过，卖不了的那表儿。用过你们用的都是，那没人问用没用过，内部人。什么时候用？嗯，没用过是吧，啊，我告诉你啊，我要提醒你啊，内部表是属于在创建临时表的时候。
05:04
你说你分一个指标需要一些临时表，那这个表就是内容表，只有你一个人使用。你说在真正的企业开发中就是这样的，只有你自己建的临时表，它是内部表啊，记住这一点啊，记住一点，面部完直接问啊，这因为这一道题就有可能决这量了啊，但是绝大多数都是外部表啊，因为都是多人去共用啊，这是一个核点，那再往下。会问到啊四个啊。哪色拜呢？阿拜萨拜啊，D区拜class拜对吧？那么阿拜属于分区内排序诶二派全区排序是吧？二派乘以排序派分区内排序第七六派分区class s和字段相同的时候啊，它俩的一个啊相和啊好，那这是设派，那它还会问用没用过系统函数，用过哪些。
06:10
来了，首先class collect对吧，还有date smart，还有date at，还有萨，还有last day，还有get、杰森，还有mini和must是吧？OK啊，还有last day是吧？啊，这么多nice day，还有个next day啊，是这么多。所以说这那什么跟这些咔咔咔连冲炮似的啊，在五秒之内打出有几个。啊，一定要快，要快OK，但是同质要清楚啊，好，这是系统函数，那他还会问用没用过窗口函数。路啊，开窗over over over里面有开对吧啊有part和order啊，而且里面还有向上几行，向下几行是吧？啊还有第几行啊类似的这些参数啊，那还有这什么排序对吧啊，有rock还有啊Dis rock还有是吧啊这么几个OK，好，那这是这些，那他还会问。
07:30
用没用过udf udf用过，用它干什么了？Udf解析空值的，UDTF解析事件值的啊，而且系统有能解决这身解析的，为什么来用呢？方便定位错误OK，那还有udf步骤，大家说过继继承udf重写里面的evaluate方法，Uddf继承个udpf重写三个方法，初始化close和process。初始化里面做了哪件事？定义输出参数的名称和类型啊，Process里面。
08:18
是获取数据，然后它是以本身就是一个接数组啊，然后循环便利这个接身数组啊，取出一个一个数组当中的值，一个数组当中的值，取出两个字段，分别是事件名称和事件内容，通过方法的写出去，OK，这是这一块有点同学讲过，那还有一道题就是have的优化。啊，优画那么硬画有17个是吧？啊，吓到了啊，没必要说么多啊，那至少你要快速的说出七到八个啊，七到八个。比如说第一个map draw啊，Map draw默认是打开的吧，啊，但是你这个记得啊，要打开第一个，然后分区分头对吧？啊，自动优化手段，然后还有啊，像合理设置mapb个数，合理设置reduce个数，还有优化小文件combine还LL input form大啊减少这个web代词的个数啊还有这里面其实还有一个就是mor mor咱们应该是没讲吧啊，我给大家讲一下啊。
09:32
沉默是产生了一个事。就过了一半。这个呢是在输出，我们讲文件什么情况呢？你再跑一个类似于map工类任务，什么叫map工类任务阶对没有本也就阶段的任务，那这种情况下，这个功能默认是开启的，什么功能呢？一旦产生大量的小文件，它会自动将N多个小文件进行word合并。
10:01
那word合并，合并到了多大呢？256兆，那多大的文件认为是一个小文件呢？这个值你可以设置啊，如果说这个文件小于它，那我就把它进行word word到二百五六兆啊，那这个呢，是只要你跑外公来，让你能自动将它进行这些文件进行合并。啊，是没过程，那还有如果你跑的是迈克reduce任务，那这个值它就默认不是开启的，是false，你需要把它打开啊打开，而且一旦产生小文件进行摸底。啊，这也是美团嗯，他们内部大量使用的啊，包括之前在凤凰网啊的老师他们也是啊大量使用，这是他们给加过来的啊，也是在真正开发中用的非常非常广泛的产数的一个配置啊这些才是一些干货啊好，那这个就是啊墨这个功能默那这里面还涉及到行列过滤对吧？啊先过滤再造应啊类似这种处理哈，这行列过滤，那你看这就细胞个了没了啊你看我刚才说的外B专音行列过滤分级分走合理设置外B个数合理设置里就是个数啊小文件combine还有一个呢。
11:20
然后呢，合理设置这些参数，其实还有还有什么JM处理小文件对吧？啊还有什么这个非严格模式是吧？啊还有什么动态视频等等一堆，但是你需要联名号似的记录七个八个。啊，你要说就一两个那不行。那很好，那就是这么多内容，你看这就是技术，你需要掌握内容。那剩下的还有这块的业务，你需要把上面这些搞定。比如说一个文档我们学了将近三天啊，那就这些算了，太典型，绝对也算啊，这绝对算啊，T引擎提高应该速度对吧？那么大家问题，我什么时候用这个tag引擎算一些指标，什么时候用MR去算一些指标，或者什么时候用我们日后学的Spark。
12:09
那Spark和T它是基于内存运算的，那MR是于磁盘的，对吧？那么这里面就有个问题了，是不是我见到指标就用不是，那什么情况下用统计对数据量统计指标，在周国周指标，月指标，年指标特别大的情况下，用的就是mmr啊，那这种特别时间少啊，要求时间快，数据量比较小，那就用pad基于内存那一块啊，这个要区分开啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓

（129/142）

9分33秒

01_尚硅谷_数仓项目介绍

400

3分18秒

02_尚硅谷_数仓采集_用户行为采集课程介绍

360

15分26秒

03_尚硅谷_数仓采集_数仓的概念

340

4分16秒

04_尚硅谷_数仓采集_项目需求

390

8分42秒

05_尚硅谷_数仓采集_项目技术选型

410

12分33秒

06_尚硅谷_数仓采集_系统数据流程设计

380

4分49秒

07_尚硅谷_数仓采集_框架版本选型

360

5分28秒

08_尚硅谷_数仓采集_框架版本具体型号

390

9分7秒

09_尚硅谷_数仓采集_服务器选型

340

21分24秒

100_尚硅谷_业务数仓_DWS层之用户行为宽表

450

10分21秒

101_尚硅谷_业务数仓_需求九：GMV成交总额

490

10分17秒

102_尚硅谷_业务数仓_需求十：ADS层之新增用户占日活跃用户比率

390

12分58秒

103_尚硅谷_业务数仓_需求十一：ADS层之用户行为漏斗分析

410

22分50秒

104_尚硅谷_业务数仓_用户购买商品明细表（宽表）

420

14分14秒

105_尚硅谷_业务数仓_需求十二：ADS层品牌复购率

330

27分9秒

106_尚硅谷_业务数仓_需求十三：求每个等级的用户对应的复购率前十的商品排行(学生分享)

420

26分37秒

107_尚硅谷_业务数仓_数据可视化

380

14分47秒

108_尚硅谷_业务数仓_Azkaban安装

380

16分23秒

109_尚硅谷_业务数仓_GMV指标获取的全调度流程

360

6分34秒

10_尚硅谷_数仓采集_集群资源规划设计

370

13分5秒

110_尚硅谷_业务数仓_拉链表理论

380

29分13秒

111_尚硅谷_业务数仓_拉链表制作

330

24分37秒

112_尚硅谷_业务数仓_业务数仓项目总结

330

1分24秒

113_尚硅谷_业务数仓_即席数仓课程介绍

370

10分20秒

114_尚硅谷_即席数仓_Presto简介

370

22分13秒

115_尚硅谷_即席数仓_Presto安装及使用

350

5分51秒

116_尚硅谷_即席数仓_Presto优化

330

7分40秒

117_尚硅谷_即席数仓_Druid概念、特点、场景

370

6分51秒

118_尚硅谷_即席数仓_Druid对比其他框架

290

11分24秒

119_尚硅谷_即席数仓_Druid框架原理

370

12分41秒

11_尚硅谷_数仓采集_测试集群服务器规划

440

5分5秒

120_尚硅谷_即席数仓_Druid数据结构

390

14分50秒

121_尚硅谷_即席数仓_Druid安装

280

18分53秒

122_尚硅谷_面试题_总体架构

360

41分22秒

123_尚硅谷_面试题_技术框架

350

22分0秒

124_尚硅谷_面试题_用户行为、业务数据、即席查询

340

36分54秒

125_尚硅谷_面试题_开发经验

380

3分28秒

126_尚硅谷_CDH数仓_课程介绍

390

4分7秒

127_尚硅谷_CDH数仓_CM简介及架构

330

20分4秒

128_尚硅谷_CDH数仓_CM安装环境准备

380

30分4秒

129_尚硅谷_CDH数仓_CM、Hadoop、Zookeeper安装

290

13分18秒

12_尚硅谷_数仓采集_埋点数据基本格式

430

6分17秒

130_尚硅谷_CDH数仓_采集Flume的安装

330

7分48秒

131_尚硅谷_CDH数仓_Kafka安装

400

3分53秒

132_尚硅谷_CDH数仓_测试Flume和Kafka安装

300

3分25秒

133_尚硅谷_CDH数仓_消费Flume配置完成

380

9分49秒

134_尚硅谷_CDH数仓_Hive、Oozie、Hue安装

390

3分29秒

135_尚硅谷_CDH数仓_用户行为数仓ODS层导数据

360

9分22秒

136_尚硅谷_CDH数仓_用户行为数仓完结

380

3分8秒

137_尚硅谷_CDH数仓_业务数据生成

430

15分37秒

138_尚硅谷_CDH数仓_业务数仓完结

400

6分34秒

139_尚硅谷_CDH数仓_Oozie执行前准备

340

7分15秒

13_尚硅谷_数仓采集_事件日志数据（上）

350

10分23秒

140_尚硅谷_CDH数仓_Oozie任务编写及运行

270

5分24秒

141_尚硅谷_CDH数仓_即席查询数仓搭建Impala

350

5分58秒

142_尚硅谷_CDH数仓_Spark安装及总结

430

13分26秒

14_尚硅谷_数仓采集_事件日志数据（下）

350

28分13秒

15_尚硅谷_数仓采集_日志生成代码编写

370

7分5秒

16_尚硅谷_数仓采集_Logback日志打印控制

400

11分17秒

17_尚硅谷_数仓采集_服务器准备

360

23分41秒

18_尚硅谷_数仓采集_Hadoop安装

340

2分53秒

19_尚硅谷_数仓采集_项目经验之HDFS多目录配置

350

5分19秒

20_尚硅谷_数仓采集_项目经验之支持LZO压缩配置

370

9分38秒

21_尚硅谷_数仓采集_项目经验之基准测试

380

8分3秒

22_尚硅谷_数仓采集_项目经验之HDFS参数调优

400

6分19秒

23_尚硅谷_数仓采集_Zookeeper安装

430

9分14秒

24_尚硅谷_数仓采集_项目经验之ZK集群启动停止脚本

380

6分33秒

25_尚硅谷_数仓采集_生成测试日志

260

2分2秒

26_尚硅谷_数仓采集_集群日志生成启动脚本

310

6分39秒

27_尚硅谷_数仓采集_集群时间同步修改脚本

350

2分7秒

28_尚硅谷_数仓采集_集群所有进程查看脚本

340

16分15秒

29_尚硅谷_数仓采集_每日回顾

360

7分5秒

30_尚硅谷_数仓采集_日志采集Flume安装

340

9分19秒

31_尚硅谷_数仓采集_Flume组件及配置

380

11分24秒

32_尚硅谷_数仓采集_日志采集Flume配置分析

400

26分57秒

33_尚硅谷_数仓采集_ETL拦截器

380

11分15秒

34_尚硅谷_数仓采集_分类型拦截器

400

16分15秒

35_尚硅谷_数仓采集_日志采集Flume启动停止脚本

280

7分4秒

36_尚硅谷_数仓采集_Kafka集群安装

410

12分6秒

37_尚硅谷_数仓采集_Kafka集群启动停止脚本

310

9分22秒

38_尚硅谷_数仓采集_Kafka Manager安装及脚本

360

11分29秒

39_尚硅谷_数仓采集_项目经验之Kafka压力测试

330

4分1秒

40_尚硅谷_数仓采集_项目经验之Kafka机器数量计算

420

23分59秒

41_尚硅谷_数仓采集_消费Kafka数据Flume

330

2分38秒

42_尚硅谷_数仓采集_项目经验之Flume内存优化

400

7分9秒

43_尚硅谷_数仓采集_项目经验之Flume组件

400

19分28秒

44_尚硅谷_数仓采集_采集通道启动停止脚本

350

3分2秒

45_尚硅谷_数仓采集_调试经验

390

35分45秒

46_尚硅谷_数仓采集_面试题（Linux、Shell、Hadoop）

410

22分44秒

47_尚硅谷_数仓采集_面试题（Flume、Kafka）

360

38分31秒

48_尚硅谷_用户行为数仓_每日回顾

370

3分50秒

49_尚硅谷_用户行为数仓_用户行为数仓课程介绍

330

8分24秒

50_尚硅谷_用户行为数仓_为什么要分层

390

9分12秒

51_尚硅谷_用户行为数仓_数仓分层

300

2分26秒

52_尚硅谷_用户行为数仓_数据集市与数据仓库概念

320

1分11秒

53_尚硅谷_用户行为数仓_数仓命名规范

300

15分44秒

54_尚硅谷_用户行为数仓_Hive&MySQL安装

390

17分44秒

55_尚硅谷_用户行为数仓_Hive运行引擎Tez

410

3分7秒

56_尚硅谷_用户行为数仓_项目经验之元数据备份

360

100

18分25秒

57_尚硅谷_用户行为数仓_ODS层启动日志和事件日志表创建

370

101

14分0秒

58_尚硅谷_用户行为数仓_ODS层加载数据脚本

400

102

29分44秒

59_尚硅谷_用户行为数仓_DWD层启动日志建表及导入数据

420

103

7分38秒

60_ 尚硅谷_用户行为数仓_DWD层启动表加载数据脚本

380

104

10分18秒

61_尚硅谷_用户行为数仓_DWD层事件基础明细表创建

350

105

22分2秒

62_尚硅谷_用户行为数仓_自定义UDF函数（解析公共字段）

430

106

34分5秒

63_尚硅谷_用户行为数仓_自定义UDTF函数（解析事件日志基础明细表）

360

107

6分57秒

64_尚硅谷_用户行为数仓_DWD层数据解析脚本

330

108

21分21秒

65_尚硅谷_用户行为数仓_DWD层事件表加载数据脚本

340

109

10分42秒

66_尚硅谷_用户行为数仓_今日回顾

330

110

13分49秒

67_尚硅谷_用户行为数仓_业务术语

390

111

14分54秒

68_尚硅谷_用户行为数仓_日期的系统函数

360

112

12分58秒

69_尚硅谷_用户行为数仓_每日活跃设备明细

380

113

12分6秒

70_尚硅谷_用户行为数仓_每周活跃设备明细

510

114

6分43秒

71_尚硅谷_用户行为数仓_每月活跃设备明细

290

115

3分50秒

72_尚硅谷_用户行为数仓_DWS层加载数据脚本

330

116

18分8秒

73_尚硅谷_用户行为数仓_需求一：ADS层日活、周活、月活用户数

290

117

9分24秒

74_尚硅谷_用户行为数仓_每日新增设备明细表

350

118

3分34秒

75_尚硅谷_用户行为数仓_需求二：ADS层每日新增设备表

400

119

11分0秒

76_尚硅谷_用户行为数仓_用户留存分析

350

120

12分44秒

77_尚硅谷_用户行为数仓_1、2、3、n日留存用户明细

360

121

12分41秒

78_尚硅谷_用户行为数仓_需求三：ADS层留存用户和留存比率

360

122

22分3秒

79_尚硅谷_用户行为数仓_新数据准备

370

123

12分34秒

80_尚硅谷_用户行为数仓_需求四：沉默用户

380

124

18分43秒

81_尚硅谷_用户行为数仓_需求五：本周回流用户数

410

125

6分13秒

82_尚硅谷_用户行为数仓_需求六：流失用户

320

126

9分0秒

83_尚硅谷_用户行为数仓_需求七：最近连续3周活跃用户数

390

127

19分59秒

84_尚硅谷_用户行为数仓_需求八：最近七天内连续三天活跃用户数

380

128

13分41秒

85_尚硅谷_用户行为数仓_用户行为数仓业务总结

440

129

12分47秒

86_尚硅谷_用户行为数仓_Hive企业面试题总结

370

130

6分35秒

87_尚硅谷_业务数仓_业务数仓课程介绍

340

131

16分53秒

88_尚硅谷_业务数仓_电商业务与数据结构简介

320

132

6分27秒

89_尚硅谷_业务数仓_表的分类

380

133

8分25秒

90_尚硅谷_业务数仓_同步策略

350

134

14分15秒

91_尚硅谷_业务数仓_范式理论

320

135

7分23秒

92_尚硅谷_业务数仓_雪花模型、星型模型和星座模型

350

136

3分11秒

93_尚硅谷_业务数仓_配置Hadoop支持Snappy压缩

320

137

11分19秒

94_尚硅谷_业务数仓_业务数据生成

330

138

7分14秒

95_尚硅谷_业务数仓_Sqoop安装及参数

380

139

14分25秒

96_尚硅谷_业务数仓_Sqoop导入数据

360

140

7分51秒

97_尚硅谷_业务数仓_ODS层建表及数据导入

260

141

12分59秒

98_尚硅谷_业务数仓_DWD层建表及导入数据

350

142

8分37秒

99_尚硅谷_业务数仓_需求讲解

370

86_尚硅谷_用户行为数仓_Hive企业面试题总结

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐