文章/答案/技术大牛

发布

首页视频50_尚硅谷_用户行为数仓_为什么要分层

50_尚硅谷_用户行为数仓_为什么要分层

2022-12-022022-12-02 16:02:32播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据项目之电商数仓/4.视频/50_尚硅谷_用户行为数仓_为什么要分层.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们看一下第一章数仓的分成的概念，这里面呢，一共有四小节，第一节呢是为什么要分成，嗯，第二节是数仓分几层，嗯，然后呢，还涉及到一个数据集市和数据仓库的概念，这概念呢属于了解性内容，那受商这个命密规范呢，属于开发过程当中，嗯，必须要知道的，而且严格按照这规划，记住了啊，这么些东西啊，来看这个为什么要分程。那首先呢，我把这个数据仓库的这个分成啊，给大家拿起来了，那看这里面有一个倒三角。那说明什么含义呢？数据越来越越小对吧？啊，越来越少啊这样所以说前面进来的数据呢，很多啊，逐渐呢，会一层一层的减少啊，那么来看，首先呢，这里面竖叉分了四层。啊，分类市场，那并不是所有的公司他都承认市场。
01:00
目前我了解的大部分分公司都是按这种市场分的，嗯，但是呢，像京东内部，嗯，他们有分九成的，有分11层的。那想也能想到，他分的越层次越多，说明他的业务越复杂啊，业务越复杂啊，但是绝大多数小公司，中小公司都能搞定啊，这是三个啊，这四场，那好我们来看一下这市层分别什么I例第一场呢叫ods层，也是原始数据层。原始数据层存放原始数据，把直接加载过来的数据啊，不做任何修改就保持着原貌，你可以是认为数据的一个备份。什么也不动啊，就完成的放在了，OK，那时候接下来呢，就到了这个明细数据层，这个DWD层，它呢属于结构与密度与这个原始数据表保持一致啊，尽可能一致哈，就个别情况也不一致，然后对ODI层数据进行主要是清洗。
02:02
啊，清洗其实还有个降维，降维降维是在后面业主场里头，这给大家加一下啊，那这里面你会认为先是清洗，比如说从原始数据上过来的数据啊，它有可能含一些脏数据，那什么样的数据是张数据呢？比如说。ID值为空的。啊，你是一个订单订单表，那订单表里面的ID为空，那肯定不允许，那还有一些呃，超过范围的数据，比如说订单的金额。他必须得为正。那你突然发现这里面那个金额没付，那它就是异常数据。或者这个订单这个金额呢，在10万以内，你突然发现一个一个亿的订单，那它也是错误的。啊，这种情况啊，异常数据干掉啊，同时ID值不符合法的干掉啊，还有一些核心字段，比如说一张表格的核心字段啊，你像那个贫困表。
03:00
那评论表当中的评论内容或者评论ID，如果没有的话，有可能就把他。干掉。嗯，比说重要的字段啊，一定要有OK，那也就是说从ODS到DWD层这块主要做的工作就是数据集齐，把数据准备好，为未来的DWS和ADS层做准备。啊，清洗干净做准备好，那DWS它主要是以DW底层为基础进行，叫轻度贵重。什么叫青空汇总啊，比如说啊进达学城，其实它是有一张，不是一张，应该是多张课表。其中最典型的几乎各大公司都要创建的表叫行为目标。那这个行为就记录了这个用户。这一天当中所有的行为。包括比如说评论，他评论了什么，来到这个网站，他收藏了什么，点赞了什么，浏览了什么。
04:00
下班没有？支付没有这些信息，那好大家想一个问题，那这是一张用户行为宽表，它需要有这么多状态，那问你评论内容在什么表里面？是不是在最开始的评论表里啊，哎，那收藏呢？对应的有稍长点。点击有对应的点击表，浏览对应的浏览的表，支付有支付的表，下单有下单的表，那他就会这个新用行权表，它是将前面所有的用到的表进行一个汇总啊汇总他会在汇总为这一个用户这一天当中评顿了多少次。收藏了多少次？点击了多少次？支付了多少次，支付金额多少？啊，类似于按天气轻度聚合啊，这是这一层要做的事情，它有N多个方面，运用行为的方面，购物车的方面啊，商品的方面啊等等哈。
05:06
好，那下边是AXABX就最简单了，它是为各个统计报表提供数据了，直接出报表，那你说今天到底有多少个用户活跃活跃。多少个用户新增多少多少个新增用户。瓶状的倒是，这里面要么就是结果了。老板看到的就是。最终的结果中间你前面算了什么，他不关心，他只看结果，那之前带大家看过那个神策吧。是吧，啊，那审策里面记住了，比如说有什么这个各种曲线是吧？啊，这个新增诶一点再新增再新增啊这样然后还有什么留存率啊，然后这个是那斜斜转角的那种，嗯，各种东计化的东西，那就是在这一条小门。那再把再把这一层的数据，最终把它导入到里面啊，为什么要导入MY0来说。
06:05
快了对不对啊，你像我们在书上里面的读写速度是不很慢啊，因为它是基于have的底是M2啊好，那之后那看了这个受上分了这么多层，那我再研究一下，为什么就把它分成这么多层呢。我不夸张，行不行，我直接进来，我就对这个数据进行各种分析。能不能打到下巴？可以，但是你是不是觉得效率很低啊？你想想在分析的过程当中，我可能要要清洗吧。对吧，你能拿把这个张数据拿出来用吗？那肯定不可能啊，那我要清洗，清洗完之后，你像刚才我说的这个用户行为这种宽表，你是不是自己买，你算一个指标到聚合一次。那是不是很麻烦重复工作呀？好，那第一个就是把复杂的问题简单化，将一个复杂的任务分解成多个步骤啊，每一场只做一件事，那就非常简单，而且呢，还方便定位问题。
07:03
啊，比如说他这一层出现错误，那我就要直接往上一层找，我不需要了，要绕到这，我一层一层往前推，往往下推。啊，方便定位啊，OK，那再往下减少重复开发。比如说你要算一个这个新增指标。那假如说第一次算从第一层到这一层，这一层到这层，这层到这一层，那下面再算一个日活，我还需要从这到这吗？不需要了，也许我只到这一层，前面这些都属于公共的数据准备上。数据都已经准备好了，那下面拿回来我再给你算啊。那我就这个减少这些重复性的操作。好，那另一个呢，就是隔离原始数据，无论是数据的异常还是数据的这个敏感性，是真实数据与统计的数据呢，进行结构，啥意思？ODS，它是保持数据的原貌，不做任何成本。
08:02
那无论你后面这些怎么分析，怎么运算，哪怕是分析错了。那后面我把它分散掉，是还有这一层啊，还有一层比说这一层啊，始终是原始数据，最原始的数据。啊，那这个属于这个活力原始剧啊，啊OK，所以这是书商分成，以及为什么分成哈。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓

（93/142）

9分33秒

01_尚硅谷_数仓项目介绍

400

3分18秒

02_尚硅谷_数仓采集_用户行为采集课程介绍

360

15分26秒

03_尚硅谷_数仓采集_数仓的概念

340

4分16秒

04_尚硅谷_数仓采集_项目需求

390

8分42秒

05_尚硅谷_数仓采集_项目技术选型

410

12分33秒

06_尚硅谷_数仓采集_系统数据流程设计

380

4分49秒

07_尚硅谷_数仓采集_框架版本选型

360

5分28秒

08_尚硅谷_数仓采集_框架版本具体型号

390

9分7秒

09_尚硅谷_数仓采集_服务器选型

340

21分24秒

100_尚硅谷_业务数仓_DWS层之用户行为宽表

450

10分21秒

101_尚硅谷_业务数仓_需求九：GMV成交总额

490

10分17秒

102_尚硅谷_业务数仓_需求十：ADS层之新增用户占日活跃用户比率

390

12分58秒

103_尚硅谷_业务数仓_需求十一：ADS层之用户行为漏斗分析

410

22分50秒

104_尚硅谷_业务数仓_用户购买商品明细表（宽表）

420

14分14秒

105_尚硅谷_业务数仓_需求十二：ADS层品牌复购率

330

27分9秒

106_尚硅谷_业务数仓_需求十三：求每个等级的用户对应的复购率前十的商品排行(学生分享)

420

26分37秒

107_尚硅谷_业务数仓_数据可视化

380

14分47秒

108_尚硅谷_业务数仓_Azkaban安装

380

16分23秒

109_尚硅谷_业务数仓_GMV指标获取的全调度流程

360

6分34秒

10_尚硅谷_数仓采集_集群资源规划设计

370

13分5秒

110_尚硅谷_业务数仓_拉链表理论

380

29分13秒

111_尚硅谷_业务数仓_拉链表制作

330

24分37秒

112_尚硅谷_业务数仓_业务数仓项目总结

330

1分24秒

113_尚硅谷_业务数仓_即席数仓课程介绍

370

10分20秒

114_尚硅谷_即席数仓_Presto简介

370

22分13秒

115_尚硅谷_即席数仓_Presto安装及使用

350

5分51秒

116_尚硅谷_即席数仓_Presto优化

330

7分40秒

117_尚硅谷_即席数仓_Druid概念、特点、场景

370

6分51秒

118_尚硅谷_即席数仓_Druid对比其他框架

290

11分24秒

119_尚硅谷_即席数仓_Druid框架原理

370

12分41秒

11_尚硅谷_数仓采集_测试集群服务器规划

440

5分5秒

120_尚硅谷_即席数仓_Druid数据结构

390

14分50秒

121_尚硅谷_即席数仓_Druid安装

280

18分53秒

122_尚硅谷_面试题_总体架构

360

41分22秒

123_尚硅谷_面试题_技术框架

350

22分0秒

124_尚硅谷_面试题_用户行为、业务数据、即席查询

340

36分54秒

125_尚硅谷_面试题_开发经验

380

3分28秒

126_尚硅谷_CDH数仓_课程介绍

390

4分7秒

127_尚硅谷_CDH数仓_CM简介及架构

330

20分4秒

128_尚硅谷_CDH数仓_CM安装环境准备

380

30分4秒

129_尚硅谷_CDH数仓_CM、Hadoop、Zookeeper安装

290

13分18秒

12_尚硅谷_数仓采集_埋点数据基本格式

430

6分17秒

130_尚硅谷_CDH数仓_采集Flume的安装

330

7分48秒

131_尚硅谷_CDH数仓_Kafka安装

400

3分53秒

132_尚硅谷_CDH数仓_测试Flume和Kafka安装

300

3分25秒

133_尚硅谷_CDH数仓_消费Flume配置完成

380

9分49秒

134_尚硅谷_CDH数仓_Hive、Oozie、Hue安装

390

3分29秒

135_尚硅谷_CDH数仓_用户行为数仓ODS层导数据

360

9分22秒

136_尚硅谷_CDH数仓_用户行为数仓完结

380

3分8秒

137_尚硅谷_CDH数仓_业务数据生成

430

15分37秒

138_尚硅谷_CDH数仓_业务数仓完结

400

6分34秒

139_尚硅谷_CDH数仓_Oozie执行前准备

340

7分15秒

13_尚硅谷_数仓采集_事件日志数据（上）

350

10分23秒

140_尚硅谷_CDH数仓_Oozie任务编写及运行

270

5分24秒

141_尚硅谷_CDH数仓_即席查询数仓搭建Impala

350

5分58秒

142_尚硅谷_CDH数仓_Spark安装及总结

430

13分26秒

14_尚硅谷_数仓采集_事件日志数据（下）

350

28分13秒

15_尚硅谷_数仓采集_日志生成代码编写

370

7分5秒

16_尚硅谷_数仓采集_Logback日志打印控制

400

11分17秒

17_尚硅谷_数仓采集_服务器准备

360

23分41秒

18_尚硅谷_数仓采集_Hadoop安装

340

2分53秒

19_尚硅谷_数仓采集_项目经验之HDFS多目录配置

350

5分19秒

20_尚硅谷_数仓采集_项目经验之支持LZO压缩配置

370

9分38秒

21_尚硅谷_数仓采集_项目经验之基准测试

380

8分3秒

22_尚硅谷_数仓采集_项目经验之HDFS参数调优

400

6分19秒

23_尚硅谷_数仓采集_Zookeeper安装

430

9分14秒

24_尚硅谷_数仓采集_项目经验之ZK集群启动停止脚本

380

6分33秒

25_尚硅谷_数仓采集_生成测试日志

260

2分2秒

26_尚硅谷_数仓采集_集群日志生成启动脚本

310

6分39秒

27_尚硅谷_数仓采集_集群时间同步修改脚本

350

2分7秒

28_尚硅谷_数仓采集_集群所有进程查看脚本

340

16分15秒

29_尚硅谷_数仓采集_每日回顾

360

7分5秒

30_尚硅谷_数仓采集_日志采集Flume安装

340

9分19秒

31_尚硅谷_数仓采集_Flume组件及配置

380

11分24秒

32_尚硅谷_数仓采集_日志采集Flume配置分析

400

26分57秒

33_尚硅谷_数仓采集_ETL拦截器

380

11分15秒

34_尚硅谷_数仓采集_分类型拦截器

400

16分15秒

35_尚硅谷_数仓采集_日志采集Flume启动停止脚本

280

7分4秒

36_尚硅谷_数仓采集_Kafka集群安装

410

12分6秒

37_尚硅谷_数仓采集_Kafka集群启动停止脚本

310

9分22秒

38_尚硅谷_数仓采集_Kafka Manager安装及脚本

360

11分29秒

39_尚硅谷_数仓采集_项目经验之Kafka压力测试

330

4分1秒

40_尚硅谷_数仓采集_项目经验之Kafka机器数量计算

420

23分59秒

41_尚硅谷_数仓采集_消费Kafka数据Flume

330

2分38秒

42_尚硅谷_数仓采集_项目经验之Flume内存优化

400

7分9秒

43_尚硅谷_数仓采集_项目经验之Flume组件

400

19分28秒

44_尚硅谷_数仓采集_采集通道启动停止脚本

350

3分2秒

45_尚硅谷_数仓采集_调试经验

390

35分45秒

46_尚硅谷_数仓采集_面试题（Linux、Shell、Hadoop）

410

22分44秒

47_尚硅谷_数仓采集_面试题（Flume、Kafka）

360

38分31秒

48_尚硅谷_用户行为数仓_每日回顾

370

3分50秒

49_尚硅谷_用户行为数仓_用户行为数仓课程介绍

330

8分24秒

50_尚硅谷_用户行为数仓_为什么要分层

390

9分12秒

51_尚硅谷_用户行为数仓_数仓分层

300

2分26秒

52_尚硅谷_用户行为数仓_数据集市与数据仓库概念

320

1分11秒

53_尚硅谷_用户行为数仓_数仓命名规范

300

15分44秒

54_尚硅谷_用户行为数仓_Hive&MySQL安装

390

17分44秒

55_尚硅谷_用户行为数仓_Hive运行引擎Tez

410

3分7秒

56_尚硅谷_用户行为数仓_项目经验之元数据备份

360

100

18分25秒

57_尚硅谷_用户行为数仓_ODS层启动日志和事件日志表创建

370

101

14分0秒

58_尚硅谷_用户行为数仓_ODS层加载数据脚本

400

102

29分44秒

59_尚硅谷_用户行为数仓_DWD层启动日志建表及导入数据

420

103

7分38秒

60_ 尚硅谷_用户行为数仓_DWD层启动表加载数据脚本

380

104

10分18秒

61_尚硅谷_用户行为数仓_DWD层事件基础明细表创建

350

105

22分2秒

62_尚硅谷_用户行为数仓_自定义UDF函数（解析公共字段）

430

106

34分5秒

63_尚硅谷_用户行为数仓_自定义UDTF函数（解析事件日志基础明细表）

360

107

6分57秒

64_尚硅谷_用户行为数仓_DWD层数据解析脚本

330

108

21分21秒

65_尚硅谷_用户行为数仓_DWD层事件表加载数据脚本

340

109

10分42秒

66_尚硅谷_用户行为数仓_今日回顾

330

110

13分49秒

67_尚硅谷_用户行为数仓_业务术语

390

111

14分54秒

68_尚硅谷_用户行为数仓_日期的系统函数

360

112

12分58秒

69_尚硅谷_用户行为数仓_每日活跃设备明细

380

113

12分6秒

70_尚硅谷_用户行为数仓_每周活跃设备明细

510

114

6分43秒

71_尚硅谷_用户行为数仓_每月活跃设备明细

290

115

3分50秒

72_尚硅谷_用户行为数仓_DWS层加载数据脚本

330

116

18分8秒

73_尚硅谷_用户行为数仓_需求一：ADS层日活、周活、月活用户数

290

117

9分24秒

74_尚硅谷_用户行为数仓_每日新增设备明细表

350

118

3分34秒

75_尚硅谷_用户行为数仓_需求二：ADS层每日新增设备表

400

119

11分0秒

76_尚硅谷_用户行为数仓_用户留存分析

350

120

12分44秒

77_尚硅谷_用户行为数仓_1、2、3、n日留存用户明细

360

121

12分41秒

78_尚硅谷_用户行为数仓_需求三：ADS层留存用户和留存比率

360

122

22分3秒

79_尚硅谷_用户行为数仓_新数据准备

370

123

12分34秒

80_尚硅谷_用户行为数仓_需求四：沉默用户

380

124

18分43秒

81_尚硅谷_用户行为数仓_需求五：本周回流用户数

410

125

6分13秒

82_尚硅谷_用户行为数仓_需求六：流失用户

320

126

9分0秒

83_尚硅谷_用户行为数仓_需求七：最近连续3周活跃用户数

390

127

19分59秒

84_尚硅谷_用户行为数仓_需求八：最近七天内连续三天活跃用户数

380

128

13分41秒

85_尚硅谷_用户行为数仓_用户行为数仓业务总结

440

129

12分47秒

86_尚硅谷_用户行为数仓_Hive企业面试题总结

370

130

6分35秒

87_尚硅谷_业务数仓_业务数仓课程介绍

340

131

16分53秒

88_尚硅谷_业务数仓_电商业务与数据结构简介

320

132

6分27秒

89_尚硅谷_业务数仓_表的分类

380

133

8分25秒

90_尚硅谷_业务数仓_同步策略

350

134

14分15秒

91_尚硅谷_业务数仓_范式理论

320

135

7分23秒

92_尚硅谷_业务数仓_雪花模型、星型模型和星座模型

350

136

3分11秒

93_尚硅谷_业务数仓_配置Hadoop支持Snappy压缩

320

137

11分19秒

94_尚硅谷_业务数仓_业务数据生成

330

138

7分14秒

95_尚硅谷_业务数仓_Sqoop安装及参数

380

139

14分25秒

96_尚硅谷_业务数仓_Sqoop导入数据

360

140

7分51秒

97_尚硅谷_业务数仓_ODS层建表及数据导入

260

141

12分59秒

98_尚硅谷_业务数仓_DWD层建表及导入数据

350

142

8分37秒

99_尚硅谷_业务数仓_需求讲解

370

50_尚硅谷_用户行为数仓_为什么要分层

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐