文章/答案/技术大牛

发布

首页视频91_尚硅谷_业务数仓_范式理论

91_尚硅谷_业务数仓_范式理论

2022-12-022022-12-02 16:02:32播放32

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据项目之电商数仓/4.视频/91_尚硅谷_业务数仓_范式理论.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们看一下这个2.3范式理论啊范式理论，那我们来看一下概念描述，关系型数据库设计时遵守一定的规范要求，关系型数据库通常指什么数据库？啊买或者or这种数据库啊啊，目的在于降低数据的有余性，目前业界范式有第一范式，第二范式，第三范式啊，什么巴斯克德范式，第四范式，第五范式啊一般多种范式，那么范式呢，你可以理解为是一张表数，呃数据表的表结构符合的设计标准的级别，满足哪一种要求原则。啊，这个意思。比如说第一范式，它满足的是这个叫属性不可切割，满足这一条条件啊，那第二范式呢，满足的是这个叫啊，不存在这个部分还依赖。啊，某满足某种规则，那它就符合了这个范式啊，属于一种要求哈，好，那下面来看使用范式的这个根本目的是什么？你说为什么我要定义这个范式，它能解决什么事？那如果你定义这个范式越高，那说明你遵守这个原则越多，那它就能减少数据的永离，尽量让每一个数据只出现一次。
01:25
啊，比如说什么呢？呃，比如说有一张有张表订单表，那在这个订单表里面，你看我们之前在这张表里描述的是不是把这个定商品ID放在里面了啊，还有这个用户ID放里面了。那他为啥不把这个商品信息放里面，用户用户信息也放在整个的订单里面去呢。那么大家问题如果都放在这里面，别个订单里面也有，突然间有一天我要改这个用户的信息。
02:01
那我是要改多少表啊，那如果你把这个用户信息抽取出来一张表。那是好，我的感觉信息是不是只在这里面改就行了，那你经常查我的时候，就用ID去查我这里面具体的信息是不是就OK了。哎，是这样的一个原因，那也说它减少了数据的冗余，尽量让每个数据只出现一次，你说改的时候是改一次。同时他还保证了数据的一致性，那这怎么理解呢？你这个订单，这个订单，然后这里面有用户信息，这里面也有用户信息，那有的时候你改这个订单，诶只在这个订单里面改了信息，这个忘忘改了。那就会导致这个数据不一致，风险很高，所以说尽量也是抽取出来啊，都抽取出一个一个的小表啊，然后日后呢，在用的时候再进行造影。啊，关联好，那它的缺点是什么呢？获取数据的时候需要交把它拼接在一起，通过某一个ID或者外键啊经过来在一起啊，这种方式好，那这是范式啊，大家初步了解一下啊，它有好处，一呢是减少了数据的冗余，尽量只要数据出现一次，另一方面呢，保证了数据的一致性啊好，那下面来看几个概念啊，第一个概念呢，叫函数依赖啊，讲真正的范式之前，先说一下函数依赖。
03:32
那来看这是一张。学生的表成绩表对吧？啊，他是某一个院系的啊，系主任是什么啊？课程是什么，每个课程呢，他得了多少分啊，左侧的这是学号。好，那首先看一下什么叫完全函数依赖，能看懂吗？直接有的是吧，啊，这是机器语言啊，来一个能看懂的啊，人类语言，人类语言，但是比如说通过这个学号和课程。
04:03
通过他和他，我们就能推出分数。能吧，比如说张三他的高等数学95分唯一标识啊，然后李四他的这个普通化学记六分能够唯一标识。对吧，啊，但是单独用学号推断公式分数，比如说我用这个这个。这是三个人，我这是一个人对吧，那他有这么多科，我单独说这个人能推出他得多少分吗？不能啊，那好，我单独说这个高等数学，高等数学这一学科我能推出多少分吗？因为它上面还有多少数学，我前面必须得指定唯一的学号。啊才能唯一的决定糖，那这种比如说学号和课程能推出分数，但是单独学号推断不出分数。
05:00
啊，单独课名也推断出分数，那我们就认为分数是完全依赖于学号和课程。啊，这叫完全还不一样。那从这个逻辑上讲的话，就是AB能得出C，但是呢，AB单独得出出C，那我们就说C是完全依赖于A。啊，看着比较绕啊，但是还好啊，这个理解起来，那下面来看部分函数一样，上来一看看不太懂，下面来看这个。人类语言，比如说通过学号和课程能够推出姓名。这学号课程能够推出姓名没问题吧，因为学号就能唯一的标识出姓名啊，好，那其实直接就可以通过学号推出姓名，所以这个姓名是部分依赖于学号课程，为什么是说呢？因为你学号和课名推出姓名，那我单独用课名能不能推出这个姓名呢？不能吧啊，推不出来，只是完全用这个学号能推出他。
06:12
那我们就认为这是姓名部分依赖于学号和课程。那通过这个物理表达式上啊，逻辑上说AB能得到C，通过AB也能得出C，或者通过B也能得出C，那我们就说C是部分依赖于AB，也是依赖于AB的一部分。啊，并不是全部的。那再来传递函数以外。人类与比如说通过学号能够推出姓名，学号能够推出你是哪个系的没问题，同时通过系名能够推出他的系主任，系名能够推出他的系主任叫什么名。但是系主任推出学号，比如说你这么推没问题，那从系主任往回推。
07:03
啊，系边它垂直系零，那系边往回推能推动吗？啊，得不出来这个对应的学号，那就说明系主任是传递函数依赖于学号。啊，相当于是一个传递的关系。那这里面对应的逻辑表达式A得到B，通过B得到C，但是C得不到啊，那么说C传递依赖于A。啊，这就是这个函数依赖这么三种啊，一个叫完全依赖，部分依赖，还有传递依赖啊三种，好，有了这三种的基本概念之后，下面我们来真正的去说一下这个范式啊，跟这函数依赖有关系啊，来看。300。那首先第一个第一范式的要求是。属性不可切割什么叫属性不可切割呢？来看一下，这是一张数据库里的表。
08:06
买生活数据的表，那这样做能不能满足我们日常的一个需求？很明显，上图所示的表格设计是不符合第一方式的。比如说商品列表中的数据不是原子数据项，什么叫原子？原子数不可切割呀，啊原不能切割的，那你看这条能不能切割。可以切割，那是五台电脑。那比如说你要这么去，请问兄弟的话，那张三说我要买这是五台电脑，没问题，李四我说我要买三台电脑。那这一条这一条就没法没法做了，对吧？啊没法做了，因为大家偶在一起了。那怎么办呢？哎，你可以把它拆开，拆开成商品，那比如说是电脑那数量是五，那我日后再更新这个数量的时候，那就容易多了啊，你买三台还是五台还是十台。
09:03
都可以进行搞定啊，啊，那这里面实际上一范式是所有关系数据库的最基本要求啊，最基本。必须满足的。啊，你在关于数据库系统中，比如说这个就是每色中创建数据表时，如果数据表的设计不符合这一最基本的要求，那么这个操作一定是不成功的，你说要求关联数据库是必须满足属性不可切割这一条。啊，但是目前啊，真的没有不满足这个啊，那这个就没法玩了啊啊这是第一般是技术是属性不可切割，那下边再来。那第二范式的核心要求叫不存在部分函数依赖，那不函数的依赖逻辑表达式是AB能得出C，然后A或者B都可以推出C，那就说C是完全的部分依赖于。
10:09
AB啊，部分依赖也是他俩任何一个只要有一个人的推出，它不需要另一个，那就说明是部分依赖，好那我们来看一下，那这上面是表格啊，那这里面的主见呢，是学号和课名啊，那分数呢，这是完全依赖于它，就分数类没问题，但是呢，姓名还是这个姓名，姓名它就是部分依赖于序号分名，因为它和它确实能推出它。但是呢，学号自己也能登上啊，跟这课程没关系，那这种就是不满的，那这种就不符合数据库设计的第二范式原则，那你要对它进行一个修改。那怎么修改呢？嗯，那既然这样，那我就把这个课名。
11:03
和学号啊，不做这个说单独分开，这样他们两个就能唯一决定分数啊，至少这张表是不是目前为止满足第三啊第二函是啊，你说不存在部分函数依赖。因为这两个它它俩的唯一决定分数好，那就把这个课名。把这个姓名放到另一张表里面了，那另一张表里面的只有学号，学号就能唯一决定姓名啊，微信的姓名好，那这个其实还不是完整的，不是我们想要的，还需要对它进一步的一个处理。只能说前面这张表符合第二范式，后边这还不行啊，还不行啊，再继续第三范式。第三派是核心要求不能存在传递函数依赖。
12:03
那就是这样，刚才这张表我们说需要对他进一步的处理啊，因为这里面存在学号能够推出姓名，姓名能够推出系主任，但是系主任往回推，推不动啊，推不动。好，那这是不能存在传递函数一的，那我们就把上面这张表再进一步的拆解啊，那我就学号能够推出姓名啊，姓名能够推出姓名啊，再拆，那把这个姓名和系主任又放到一张脚表里边了啊，让他不存在这个传建函数里来啊，其实准确来说这是不是还可以再拆啊，还可以再拆啊，那拆完之后最终的结果你会发现。是不是我把所有的表都拆成不能再拆的各种小表了，只要拆成最细的，那就满足了第三范式。
13:02
啊，三大。那就尽可能的拆，猜猜猜猜啊，全是小表，那么小表的特点呢，就是啊，刚才说了它有优势，优势的数据不存在勇于啊，同时呢，还有个什么。还有一个特点叫保证数据的一致性啊，这么两个优点，那么它有缺点，缺点呢就是在查数据的时候要进行各种照引啊照应啊，那在真正的这个买次或数据库当中啊，绝大多数都满足三范式的一个实要求，但在数场里面。啊，大多数都不完，为什么呢？因为大数据里面场景最不擅长的就是噪音，对吧？啊都瓣反音挺很慢啊，很慢。好，那我们再来回顾一下，三范是理论当中第一半是要求属性不可切割，第二派是不能存在部分函数依赖，第三代词不能存传递函数依赖，OK，这就OK了，在面试时候他就说OK。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓

（134/142）

9分33秒

01_尚硅谷_数仓项目介绍

400

3分18秒

02_尚硅谷_数仓采集_用户行为采集课程介绍

360

15分26秒

03_尚硅谷_数仓采集_数仓的概念

340

4分16秒

04_尚硅谷_数仓采集_项目需求

390

8分42秒

05_尚硅谷_数仓采集_项目技术选型

410

12分33秒

06_尚硅谷_数仓采集_系统数据流程设计

380

4分49秒

07_尚硅谷_数仓采集_框架版本选型

360

5分28秒

08_尚硅谷_数仓采集_框架版本具体型号

390

9分7秒

09_尚硅谷_数仓采集_服务器选型

340

21分24秒

100_尚硅谷_业务数仓_DWS层之用户行为宽表

450

10分21秒

101_尚硅谷_业务数仓_需求九：GMV成交总额

490

10分17秒

102_尚硅谷_业务数仓_需求十：ADS层之新增用户占日活跃用户比率

390

12分58秒

103_尚硅谷_业务数仓_需求十一：ADS层之用户行为漏斗分析

410

22分50秒

104_尚硅谷_业务数仓_用户购买商品明细表（宽表）

420

14分14秒

105_尚硅谷_业务数仓_需求十二：ADS层品牌复购率

330

27分9秒

106_尚硅谷_业务数仓_需求十三：求每个等级的用户对应的复购率前十的商品排行(学生分享)

420

26分37秒

107_尚硅谷_业务数仓_数据可视化

380

14分47秒

108_尚硅谷_业务数仓_Azkaban安装

380

16分23秒

109_尚硅谷_业务数仓_GMV指标获取的全调度流程

360

6分34秒

10_尚硅谷_数仓采集_集群资源规划设计

370

13分5秒

110_尚硅谷_业务数仓_拉链表理论

380

29分13秒

111_尚硅谷_业务数仓_拉链表制作

330

24分37秒

112_尚硅谷_业务数仓_业务数仓项目总结

330

1分24秒

113_尚硅谷_业务数仓_即席数仓课程介绍

370

10分20秒

114_尚硅谷_即席数仓_Presto简介

370

22分13秒

115_尚硅谷_即席数仓_Presto安装及使用

350

5分51秒

116_尚硅谷_即席数仓_Presto优化

330

7分40秒

117_尚硅谷_即席数仓_Druid概念、特点、场景

370

6分51秒

118_尚硅谷_即席数仓_Druid对比其他框架

290

11分24秒

119_尚硅谷_即席数仓_Druid框架原理

370

12分41秒

11_尚硅谷_数仓采集_测试集群服务器规划

440

5分5秒

120_尚硅谷_即席数仓_Druid数据结构

390

14分50秒

121_尚硅谷_即席数仓_Druid安装

280

18分53秒

122_尚硅谷_面试题_总体架构

360

41分22秒

123_尚硅谷_面试题_技术框架

350

22分0秒

124_尚硅谷_面试题_用户行为、业务数据、即席查询

340

36分54秒

125_尚硅谷_面试题_开发经验

380

3分28秒

126_尚硅谷_CDH数仓_课程介绍

390

4分7秒

127_尚硅谷_CDH数仓_CM简介及架构

330

20分4秒

128_尚硅谷_CDH数仓_CM安装环境准备

380

30分4秒

129_尚硅谷_CDH数仓_CM、Hadoop、Zookeeper安装

290

13分18秒

12_尚硅谷_数仓采集_埋点数据基本格式

430

6分17秒

130_尚硅谷_CDH数仓_采集Flume的安装

330

7分48秒

131_尚硅谷_CDH数仓_Kafka安装

400

3分53秒

132_尚硅谷_CDH数仓_测试Flume和Kafka安装

300

3分25秒

133_尚硅谷_CDH数仓_消费Flume配置完成

380

9分49秒

134_尚硅谷_CDH数仓_Hive、Oozie、Hue安装

390

3分29秒

135_尚硅谷_CDH数仓_用户行为数仓ODS层导数据

360

9分22秒

136_尚硅谷_CDH数仓_用户行为数仓完结

380

3分8秒

137_尚硅谷_CDH数仓_业务数据生成

430

15分37秒

138_尚硅谷_CDH数仓_业务数仓完结

400

6分34秒

139_尚硅谷_CDH数仓_Oozie执行前准备

340

7分15秒

13_尚硅谷_数仓采集_事件日志数据（上）

350

10分23秒

140_尚硅谷_CDH数仓_Oozie任务编写及运行

270

5分24秒

141_尚硅谷_CDH数仓_即席查询数仓搭建Impala

350

5分58秒

142_尚硅谷_CDH数仓_Spark安装及总结

430

13分26秒

14_尚硅谷_数仓采集_事件日志数据（下）

350

28分13秒

15_尚硅谷_数仓采集_日志生成代码编写

370

7分5秒

16_尚硅谷_数仓采集_Logback日志打印控制

400

11分17秒

17_尚硅谷_数仓采集_服务器准备

360

23分41秒

18_尚硅谷_数仓采集_Hadoop安装

340

2分53秒

19_尚硅谷_数仓采集_项目经验之HDFS多目录配置

350

5分19秒

20_尚硅谷_数仓采集_项目经验之支持LZO压缩配置

370

9分38秒

21_尚硅谷_数仓采集_项目经验之基准测试

380

8分3秒

22_尚硅谷_数仓采集_项目经验之HDFS参数调优

400

6分19秒

23_尚硅谷_数仓采集_Zookeeper安装

430

9分14秒

24_尚硅谷_数仓采集_项目经验之ZK集群启动停止脚本

380

6分33秒

25_尚硅谷_数仓采集_生成测试日志

260

2分2秒

26_尚硅谷_数仓采集_集群日志生成启动脚本

310

6分39秒

27_尚硅谷_数仓采集_集群时间同步修改脚本

350

2分7秒

28_尚硅谷_数仓采集_集群所有进程查看脚本

340

16分15秒

29_尚硅谷_数仓采集_每日回顾

360

7分5秒

30_尚硅谷_数仓采集_日志采集Flume安装

340

9分19秒

31_尚硅谷_数仓采集_Flume组件及配置

380

11分24秒

32_尚硅谷_数仓采集_日志采集Flume配置分析

400

26分57秒

33_尚硅谷_数仓采集_ETL拦截器

380

11分15秒

34_尚硅谷_数仓采集_分类型拦截器

400

16分15秒

35_尚硅谷_数仓采集_日志采集Flume启动停止脚本

280

7分4秒

36_尚硅谷_数仓采集_Kafka集群安装

410

12分6秒

37_尚硅谷_数仓采集_Kafka集群启动停止脚本

310

9分22秒

38_尚硅谷_数仓采集_Kafka Manager安装及脚本

360

11分29秒

39_尚硅谷_数仓采集_项目经验之Kafka压力测试

330

4分1秒

40_尚硅谷_数仓采集_项目经验之Kafka机器数量计算

420

23分59秒

41_尚硅谷_数仓采集_消费Kafka数据Flume

330

2分38秒

42_尚硅谷_数仓采集_项目经验之Flume内存优化

400

7分9秒

43_尚硅谷_数仓采集_项目经验之Flume组件

400

19分28秒

44_尚硅谷_数仓采集_采集通道启动停止脚本

350

3分2秒

45_尚硅谷_数仓采集_调试经验

390

35分45秒

46_尚硅谷_数仓采集_面试题（Linux、Shell、Hadoop）

410

22分44秒

47_尚硅谷_数仓采集_面试题（Flume、Kafka）

360

38分31秒

48_尚硅谷_用户行为数仓_每日回顾

370

3分50秒

49_尚硅谷_用户行为数仓_用户行为数仓课程介绍

330

8分24秒

50_尚硅谷_用户行为数仓_为什么要分层

390

9分12秒

51_尚硅谷_用户行为数仓_数仓分层

300

2分26秒

52_尚硅谷_用户行为数仓_数据集市与数据仓库概念

320

1分11秒

53_尚硅谷_用户行为数仓_数仓命名规范

300

15分44秒

54_尚硅谷_用户行为数仓_Hive&MySQL安装

390

17分44秒

55_尚硅谷_用户行为数仓_Hive运行引擎Tez

410

3分7秒

56_尚硅谷_用户行为数仓_项目经验之元数据备份

360

100

18分25秒

57_尚硅谷_用户行为数仓_ODS层启动日志和事件日志表创建

370

101

14分0秒

58_尚硅谷_用户行为数仓_ODS层加载数据脚本

400

102

29分44秒

59_尚硅谷_用户行为数仓_DWD层启动日志建表及导入数据

420

103

7分38秒

60_ 尚硅谷_用户行为数仓_DWD层启动表加载数据脚本

380

104

10分18秒

61_尚硅谷_用户行为数仓_DWD层事件基础明细表创建

350

105

22分2秒

62_尚硅谷_用户行为数仓_自定义UDF函数（解析公共字段）

430

106

34分5秒

63_尚硅谷_用户行为数仓_自定义UDTF函数（解析事件日志基础明细表）

360

107

6分57秒

64_尚硅谷_用户行为数仓_DWD层数据解析脚本

330

108

21分21秒

65_尚硅谷_用户行为数仓_DWD层事件表加载数据脚本

340

109

10分42秒

66_尚硅谷_用户行为数仓_今日回顾

330

110

13分49秒

67_尚硅谷_用户行为数仓_业务术语

390

111

14分54秒

68_尚硅谷_用户行为数仓_日期的系统函数

360

112

12分58秒

69_尚硅谷_用户行为数仓_每日活跃设备明细

380

113

12分6秒

70_尚硅谷_用户行为数仓_每周活跃设备明细

510

114

6分43秒

71_尚硅谷_用户行为数仓_每月活跃设备明细

290

115

3分50秒

72_尚硅谷_用户行为数仓_DWS层加载数据脚本

330

116

18分8秒

73_尚硅谷_用户行为数仓_需求一：ADS层日活、周活、月活用户数

290

117

9分24秒

74_尚硅谷_用户行为数仓_每日新增设备明细表

350

118

3分34秒

75_尚硅谷_用户行为数仓_需求二：ADS层每日新增设备表

400

119

11分0秒

76_尚硅谷_用户行为数仓_用户留存分析

350

120

12分44秒

77_尚硅谷_用户行为数仓_1、2、3、n日留存用户明细

360

121

12分41秒

78_尚硅谷_用户行为数仓_需求三：ADS层留存用户和留存比率

360

122

22分3秒

79_尚硅谷_用户行为数仓_新数据准备

370

123

12分34秒

80_尚硅谷_用户行为数仓_需求四：沉默用户

380

124

18分43秒

81_尚硅谷_用户行为数仓_需求五：本周回流用户数

410

125

6分13秒

82_尚硅谷_用户行为数仓_需求六：流失用户

320

126

9分0秒

83_尚硅谷_用户行为数仓_需求七：最近连续3周活跃用户数

390

127

19分59秒

84_尚硅谷_用户行为数仓_需求八：最近七天内连续三天活跃用户数

380

128

13分41秒

85_尚硅谷_用户行为数仓_用户行为数仓业务总结

440

129

12分47秒

86_尚硅谷_用户行为数仓_Hive企业面试题总结

370

130

6分35秒

87_尚硅谷_业务数仓_业务数仓课程介绍

340

131

16分53秒

88_尚硅谷_业务数仓_电商业务与数据结构简介

320

132

6分27秒

89_尚硅谷_业务数仓_表的分类

380

133

8分25秒

90_尚硅谷_业务数仓_同步策略

350

134

14分15秒

91_尚硅谷_业务数仓_范式理论

320

135

7分23秒

92_尚硅谷_业务数仓_雪花模型、星型模型和星座模型

350

136

3分11秒

93_尚硅谷_业务数仓_配置Hadoop支持Snappy压缩

320

137

11分19秒

94_尚硅谷_业务数仓_业务数据生成

330

138

7分14秒

95_尚硅谷_业务数仓_Sqoop安装及参数

380

139

14分25秒

96_尚硅谷_业务数仓_Sqoop导入数据

360

140

7分51秒

97_尚硅谷_业务数仓_ODS层建表及数据导入

260

141

12分59秒

98_尚硅谷_业务数仓_DWD层建表及导入数据

350

142

8分37秒

99_尚硅谷_业务数仓_需求讲解

370

91_尚硅谷_业务数仓_范式理论

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐