文章/答案/技术大牛

发布

首页视频005-尚硅谷-Hive-与数据库比较

005-尚硅谷-Hive-与数据库比较

2022-12-022022-12-02 16:02:20播放32

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Hive（2020版）/视频/005-尚硅谷-Hive-与数据库比较.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
好，呃，那接下来呢，我们看一下have与数据库的一个比较，其实那对于一个东西内容来比较的话，那我们就从。相同点和不同点的比较。对吧？啊，一般的在面试过程当中啊，它比较都要从两个方面啊，其实对于这个have跟数据库而言呢，它只有第一个查询语言比较相似，其他的都不一样，而且呢，只是查询也比较相似啊，不是一样啊，还有区别，还有区别还是函数啊，对吧，还有区别，那这是它的一个相同点，也就是查询语言是属于它的相同点，那不同点呢，我们主要列出来有数据更新，执行延迟以及数据规模这三个内容来做的。对吧，好，那么接下来呢，其实它最重要的一个点就是数据规模，因为由于数据规模的不同。才会对应的有这个执行延迟，就是什么数据更新的一个不同，那买so而言的话，就是我们传统的这个关系型数据库，数据量怎么样小。
01:12
对吧？那我们刚才所提到的have这个东西呢，是依托于哈杜数据存在HDFS，而我们所知道HDFS是一个分布式文件系统，存储的数据量要怎么样要大。对吧，而数据库呢，存储的数据量比较小啊，这是第一个，这是它最重要的就是这个点，好，那由于这个点呢，咱们看一下数据更新问题。我们所谓的关系型数据库啊。对吧，数据量小，而且它应用场景就是一种什么。增删改查在线业务。而我们have，它是读多写少，一次写入多次读取的一个应用场景，对吧？所以在数据更新这一块也是不一样的，其实默认情况下，汉里边是不支持对数据进行更新的，因为更新操作是属于一种随机写操作。
02:10
就是你一个文档对吧，假如十条数据我更新的时候，我可以对第五条，对于第六条进行更新吗？哎，你知道在HDFSDFS里边有讲更新操作，我可以追加对吧，大家都知道我可以往文件里面去追加。我可以去读，但是有讲过随机写吗？就是用十行数据，我把第五行数据给改了，但是现在我就要你做这个事。怎做，我就要对HDFS有十行数据，我就要对他第五行改一下，怎么做对我给他下下来。改了之后干什么，重新上传上去。对吧，啊，其实它里边这个更新操作的就这样子的，那默认情况下呢，它是不支持更新的一个二倍的语法呀，不支持啊，但是特殊情况下，你要对这个表做一些操作可以，但这个不是我们聊重点了，因为在生产环境当中也不会这样去改，因为它这个效率也怎么样啊。
03:15
底你想想看嘛，他把它干什么下起来，改完之后再覆盖写回去。你十条数据还好吧，HD存的数据你在公司当中可能是十条数据吗？数据量太大了，这不太现实对吧，你就改它啊，所以呢，它我们就直接就可以说，哎，他不支持更新，但是你要知道实际上可以更新啊，实际上可以更新，但是一般过程当中也没人去用，如果真的要更新的话，我们会怎么做呢？从这张表里边查出来，覆盖到这张表里边啊，用这种方式我们手动的去下载下来。然后覆盖回去，那不就是读出来，改完之后再写回去嘛，对吧，我们会采用这种方式，好，就覆盖全表的方式去做它的一个更新。而在MY里边呢就可以对吧，这个是不是数据规模带来的问题，由于你数据规模大了，你放在单机上存不了了，所以我们才选用HDFS做我们存储，而HDFS是不支持随机写操作的，所以会导致我们汉默认情况下是不支持什么改操作的，还是数据规模带来的问题吧。
04:20
对吧，那接下来还有一个所谓的执行延迟。那我们知道买呢，这烟值肯定比较低。对吧，非常快，增加奶茶都比较快，而have。虽然我们现在还没用，但是我们现在知道它要翻译成他妈任务去执行，那你觉得它效率能高吗？它高不了对吧，啊，它肯定很慢，所以执行延迟，那主要的还是由于这个什么数据量带来的问题啊，由于数据量太大了，所以呢，我们传统的单机分析的方式做不了了，所以我们才选用分布式计算方向二。来帮我们做计算，所以导致了他怎么样人延迟比较低，所以最关键的呢，还是最大的一个区别在于它存储的一个数据量怎么样。
05:07
不一样对吧，这是最根本的原因，由于这个根本原因呢，导致了，诶数据更新方面也不同，然后执行延迟方面也有不同，所以呢，你要抓住这个最关键的啊，都是数据规模带来的，如果说还是像以前一样，数据增长比较慢，对吧？啊公司当中呢，本身也没有多少数据，那大数据根本就不会出现。用不着啊，我单节点能运行的，你非得搞我一个分布式干什么。你在工作当中开发也一样，就是说能用简单方式去解决的问题，你肯定不会考虑复杂的。对吧，你单节点能运行呢，你非得搭一个框架，还运行什么哈杜运行沿对吧，还运行这些东西干什么呢？图啥呢。对吧，啊就是这个意思，所以说还是数据量导致的问题啊，这一块，所以我们总结一下，只有这个查询语句有类似的地方，其他的都不一样。包括指引擎，我们今天提到了MYSO呢，可能用呃，MYS引擎，In the DB引擎，但是HUB里边它用的是MR引擎，但是它也可以换引擎啊啊，它也可以换引擎，就是说MR呢，是它默认的一擎，默认的MR也可以换成Spark。
06:17
啊，那就能快一些对吧，也能换成呃，这个太子啊，但是这个框架呢，我们还没聊到最后实战的时候，最后第11章我们再去，哎，给大家换一个太极引擎，Spark引擎呢，那要学完Spark我们再去装。对吧，因为Spark也是一个大的课程，他可能前后也要呃十二天十一二天的时间啊，所以说现在去用Spark引擎肯定不太合适，对吧，到最后呢，我们学完Spark之后，我们就把have呢换成对应的SPA引擎啊，就所有引擎呢，大家都能见得到啊，但是现在呢，整个讲过程当中，我们还是用引擎作为讲座为主啊好，这是我们所聊它的一个不同点啊，这个也是在面试的时候呢，有一道面试题，它就是问的那have跟这个数据库。
07:03
有什么不同对吧，或者说他们俩呃，做一个比较啊，是这样一个东西啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hive（2020版）

（5/125）

12分2秒

001-尚硅谷-Hive-课程介绍

460

18分23秒

002-尚硅谷-Hive-概念介绍-

420

11分7秒

003-尚硅谷-Hive-优缺点

380

11分0秒

004-尚硅谷-Hive-架构

380

7分8秒

005-尚硅谷-Hive-与数据库比较

320

21分53秒

006-尚硅谷-Hive-安装&启动

400

10分50秒

007-尚硅谷-Hive-简单使用&Derby存储元数据的问题

420

17分42秒

008-尚硅谷-Hive-MySQL的安装&启动

450

12分20秒

009-尚硅谷-Hive-配置Hive元数据存储为MySQL&再次启动测试

420

7分55秒

010-尚硅谷-Hive-使用元数据服务的方式访问Hive

370

12分18秒

011-尚硅谷-Hive-使用JDBC的方式访问Hive

430

30分10秒

012-尚硅谷-Hive-元数据服务&Hiveserver2脚本封装

480

1分8秒

013-尚硅谷-Hive-修改配置文件使用直连方式访问Hive

320

12分0秒

014-尚硅谷-Hive-其他交互方式

390

10分15秒

015-尚硅谷-Hive-配置日志文件位置&打印当前库名&表头信息

490

15分22秒

016-尚硅谷-Hive-配置信息位置&优先级

450

27分21秒

017-尚硅谷-Hive-课程回顾

330

13分8秒

018-尚硅谷-Hive-关于count star不执行MR任务的说明

360

24分3秒

019-尚硅谷-Hive-Hive中数据类型一

350

2分43秒

020-尚硅谷-Hive-Hive中数据类型二

330

10分20秒

021-尚硅谷-Hive-DDL 创建数据库

420

3分32秒

022-尚硅谷-Hive-DDL 查询&切换数据库

670

6分52秒

023-尚硅谷-Hive-DDL 修改&删除数据库

400

8分27秒

024-尚硅谷-Hive-DDL 建表语句分析

320

8分25秒

025-尚硅谷-Hive-DDL 内外部创建&区别

390

2分53秒

026-尚硅谷-Hive-DDL 内外部互相转换

450

13分51秒

027-尚硅谷-Hive-DDL 建表时指定字段分隔符

410

22分41秒

028-尚硅谷-Hive-DDL 修改&删除表

400

17分14秒

029-尚硅谷-Hive-DML 加载数据 load

360

15分40秒

030-尚硅谷-Hive-DML 加载数据 insert

350

2分48秒

031-尚硅谷-Hive-DML 加载数据 as select

290

5分53秒

032-尚硅谷-Hive-DML 加载数据 location

360

4分50秒

033-尚硅谷-Hive-DML 加载数据 import 未完待续

310

9分1秒

034-尚硅谷-Hive-DML 导出数据 insert

390

3分23秒

035-尚硅谷-Hive-DML 导出数据 hadoop命令&Hive shell

410

15分6秒

036-尚硅谷-Hive-DML 导出数据 export&sqoop说明 import补充

350

5分30秒

037-尚硅谷-Hive-DML 清空全表

340

9分48秒

038-尚硅谷-Hive-DML 查询准备数据

320

6分56秒

039-尚硅谷-Hive-DML 查询查询全表&指定列注意事项

350

4分16秒

040-尚硅谷-Hive-DML 查询列别名&运算符

340

4分58秒

041-尚硅谷-Hive-DML 查询聚合函数&Limit&Where

450

11分35秒

042-尚硅谷-Hive-DML 查询比较运算符&逻辑运算符

400

6分19秒

043-尚硅谷-Hive-DML 查询 GroupBy & Having

370

23分3秒

044-尚硅谷-Hive-课程回顾

380

14分3秒

045-尚硅谷-Hive-DML 查询 JOIN 内连接

280

5分59秒

046-尚硅谷-Hive-DML 查询 JOIN 左外连接

360

3分27秒

047-尚硅谷-Hive-DML 查询 JOIN 右外连接

400

6分30秒

048-尚硅谷-Hive-DML 查询 JOIN 满外连接

330

13分2秒

049-尚硅谷-Hive-DML 查询 JOIN 取左表独有数据

350

3分35秒

050-尚硅谷-Hive-DML 查询 JOIN 取右表独有数据

340

15分52秒

051-尚硅谷-Hive-DML 查询 JOIN 取左右两表独有数据

420

6分3秒

052-尚硅谷-Hive-DML 查询 JOIN 多表连接

330

5分23秒

053-尚硅谷-Hive-DML 查询 JOIN 笛卡尔积

420

5分49秒

054-尚硅谷-Hive-DML 查询排序 Order By

330

10分33秒

055-尚硅谷-Hive-DML 查询排序 Sort By

390

11分28秒

056-尚硅谷-Hive-DML 查询排序 Distribute By & Cluster By

380

2分40秒

057-尚硅谷-Hive-DML 查询排序 4个By总结

390

4分53秒

058-尚硅谷-Hive-分区表说明

370

11分15秒

059-尚硅谷-Hive-分区表创建&简单使用

330

7分57秒

060-尚硅谷-Hive-分区表分区的增删查

340

5分2秒

061-尚硅谷-Hive-分区表二级分区

420

10分18秒

062-尚硅谷-Hive-分区表使HDFS数据与分区表产生联系的方式

330

5分1秒

063-尚硅谷-Hive-分区表 load加载数据不指定分区演示

420

11分30秒

064-尚硅谷-Hive-分区表动态分区演示

410

5分43秒

065-尚硅谷-Hive-分区表动态分区 3.0新特性

370

16分48秒

066-尚硅谷-Hive-分桶表

350

7分56秒

067-尚硅谷-Hive-DML 函数查询系统函数

400

2分1秒

068-尚硅谷-Hive-DML 函数 NVL

370

13分0秒

069-尚硅谷-Hive-DML 函数 CASE WHEN THEN ELSE END

430

17分44秒

070-尚硅谷-Hive-课程回顾

270

11分6秒

071-尚硅谷-Hive-DML 函数拼接字符串函数说明

430

12分52秒

072-尚硅谷-Hive-DML 函数拼接字符串函数使用

300

12分45秒

073-尚硅谷-Hive-DML 函数 Explode

420

1分42秒

074-尚硅谷-Hive-DML 函数行转列&列转行说明

400

25分35秒

075-尚硅谷-Hive-DML 函数窗口函数初体验

460

9分10秒

076-尚硅谷-Hive-DML 函数窗口函数需求二

350

17分22秒

077-尚硅谷-Hive-DML 函数窗口函数需求三

380

5分59秒

078-尚硅谷-Hive-DML 函数窗口函数排序值相同时说明

340

12分39秒

079-尚硅谷-Hive-DML 函数窗口函数需求四

430

6分17秒

080-尚硅谷-Hive-DML 函数窗口函数需求五

380

16分16秒

081-尚硅谷-Hive-DML 函数窗口函数 Rank

310

21分13秒

082-尚硅谷-Hive-DML 函数其他常用函数日期函数

360

1分49秒

083-尚硅谷-Hive-DML 函数其他常用函数数据取整函数

360

7分19秒

084-尚硅谷-Hive-DML 函数其他常用函数字符串相关函数

370

3分8秒

085-尚硅谷-Hive-DML 函数其他常用函数集合函数

310

1分47秒

086-尚硅谷-Hive-DML 函数课堂练习布置任务

350

20分48秒

087-尚硅谷-Hive-DML 函数自定义UDF 编码

410

9分18秒

088-尚硅谷-Hive-DML 函数自定义UDF 打包测试

430

14分11秒

089-尚硅谷-Hive-DML 函数自定义UDTF 编码

390

6分30秒

090-尚硅谷-Hive-DML 函数自定义UDTF 打包测试

320

13分28秒

091-尚硅谷-Hive-课程回顾

340

3分28秒

092-尚硅谷-Hive-DML 函数课堂练习 Hive实现WordCount完成

330

8分38秒

093-尚硅谷-Hive-DML 函数课堂练习自定义UDTF炸裂出两个列

340

20分53秒

094-尚硅谷-Hive-DML 函数 Grouping Sets

470

10分37秒

095-尚硅谷-Hive-压缩和存储压缩方式说明&启用Map端输出压缩

400

2分40秒

096-尚硅谷-Hive-压缩和存储启用最终输出压缩

380

5分5秒

097-尚硅谷-Hive-压缩和存储行式&列式存储说明

360

9分9秒

098-尚硅谷-Hive-压缩和存储 ORC&Parquet文件格式

290

8分8秒

099-尚硅谷-Hive-压缩和存储 Text&ORC&Parquet 存储和查询对比

390

100

5分18秒

100-尚硅谷-Hive-压缩和存储存储方式结合压缩使用测试

460

101

9分58秒

101-尚硅谷-Hive-优化 Explain查看执行计划

420

102

2分52秒

102-尚硅谷-Hive-优化 Fetch抓取

310

103

3分8秒

103-尚硅谷-Hive-优化本地模式

320

104

13分24秒

104-尚硅谷-Hive-优化小表JOIN大表

360

105

6分0秒

105-尚硅谷-Hive-优化大表JOIN大表空key过滤

400

106

10分6秒

106-尚硅谷-Hive-优化大表JOIN大表空key转换

330

107

15分0秒

107-尚硅谷-Hive-优化大表JOIN大表 SMB JOIN

330

108

6分0秒

108-尚硅谷-Hive-优化 GroupBy 数据倾斜

390

109

6分3秒

109-尚硅谷-Hive-优化 Count(distinct）

390

110

11分42秒

110-尚硅谷-Hive-优化行列过滤

330

111

7分20秒

111-尚硅谷-Hive-优化设置Map任务数

360

112

3分40秒

112-尚硅谷-Hive-优化设置Reducer任务数

420

113

2分35秒

113-尚硅谷-Hive-优化并行执行

360

114

6分1秒

114-尚硅谷-Hive-优化严格模式

430

115

2分8秒

115-尚硅谷-Hive-优化 JVM重用&压缩

320

116

11分38秒

116-尚硅谷-Hive-案例实操数据准备

380

117

11分52秒

117-尚硅谷-Hive-案例实操安装Tez引擎&测试

610

118

21分37秒

118-尚硅谷-Hive-课程回顾

370

119

6分10秒

119-尚硅谷-Hive-案例实操需求一

380

120

8分18秒

120-尚硅谷-Hive-案例实操需求二

340

121

5分55秒

121-尚硅谷-Hive-案例实操需求三

330

122

10分22秒

122-尚硅谷-Hive-案例实操需求四

330

123

10分10秒

123-尚硅谷-Hive-案例实操需求五

350

124

4分19秒

124-尚硅谷-Hive-案例实操需求六

350

125

11分37秒

125-尚硅谷-Hive-案例实操需求七

330

005-尚硅谷-Hive-与数据库比较

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐