文章/答案/技术大牛

发布

首页视频42_尚硅谷_HBaseAPI_与Hive对比

42_尚硅谷_HBaseAPI_与Hive对比

2022-12-022022-12-02 16:02:19播放38

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之HBase(2019版)/4.视频/42_尚硅谷_HBaseAPI_与Hive对比.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，呃，那刚才呢，我们所自定义的这个MA6主要的来实现了跟这个MR来读取和网HP来写数据这种功能，我们并没有做复杂的一些逻辑在里边，对吧？那这个里面你想统计what count，或者想统计假如说某一列有多少个，是不是也可以啊，啊，你想统计什么东西，这就是业务逻辑来决定的东西了啊，你想统统统计类似于波斯康的，假如说这里面内有多少，或者说有多少为空的，没有内部的。对吧？啊，每一行里边没有name这一列啊，这些东西是不是都可以统计啊，对吧？啊都可以统计出来，是这意思，好，那接下来呢，我们来看一下跟HUB这边做一个对接，因为如果说我have能够读到h base数据的话，是不是have也可以帮助h base这边数据做一个分析啊，对吧，你可以写搜口来分析啊这意思，那在讲他们俩对接之前呢，先看一下他们俩一个对比，因为有个公司当中啊，有的学生出去是这个还是有非分的，其实他们俩有一个本质上的区别吧，对吧，Have是一个。
01:04
分析框架对吧？啊，分析框架啊，是一个什么存储框架啊，首先呢，你肯定要打出这个点，从最本质的来说明他们两个事情啊，但是呢，我们又把这个have称为数据仓库。对吧，仓库又是一个存储的地方，但是你要知道它是借助于人家来存的。对吧，他对这个数据压根就不自己管理，当然有同学可能在讲了，那你h base不也借助HDF存储的吗？但是它是自己掌握了这个原数据信息，而汉不是的，能理解这个事吗？他把原数据信息还写到哪了，写到MYS里边吧，啊，写到MYS里边了，交给人家的管理了，所以呢，我们一般意义上说它呢，不是一个存储框架啊，不是存储框架，而是一个存储框架啊，是这个意思，那我们看一下。除以参库的一个概念，刚才我们也提到了，实际上它是在HDFS和MY做了一个双摄关系，他在中间。
02:03
做了一个权衡的位置，相当于是吧，啊，一边呢跟MY搜要对接，一边呢跟HDFS要对接啊，但是他自己实际上不存什么东西。你说那个什么reading so，这些东西存一个原数据，那have有类似的东西说存一个什么东西吗？没有吧，啊，压根没有直接起客户端有起服务吗。正常不起，我们之前起过一个have so to，它是为了给第三方框架来连接的时候要起的东西吧，啊，就把那个客户端相当于提升一个服务，让第三方框架可以连起来，而have没有起这种东西板，直接就是被have进去就开始写色了。对吧？啊，因为它自己能找到这个MY，找到这个HDF是这个意思啊，它呢主要是用于数据分析和清洗啊，这些东西都可以啊，但是它一个特点呢，就是延迟较高，值较高，基于这个ID FS ma6的啊，数据存在IDFS啊，运行呢是MA6，当然这块大家一定要记住一个点，它默认的是MA6啊，到项目里边呢，我们会把have的引擎给改了，到Spark呢，你会发现诶Spark也可以帮助have来做分析啊，也就是说它引擎呢有多个啊，我们在书仓项目里边会接触一个，在Spark又会接触Spark啊，就是说引擎呢三种，它默认的就是那个配置，当时是不是大家看过。
03:25
看过绝对看过这个东看过叫引擎，我讲的的，我讲的对吧，谁讲的也忘了是吗？那难怪说这个东西都不记得了，那很正常啊，那我能理解吗？啊啊那呢，实际上是一个数据库。对吧，存数据的对吧，它是一个面向列存储的一个非关系型数据库，OK，那这块出现了，突然出现了一个名词叫面向列。
04:02
哎，我们之前是不是讲过orc怕这种是面向列存储的。面向列这个不一样，这个你与其说他是面向列存储的，不如说它是面向。列组存储的。他说不一个列组放在一个文件夹里边，一个列组放在一个文件夹里边了啊，实际上是面向列足存储的，是这个意思啊，它的列呢，不是说因为之前我们所讲的orc爬会这种方式是我们所举的例子，哎，有ABC3个列对吧，有值A1。A2BB1C1 a2b2c2，我们之前所讲的列存储什么意思？是A1A2。A3，存完之后，然后存B1 B2b3，这个叫列存除吧，而对于我们h base来说，它是指的是面向列足存储的，能理解这个事啊，我们之前也看过它这个讲列分成两个文件加放大啊，面向列组存储的，而且是一个非关系因数据库啊，用于存储结构化和非结构化数据，但是其实这个点啊。
05:19
真不多，用的不多，因为现在非铁规划用的比较多的可能是那个猫狗。听过D这个听过吗？那个东西造存的东西，哎，这辈子其实它更多的还是应用于这种结构化数据的一个存储啊，结构化数据的一个存储是这个意思，而且呢，其实有同学问啊，那个公司当中那个图片啊，那个视频到底存存一般的正常情况下呢，它有一个那个视频或者说图片那个服务器。然后呢，在数据库里边，或者说还位置里边存一个什么。存个地址叫URL对吧，或者你们所理解的种子对吧，以后就不要说种子了，那个是一个什么，那个叫统一资源定位符对吧？啊叫不要不要叫种的了，对吧，你要这专业的人来说专业名字嘛，对吧，假装假装很假装很专业对吧，那假装也可以假装一下嘛，对吧？啊这个意思啊。
06:17
啊，这个啊，就是太专业了，没问题，你交不了是吗？OK那。这个呢，是存储这个数据的，他不适合做这种关联查询，类似于交应啊等等这些东西它都不支持啊，就不光不说说不支持交应了，他甚至连select什么，呃，我们所理解的什么some啊。Avg啊等等这些东西都没有吧，啊，他都没有，因为它仅仅是一个存储框架啊存储框架，然后它也是基于HD来的。啊，已存的形式呢，是HLHL这个东西你也不是自己也读不懂吗？当时还记得我们用HV的命令读过这个吧。中间加了什么杠A-K-F什么一一大堆参数啊，对吧，才能给它读出来吧，啊东西比较多，是这意思啊，你直接是读不了的啊，直接读不了了啊，它也是一种特殊的形式，就类似于orc文件，怕文件你直接看也没用。
07:14
啊也没有OK，那最后还有一个延迟较低，可以接在线业务使用，因为我们说了它是一级别数据呢，可以做到几十亿级别数据啊，都可以做到秒级响应啊，是很快的，可以直接接在线业务的，如果说你生产环境当中这个数据量特别大。然后呢，你还要做查询详情的这种功能。就直接查看，原来说句什么样子，那一般都会选用这个H，但是现在在北京我发现有很多中小型公司，最开始选型的时候选的是H贝斯，但后来呢，又把X贝拿掉了。因为数据量没那么大，用了什么东西呢？Elastic search。或者用的red来代替了。啊，代替了这个贝啊，因为它这个查询速度也是非常快的，还有这个东西。
08:02
做过开发的应该都知道，那个搜lo，当然亚，我们后面会学啊，会学他是干什么呢？就是你们现在见到的市面上什么京东淘宝啊，都会类似的这种搜索装嘛，对吧，这种很多的绝大部分都是拿这个E。就是都是拿这个东西做搜索，他这个搜索引擎，他里面采用的就是那个倒牌索引那种方式来做的啊搜索引擎采用了之前我们不是讲过一个倒排索引案例吗。我讲的，我接了王浩老师的课，他当时没讲完那个案例对吧，道白作爱德硅谷什么a.cc那个东西对吧？啊，其实它里边原理就用的是那个倒排索引那个原理啊，这种搜索引擎啊，为什么你查一个关键字，人家很快的把你文章给你列出来，对吧？啊，因为他把。关键词先列出来了，先切词，要做切词，切词完了之后呢，他后面跟着就是那个文章的地址。啊，当然呢，呃，像百度谷歌啊，他自己的这个文章要做什么。
09:04
排名对吧啊，像百度的话就砸钱呗，竞价对吧？啊，砸钱就完了啊，砸钱你的整个关键字啊，或者说你的整个的一个网页啊，就能在前面，但是人谷歌整个的一个算法还做的比较好的啊，整个的推出来的东西还是蛮有用的，对吧？啊，因为人家当然有那个竞价在里边会有，但是呢，它那个权重啊。没有谷歌那么高。对吧，不，没有百度那么高，没有百度那么高，意思是这意思，就早期的时候就正常的，你去。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之HBase(2019版)

（42/64）

4分15秒

01_尚硅谷_HBase入门_课程介绍

380

7分56秒

02_尚硅谷_HBase入门_定义

340

13分5秒

03_尚硅谷_HBase入门_逻辑结构

390

7分58秒

04_尚硅谷_HBase入门_物理结构

380

13分29秒

05_尚硅谷_HBase入门_数据模型

430

12分7秒

06_尚硅谷_HBase入门_基础架构

320

15分11秒

07_尚硅谷_HBase入门_集群安装

410

12分39秒

08_尚硅谷_HBase入门_集群启动&关闭

420

16分57秒

09_尚硅谷_HBase入门_命令行操作DDL（表）

340

3分39秒

10_尚硅谷_HBase入门_命令行操作DDL（命名空间）

350

15分9秒

11_尚硅谷_HBase入门_命令行操作DML（增&查）

390

21分28秒

12_尚硅谷_HBase入门_命令行操作DML（改&删）

300

7分39秒

13_尚硅谷_HBase入门_命令行操作DML（多版本）

440

18分10秒

14_尚硅谷_HBase高级_详细架构

330

18分56秒

15_尚硅谷_HBase高级_写数据流程

390

9分30秒

16_尚硅谷_HBase高级_写数据流程（源码流程）

430

26分30秒

17_尚硅谷_HBase高级_回顾

380

19分57秒

18_尚硅谷_HBase高级_Flush流程

350

26分30秒

19_尚硅谷_HBase高级_读数据流程

330

13分29秒

20_尚硅谷_HBase高级_Compact流程

380

4分28秒

21_尚硅谷_HBase高级_读写扩展

400

18分39秒

22_尚硅谷_HBase高级_数据真正删除时间

420

13分55秒

23_尚硅谷_HBase高级_Split流程

340

17分54秒

24_尚硅谷_HBaseAPI_DDL判断表是否存在（旧API）

310

11分9秒

25_尚硅谷_HBaseAPI_DDL判断表是否存在（新API）

390

13分55秒

26_尚硅谷_HBaseAPI_DDL创建表

370

4分30秒

27_尚硅谷_HBaseAPI_DDL删除表

420

12分31秒

28_尚硅谷_HBaseAPI_DDL创建命名空间

330

18分19秒

29_尚硅谷_HBaseAPI_DML插入数据

420

18分53秒

30_尚硅谷_HBaseAPI_DML获取数据（get）

360

16分12秒

31_尚硅谷_HBaseAPI_回顾

250

16分1秒

32_尚硅谷_HBaseAPI_DML获取数据（Scan）

280

8分45秒

33_尚硅谷_HBaseAPI_DML删除数据（命令行删除数据）

390

14分10秒

34_尚硅谷_HBaseAPI_DML删除数据（分析）

340

22分29秒

35_尚硅谷_HBaseAPI_DML删除数据（实操）

350

10分38秒

36_尚硅谷_HBaseAPI_DML删除数据（扩展）

310

27分32秒

37_尚硅谷_HBaseAPI_与MR交互（官方案例）

350

15分18秒

38_尚硅谷_HBaseAPI_与MR交互MR1（Mapper&Reducer完成）

310

17分17秒

39_尚硅谷_HBaseAPI_与MR交互MR1（Driver&测试完成）

430

13分58秒

40_尚硅谷_HBaseAPI_与MR交互MR2（Mapper完成）

350

17分48秒

41_尚硅谷_HBaseAPI_与MR交互MR2（Reducer&Driver&测试完成）

370

9分37秒

42_尚硅谷_HBaseAPI_与Hive对比

380

9分7秒

43_尚硅谷_HBaseAPI_与Hive对接（失败）

370

17分31秒

44_尚硅谷_HBaseAPI_与Hive对接（成功）

380

6分43秒

45_尚硅谷_HBaseAPI_与Hive对接（案例二）

320

11分41秒

46_尚硅谷_HBaseAPI_回顾

350

6分26秒

47_尚硅谷_HBase优化_高可用

350

23分51秒

48_尚硅谷_HBase优化_预分区

390

6分30秒

49_尚硅谷_HBase优化_RowKey设计原则

380

24分15秒

50_尚硅谷_HBase优化_RowKey情景设计

300

12分36秒

51_尚硅谷_HBase优化_内存&其他

370

20分10秒

52_尚硅谷_HBase案例_谷粒微博（需求分析）

410

4分34秒

53_尚硅谷_HBase案例_谷粒微博（项目架构）

350

17分48秒

54_尚硅谷_HBase案例_谷粒微博（HBaseUtil类封装）

330

14分11秒

55_尚硅谷_HBase案例_谷粒微博（定义常量）

440

5分37秒

56_尚硅谷_HBase案例_谷粒微博（发布微博第一部分）

480

15分10秒

57_尚硅谷_HBase案例_谷粒微博（发布微博第二部分）

420

22分58秒

58_尚硅谷_HBase案例_谷粒微博（关注用户第一部分）

430

13分20秒

59_尚硅谷_HBase案例_谷粒微博（关注用户第二部分分析）

440

15分36秒

60_尚硅谷_HBase案例_谷粒微博（关注用户第二部分代码实现）

370

17分0秒

61_尚硅谷_HBase案例_谷粒微博（取关用户）

440

12分42秒

62_尚硅谷_HBase案例_谷粒微博（获取初始化页面数据）

360

22分47秒

63_尚硅谷_HBase案例_谷粒微博（获取某个人所有微博）

410

18分49秒

64_尚硅谷_HBase案例_谷粒微博（测试）

480

42_尚硅谷_HBaseAPI_与Hive对比

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐