00:00
好,呃,那刚才呢,我们所自定义的这个MA6主要的来实现了跟这个MR来读取和网HP来写数据这种功能,我们并没有做复杂的一些逻辑在里边,对吧?那这个里面你想统计what count,或者想统计假如说某一列有多少个,是不是也可以啊,啊,你想统计什么东西,这就是业务逻辑来决定的东西了啊,你想统统统计类似于波斯康的,假如说这里面内有多少,或者说有多少为空的,没有内部的。对吧?啊,每一行里边没有name这一列啊,这些东西是不是都可以统计啊,对吧?啊都可以统计出来,是这意思,好,那接下来呢,我们来看一下跟HUB这边做一个对接,因为如果说我have能够读到h base数据的话,是不是have也可以帮助h base这边数据做一个分析啊,对吧,你可以写搜口来分析啊这意思,那在讲他们俩对接之前呢,先看一下他们俩一个对比,因为有个公司当中啊,有的学生出去是这个还是有非分的,其实他们俩有一个本质上的区别吧,对吧,Have是一个。
01:04
分析框架对吧?啊,分析框架啊,是一个什么存储框架啊,首先呢,你肯定要打出这个点,从最本质的来说明他们两个事情啊,但是呢,我们又把这个have称为数据仓库。对吧,仓库又是一个存储的地方,但是你要知道它是借助于人家来存的。对吧,他对这个数据压根就不自己管理,当然有同学可能在讲了,那你h base不也借助HDF存储的吗?但是它是自己掌握了这个原数据信息,而汉不是的,能理解这个事吗?他把原数据信息还写到哪了,写到MYS里边吧,啊,写到MYS里边了,交给人家的管理了,所以呢,我们一般意义上说它呢,不是一个存储框架啊,不是存储框架,而是一个存储框架啊,是这个意思,那我们看一下。除以参库的一个概念,刚才我们也提到了,实际上它是在HDFS和MY做了一个双摄关系,他在中间。
02:03
做了一个权衡的位置,相当于是吧,啊,一边呢跟MY搜要对接,一边呢跟HDFS要对接啊,但是他自己实际上不存什么东西。你说那个什么reading so,这些东西存一个原数据,那have有类似的东西说存一个什么东西吗?没有吧,啊,压根没有直接起客户端有起服务吗。正常不起,我们之前起过一个have so to,它是为了给第三方框架来连接的时候要起的东西吧,啊,就把那个客户端相当于提升一个服务,让第三方框架可以连起来,而have没有起这种东西板,直接就是被have进去就开始写色了。对吧?啊,因为它自己能找到这个MY,找到这个HDF是这个意思啊,它呢主要是用于数据分析和清洗啊,这些东西都可以啊,但是它一个特点呢,就是延迟较高,值较高,基于这个ID FS ma6的啊,数据存在IDFS啊,运行呢是MA6,当然这块大家一定要记住一个点,它默认的是MA6啊,到项目里边呢,我们会把have的引擎给改了,到Spark呢,你会发现诶Spark也可以帮助have来做分析啊,也就是说它引擎呢有多个啊,我们在书仓项目里边会接触一个,在Spark又会接触Spark啊,就是说引擎呢三种,它默认的就是那个配置,当时是不是大家看过。
03:25
看过绝对看过这个东看过叫引擎,我讲的的,我讲的对吧,谁讲的也忘了是吗?那难怪说这个东西都不记得了,那很正常啊,那我能理解吗?啊啊那呢,实际上是一个数据库。对吧,存数据的对吧,它是一个面向列存储的一个非关系型数据库,OK,那这块出现了,突然出现了一个名词叫面向列。
04:02
哎,我们之前是不是讲过orc怕这种是面向列存储的。面向列这个不一样,这个你与其说他是面向列存储的,不如说它是面向。列组存储的。他说不一个列组放在一个文件夹里边,一个列组放在一个文件夹里边了啊,实际上是面向列足存储的,是这个意思啊,它的列呢,不是说因为之前我们所讲的orc爬会这种方式是我们所举的例子,哎,有ABC3个列对吧,有值A1。A2BB1C1 a2b2c2,我们之前所讲的列存储什么意思?是A1A2。A3,存完之后,然后存B1 B2b3,这个叫列存除吧,而对于我们h base来说,它是指的是面向列足存储的,能理解这个事啊,我们之前也看过它这个讲列分成两个文件加放大啊,面向列组存储的,而且是一个非关系因数据库啊,用于存储结构化和非结构化数据,但是其实这个点啊。
05:19
真不多,用的不多,因为现在非铁规划用的比较多的可能是那个猫狗。听过D这个听过吗?那个东西造存的东西,哎,这辈子其实它更多的还是应用于这种结构化数据的一个存储啊,结构化数据的一个存储是这个意思,而且呢,其实有同学问啊,那个公司当中那个图片啊,那个视频到底存存一般的正常情况下呢,它有一个那个视频或者说图片那个服务器。然后呢,在数据库里边,或者说还位置里边存一个什么。存个地址叫URL对吧,或者你们所理解的种子对吧,以后就不要说种子了,那个是一个什么,那个叫统一资源定位符对吧?啊叫不要不要叫种的了,对吧,你要这专业的人来说专业名字嘛,对吧,假装假装很假装很专业对吧,那假装也可以假装一下嘛,对吧?啊这个意思啊。
06:17
啊,这个啊,就是太专业了,没问题,你交不了是吗?OK那。这个呢,是存储这个数据的,他不适合做这种关联查询,类似于交应啊等等这些东西它都不支持啊,就不光不说说不支持交应了,他甚至连select什么,呃,我们所理解的什么some啊。Avg啊等等这些东西都没有吧,啊,他都没有,因为它仅仅是一个存储框架啊存储框架,然后它也是基于HD来的。啊,已存的形式呢,是HLHL这个东西你也不是自己也读不懂吗?当时还记得我们用HV的命令读过这个吧。中间加了什么杠A-K-F什么一一大堆参数啊,对吧,才能给它读出来吧,啊东西比较多,是这意思啊,你直接是读不了的啊,直接读不了了啊,它也是一种特殊的形式,就类似于orc文件,怕文件你直接看也没用。
07:14
啊也没有OK,那最后还有一个延迟较低,可以接在线业务使用,因为我们说了它是一级别数据呢,可以做到几十亿级别数据啊,都可以做到秒级响应啊,是很快的,可以直接接在线业务的,如果说你生产环境当中这个数据量特别大。然后呢,你还要做查询详情的这种功能。就直接查看,原来说句什么样子,那一般都会选用这个H,但是现在在北京我发现有很多中小型公司,最开始选型的时候选的是H贝斯,但后来呢,又把X贝拿掉了。因为数据量没那么大,用了什么东西呢?Elastic search。或者用的red来代替了。啊,代替了这个贝啊,因为它这个查询速度也是非常快的,还有这个东西。
08:02
做过开发的应该都知道,那个搜lo,当然亚,我们后面会学啊,会学他是干什么呢?就是你们现在见到的市面上什么京东淘宝啊,都会类似的这种搜索装嘛,对吧,这种很多的绝大部分都是拿这个E。就是都是拿这个东西做搜索,他这个搜索引擎,他里面采用的就是那个倒牌索引那种方式来做的啊搜索引擎采用了之前我们不是讲过一个倒排索引案例吗。我讲的,我接了王浩老师的课,他当时没讲完那个案例对吧,道白作爱德硅谷什么a.cc那个东西对吧?啊,其实它里边原理就用的是那个倒排索引那个原理啊,这种搜索引擎啊,为什么你查一个关键字,人家很快的把你文章给你列出来,对吧?啊,因为他把。关键词先列出来了,先切词,要做切词,切词完了之后呢,他后面跟着就是那个文章的地址。啊,当然呢,呃,像百度谷歌啊,他自己的这个文章要做什么。
09:04
排名对吧啊,像百度的话就砸钱呗,竞价对吧?啊,砸钱就完了啊,砸钱你的整个关键字啊,或者说你的整个的一个网页啊,就能在前面,但是人谷歌整个的一个算法还做的比较好的啊,整个的推出来的东西还是蛮有用的,对吧?啊,因为人家当然有那个竞价在里边会有,但是呢,它那个权重啊。没有谷歌那么高。对吧,不,没有百度那么高,没有百度那么高,意思是这意思,就早期的时候就正常的,你去。
我来说两句