00:00
好,那我们看一下这个简介啊,这一章简介,这张第一个呢,是HP的一个定义,HP一个定义,那是什么东西呢?是一个分布式。要搭集群了对吧,然后可扩展,可以动态上下线,是这意思,然后支持海量数据存储。一个no so的一个数据库,No so叫什么呢?非关系型的一个数据库吧?啊,非关系型的数据库这意思,那它那个本质是什么东西呢?大家还记不记得当时谷歌的三驾马车,一个叫。GFS。GFS这篇论文IDFS对吧?啊,实现IDFS,还有一个map,那就是MAP6对吧?啊,就是MMR6,然后第三篇论文叫。叫big table对吧,啊大表big table OK,那这两个东西合起来是不是形成了我们的那个框架呀,对吧,那big table这个东西。
01:11
就是我们现在要学到这个h base,其实它叫big table还还好一点是吧,更好理一点点啊,这个h base这个名字啊,不好点,所以H是干什么事的。就是在大数据里面做什么事的呀,我们当时说的那三个事情,他是负责存储的啊,他是负责存储的,因为我们当时说了海量数据的传输,计算和存储对吧,三件事情,那他既然叫大表的话,那很简单了,它就是个能干什么的,存数据的啊,他就是存数据的一个地方啊,存数据地方啊,而且呢,数据量越大,他这个呢,查询的一个优势越明显啊,有很多公司就发现早期的设计的时候可能考虑用那个H,但是数据量没上去,最后又把H给他换下来了,因为发现如果数据量小的话,你用H不划算。
02:06
啊,因为你要起的东西它多了,它整个这个运行啊,还是比较消耗内存的,因为我们刚才说了,它在正常运行过程当中,要不断的去切分去合,不断的去切分去合,这个事情呢,一直都在发生啊,一直都在发生,它比较耗资源啊,它整个的比较耗资源一点啊耗资源,但是如果说你数据量特别大的时候,因为他查,他是能做到几十亿条数据秒级查询。定位到某一条数据秒记上去,几十亿条数据,你要过滤出来某一条能做到这个事啊,但是但是如果说数据量小的时候呢,它就优势不是特别明显,因为他就更浪费资源一点嘛,他做在里边做很多的一个事情啊,做很多一个事情啊,那本质上他做了一个什么事情,是这样的。我们之前提到过h base hdfs这个东西啊,它是不是不支持。随机写操作还记得吗?对吧,这个它叫大表。
03:06
而且它是基于HDFS的一个大表,而且表的一个功能很简单,就是做什么事的。增删改查。对吧,它就实现了增删改查这个功能。啊,增删改查这个功能,那同样的也是支持这些,因为它是一个非关系型数据库,还是一个纯数据的地方,如果说你一个存数据的地方不能做增删改查。那存数率有什么用啊?对吧,他能做三张改达,而且我这刚才说了,它是基于FDSS来的。也就是说它这个东西啊,可以实现在HDF上做随机写操作,因为改不是随机写吗。对吧,你里面有十条数据,我把第五条张三改成李四。对吧,就让泰国男变成女了,要改掉吧,对吧,那这个时候呢,就是说他实现了HDFS的一个随机洗头。
04:04
啊,随机写操作他是怎么做的,之前我问过大家,就是ID上实现随机写操作,如果让你来做这个事儿怎么做啊。是不是把它下载下来,改完了之后,把那个上面删掉重新上传啊,对吧,就是这样干的。那有同学在想,你这样干还那么快,因为他做了很多的一个优化。他有很多的一个组件来不断的,不断的去帮他做这个事儿,所以他比较好资源。但是他利用资源来换取了什么时间啊,到时候我们会跟他说,他到底是如何实现这个功能,他到底做了什么优化之后能说在几十一条数据里边随机的一个什么自然善改查能做到秒级响应啊,他是怎么做的,对吧,他其实就不断的优化,不断优化,刚开始他可能也是写了一个,呃,111个Java类,对吧,因为Java类发现这个东西太慢了吧,我们想象一下那个东西就慢嘛,你想想看,如果你写的,然后重新上传,改了之后重新上传,这是不是慢的,慢就得优化吧,啊不断的优化优化,优化就成了一个什么。
05:11
大的框架了啊,其实有很多那个大,现在目前来说看到一个大的框架都是这样来的,他因为他又不断的有问题,他去优化,优化这个框架是不是越来越大呀,而且越来越完善嘛,所以老的框架当中呢,有一些bug也很正常,他要去增加功能,并同时还要去修改bug,对吧,因为人家写的代码嘛,嗯,是人家不写代码的只有一种。什么?产品不是啊,你说经理也行啊,就是你你要想不写bug。你不写,刚才说的是不写代码是吧?说错了,应该是不写bug,只有一种人就不写代码的人不写bug。对吧啊,不写代码的人就不会写bug,只要是代码一定会有bugug,一定会有bug啊,一定会有bug是这意思啊,所以呢,不断的优化,那我们要知道一个点,首先呢,它叫一个B个table,那这里面肯定有表吧,啊肯定有表,第二个它能实现增删改查。
06:09
而且是实现FDF法上的一个增值感啊,做的这个事,那我们更重要的是关注那个。改的操作吧,因为增深和查HDFS本身是不是就有这个功能。对吧?啊,但是你说主要注意一下这个删啊,它是有十条数据,我要删第五条它也可以,是不是还是改了一个操作,随机写操作吧,啊随机写操作这个意思啊,这里边这是还是为了一个定义,接下来还有一个就是分布式的,我们要发集群啊可扩展,也就是说它类这个可扩展呢,就像飞一样。我再拿一个机器过来,相应的代码都一样,一起进程,就是扩展出来一个新的机器啊,加入这个服务工作的是做这个事的啊好,支持海量数据存储,这个就不聊了,因为它本身的大数据框架里边,所以海量数据无论做计算的,那就支持海量数据的一个运算,对吧?啊就这意思,这海量数据啊,它的一个特点的一个点,最后呢是落点是一个数据库,所以呢,它里边有表的一个结构啊,有表的一个结构,这是整个的HV,我们所聊的一个定义,最后H呢,现在也是阿尔法奇维护的一个。
07:17
框架一个点项目,所以他这个官网地址就很简单了吧,贝点阿奇对吧,连or RG啊,它也是阿尔法奇的一个框架。阿巴阿斯阿斯。一个小海豚是吧。但是这个小海我一直想不明白是什么意思,可能就跟那个大象一样啊啊这个最后说了一下他的一个官网地址对吧,但如果说你要看那个文档啊,看那个那个什么内容的时候,这金吗?啊无所谓了。
我来说两句