00:00
好,第二块呢,我们来了解一下整个艾斯的一个数据模型这一块啊呃,因为我们提到了它是一个。大表它里面有表构,但是注意这一块呢,它的no对吧,它这个表结构啊,跟我们MY不一样,如果一样了,这个就不用介绍了,那就很简单了,对吧?啊整个的东西数据结构这块不用介绍,那我们直接可以用就完了,对吧,但是呢,它不一样啊,那我们要找出来不一样的一个点,第一个啊,总体的一个介绍。总体个接受,呃,这个里面呢,他说逻辑上。逻辑上跟那个关系型数据库的很类似啊,只是逻辑上类似,也就是说最终我们一般表示的时候,或者说画PPT或者画那个文档的时候,一般的画出来是一张表结构,但真正这个数据在底层存储的时候,它不是这样的。啊,它不是按照我们整个表结构来存储的啊,存储在一张表当中有行有列对吧,但是从他这位子真正底层结构来看,它是KV形式的啊,有K形式有一个V键啊,V键其实大家现在应能看到,这里边呢,有一个东西叫rie行键啊,这一行呢有一个V键,这个行呢就是每一行有一个V的。
01:12
这一列啊,这个是一个单独的列,这一列呢,你要注意。是必带的,就是系统的,不是说你想创建这个创建的它是必有的,这个系统就自带,就是说你创建的任何一张表,你要插入数据,你必须要指定一个什么。Rookie,而且这个rookie叫航线。它必须是。在一张表里边,必须是唯一的。必须是唯一的啊,就相当于是这个表的主键一样。必须是唯一的啊,如果不唯一,你插入数据,那就等于是覆盖。能听懂,就类似于你有一个ID在MYL当中,假如说主件为DD为一,你再往里插入ID为一,能插入吗?插入不了,你只能更新吧,对吧,就做这个覆盖的一个操作,就相当于啊,它里面有这个内容,他这个说了。
02:00
哎,这更像一个什么Mar,多维度的一个map啊,多维的有很多K啊,有很多K,这是说的逻辑上的概念,那我们更重要的就是了解逻辑上的一个结构啊,逻辑上结构这个呢,是看着一张PPT啊,其实就是一张什么。一张图片,因为这里面动画呢,说实话不好不好弄啊,那我们放大一点来看一下。首先看着里边一堆东西吧,来挑一挑我们认识的。就一个列,不是张三李四,这个就算了,这个数据吧,认识也没用啊,跟结构有什么关系啊,是不是只认识一个列啊,好,那我们就从我们认识的开始说,那就这一个列,那既然这个叫列,那它叫不叫列叫吧,它叫呢,他也叫他也叫吧啊,它也叫列啊,好,然后你看到跟列相关的有个东西叫什么,往右边看叫列足。他是不是这个意思表示,哎,你看我框出来的是这个。
03:02
叫office。Personal就是个人信息和。办公信息对吧?哦,办公信息啊办公信息OK,那这个呢,一个列组,那既然你叫一个列组,那我叫叫列组叫列组对吧,那这个就是跟第一个区别点了。对不对,第一个区别就在这,它要将很多列啊,要干什么分出来不同的列组,因为这个会影响到最终的一个存储,它不同的列组呢,放在不同的文件夹里边存的。如果说你是属于person。假如说再来一个啊,十是十几个列吧,那这个数据呢,在一个文件夹里边,而这个数据呢,又在一个文件夹里边啊,它表呢是分成了很多个文件夹,这个文件夹怎么分的,就看这个什么。列啊,就要看那个列足是这样来的,能理解这个事儿啊,列足他就说又多了一层抽象,把你很多列,哎,这几个列可能是一类的列,对吧?啊,这一类的我把它定义个列组,那这一类呢,又是一类的,那我又把它定义个列组,当然这一个列组当中我只有一个进息。
04:13
可以啊,可以你可以放多个啊,也可以放一个,而且这个列啊,它可以动态增加。我想加几个加几个,甚至100个200个都行。啊,你来一条数据,有一条数据只有那没有CD没有后可以啊,或者新来一个,我来一个X列,新来的数据呢,假如说r rie8,它只有一个新来的X可以啊,怎么存都行啊,对X倍来说,后面我们再聊好,那除了列跟列足之外,我们还能看到什么稍微熟悉一点呢?是不是刚才我们所说的那个rookie呀?对吧,啊这个东西呢,叫横线。啊,叫航线。好,来看一下这个航线,感觉它是有序的,是不是又感觉是没序的。
05:06
对吧,实际上它是有序的,这个是一个有序的,这个是什么序。这个从上到下是从小到大的。那这个顺序告诉你的是有序的,它是什么序?叫字典序。这个东西要字典去按位比较的能听懂。它是按位比较的。M倍比较的,那前面大家都是rookie一样的吧,前面不用比了,哎,比完了之后大家都一样好一最小。一在前面,那接下来它同样的一,那我第二列当中,第二行当中是不是还有一啊,有比没有什么。的。有比没有大,是这意思啊,有比没有大,那二比什么比一的,它是同一个位置上比较,如果这个位置相同,就比较下一位,下一位有比没有的能听懂啊,它是按照字典去来排的,每一个当中的都有啊,每一个当中都有,只要唯一就行了,无所谓,你写什么,你可以写幺幺,幺幺写abcd,随便,这个无所谓,只要它唯一就行了。
06:21
如果不唯一,就是覆盖好这个rookie,我们搞定了。对吧,好,那接下来这整体没有写出来的一个结构,就是这一个图整体叫什么东西。叫一个表对吧,我们之前说过他们是big table吗?这整个的一个内容呢,是一个表,但是你发现这张表啊,被切的乱七八糟的。是不是横着两刀,竖着一刀,竖着一刀是按什么切的,按列弧切的,横着按什么切的,按肉切的?
07:02
啊,按rookie剪切的好,那这个跟MY那个表有什么关系呢?大家在MY高级上了,马高级上了对吧?高表宽表有印象吗?这个是有印象吗?这个名词那那就没讲过,假如说没讲过好吧,那我们想一下这两个名词不难理解,什么叫高表,什么叫宽表,高表是不是多啊,数据行多吧。对吧,宽表呢列多吧,胖是不是那张表对吧?而这意思,那买so当中对于高表,如果说你这个表特别长,你想的存储应该怎么。不是水平切分啊,对吧,那如果胖了呢,是不是垂直切分啊,那这个地方他就做了这两个事,因为我们说了h base这个地方啊,他就要存海量数据的,对吧。
08:06
那几十一条数据,你告诉我是不是高标。几十一条数据啊,对吧,他要切分啊,他要做切分,那还有一个它这个列,刚才我们说了几百个列啊。一个列组里边有几百个列啊,对吧,你是不是要把假如说有几百个列,是不是把这几百个列应该划分成不同的列组啊,把它分开存啊,啊这样检索的时候是不是能快一些,你分开存档,也就是说类似于我们have里边分区那种产品,因为我们当时说了一个点,这个东西呢,放在一个文件夹里边,这个东西放在一个文件夹里边,对吧?啊,不同的列足属于啊,这个就属于它当中的一个高表和宽表的一个切分,OK,那这个东西你看一下他把。横向切分的每一个点叫做了一个。叫做RA啊,这个呢是一个新的概念了,那RA呢是一张表的切片,而且呢是横向一刀的切片,能听懂。
09:05
对吧,那好,那这里面有几个约定啊。三个reading嘛,对吧,一张表划分成了三个reading,它一定是按照这个R来划分的,好,至于它怎么划分的,按照数据量来的。这数据量太大了,我叫做切分了啊,它一切分开这两个东西这个。跟这个也在不同的文件夹了啊,就划分到了不同的文件夹了,就类似于还有分区一样,是不是将数据划到不同的文夹里,解锁的时候是不是能少解锁一点。那我记录一下,假如说你这个数据我记录了,诶三到五在READING2里边,一到什么二在READING1里边,什么六七在READING2里边,那你要访问4ROOKIE4还需要扫这两个数据吗。不需要了吧,啊不需要了,其实这个也是我们所说的什么宽表高表的一个存储策略的一个问题啊,存储策略一个问题。
10:03
啊,这里边一个东西,好,那接下来这个reading我们搞定了,现在就剩最后一个了,上面的那个什么橙色的还是黄色的,叫store store什么意思?叫存储对吧,啊叫存储,也就是说它真正存的东西是这些东西,那既然它要放在一个速度里边,那它呢,一样的道理吧,啊一样道理,那六块吧,六块放在不同的store里边,而且呢,这个store将来是放在HDF,也就是说真正在HD里存的数据就是什么。就是这些东西能听懂啊,这实际的数据嘛,对吧,这是实际的数据呢,那肯定要放在还是D计算中了,那这些东西我们都可以放在服务的内存里边,因为它只是一个什么。原数据信息吧。列名有必要说每一个地方都有在数据里边,每一行数据都存这个列名吗?
11:00
没必要吧,是不是大家存一个就行了,因为你结构是一样的,我知道你是什么数据啊,对吧?啊这个意思列明是这样存的啊,真的OK,那这里边呢,我们回过头来来捋一下,从我们最熟悉的列开出的吧,列我们最熟悉,那既然是一张表,那一定有它的什么。列嘛,因为你是一个big table嘛,整张图啊,是一个大表,它里面有列,但是这里面有一个区别的地方在于它的列。把几个列划分成一组,把几个列划分成一变成了什么列组,这个呢,就相当于把S当中对于宽表的一个切分,宽表的一个切分,将来呢,这两个东西会放到不同的。文件夹啊,不同的地方去做存储的啊,这是第一个地方啊,好,接下来列足,聊完了之后我们看一下是不是入啊。行线对吧,它其实没什么好聊的,它是里面自带的,就是你必须要写的啊,必须要写的,你任何插入任何数据的时候,没有主件不行,不指定这个入K差不不建议报错啊,报错是这意思,好之后呢,是我们聊的这个reading。
12:04
首先我们刚才说了,这个整张图是一个大表对吧,那既然你要横向切分,纵向切分,那纵向切分出来的我们叫列足,划分成不同的列足,那横向切分出来的就是一个一个的什么。Video,因为你只有横向切分的时候,这一条数据全部拿到这儿才完成嘛,你虽然说纵向放在不同的文件夹里边了,但是你拿到这一部分数据,这个数据不完整是不是。对吧,所以横向切的时候,它把它划分成了一个一个的reading,那reading呢,是我们所说的叫表达。切片能听懂啊,它叫表的切片内容啊,表的切片内容OK,那最后是缩缩呢,讲的是它的一个存储,真正的存储的内容啊,真正的存储等会下一张PPT,我们就专门来聊这个思路啊,专门来聊这个思路,OK,这个是我们所说的它中间的一个逻辑结构,因为你画表的时候一定是这样画,但是它真正存储的时候并不是这样存的啊,并不是这样存的,我们来看啊这第一个逻辑结构。
我来说两句