00:00
好,刚才在讲这个德鲁伊框架原理的时候,我们提到了一个叫S格的数据,嗯,文件,那这个S格文呢,它其实是德鲁伊的一个数据结构组成部分,那来看,那与德鲁伊架构相辅相成的是基于这萨与S格的数据结构啊,它们共同成就了德鲁一的高性能,比如说这两块。那么来看一下这两个,它分别代表了什么含义?这一块等一的data source相当于关系型数据库当中的表data source data source结构包括什么呢?这么几个。包括时间列、维度列、指标列,这是传递到德鲁一里面的数据。一个是时间列,表示每行数据的时间值,默认是绝对C格式写精确度到毫秒级别。比如说这个。传递到德鲁伊里面的数据是必须要有时间之段的。
01:02
没有这个时间之大,存起来。啊,是建立不了什么表关系的啊,所以说时间制段很关键,那另一个维度列那也是具体的,我们像这个介绍里面啊,每一列每一列的数据啊,一个一个字段啊,维度列呢,用于olap,你说分析引擎用来识别数据的各个列的信息,类别信息一。好,那下面还有一个指标列,它用于计合和计算的列,通常是一些数字计算的,包括count上。他这里面是提前做了预计和。嗯,预聚合,这就是他会把你前边这些,你看访问这一个网站点击了高好是它会统一个聚合,怎么聚合的呢?这。无论实施呃数据消费还是批量的数据消费等,录一在基于对source数据结构存储时,即可以选择对任意的指标列进行聚合,这个是你在图形化页面上可以选的啊。提前选好的该聚合操作主要基于维度列和时间列,也说基于前面的时间和它这些之后下头显示的是执行聚合操作后的data source数据情况。
02:20
你看这个。这个是可选的啊,啊怎么聚合是提前可以配置了,你看你这个网站他已经点击了这个模式,这个点击这些是。那它的精度是不是必然就损失了,没有上面的一条一条的精度高啊,就在这啊,但是这里面是不是就减少了它存储的空间呢。那再来登录一,在数据存储时便对数据进行了预聚合操作,这是它的一大特点。该特点使得德鲁伊不仅能够节省存储空间,而且提高了高聚额查询的效率。提前预算嘛,立计算,进来一个就没了,进来一个就好。
03:04
那这是data source data source呢是一个逻辑上的一个概念,那真正的在存储的时候,它其实叫SS是一个数据实际存储的格式。啊,存储起来等等于将不同时间范围内的数据存储在不同的三个的数据块中,按照不同时间范围去切的。这边是按照数据横向切割,比如说你看这个时间传进来的数据就是。T01,这个时间段传进来的数据T02,这块时间传来的数据T03。我按照时间就把你已经分成了三部。啊,这叫横向切割,横向切割一刀一刀的,按照时间。往下切割数据,避免了全表查询,极大的提高效率,你可以认为是不是按时间分区吗?是这样吗?啊,那我查询速度就肯定很快,好,那还有在三个当中也采用了面向列的压缩技术,其实可以纵向再切割。
04:12
这个中小企要怎么理解呢?它可以选择你要用到哪一列,我就把哪一列加来去,不用的列完全可以干掉。那说它又按列存储。嗯,那我查询某一列,那速度又快了。啊,所以说这就是它快的原因啊,横轴切割啊,横轴按时间切割,纵轴按照这个列啊去切割啊好,这就是它的数据的一个特点,存储的点。这是它的优势啊,面试的时候,如果你能答出这种横向按时间切,纵向按链接,然后上面呢,这也是它的配套,它的原理,传进来数据,有实时进来的数据,还有历史的数据,他们呢都是放在内存当中进行预算,在预算的过程当中,其实采用了缓存技术啊,缓存技术。
05:01
OK啊。
我来说两句