00:00
好,那下面呢,我们来看一下P的一些优化,嗯,面试官呢,也愿意问一些P你做了哪些优化啊,类似的问题,类似于什么呢?还有做了哪些优化,Spark做了哪些优化啊,还动做了哪些优化啊,就这种问题哈,来看第一个呢是price优化数据存储这一块,它做了哪些优化呢?这块合理设置分级数。与还有类似,RA会根据原数据信息读取分区的数据,如果你合理的设置个分区,能减少盘数据的读取量,提升查询性能,这个不难理解吧,您说能加上一个分区条件的话。那我是不是直接就缩小了这个这个范围啊,就这个意思啊,相当于是一个过率啊,好,那下面还有使用列式存储啊,比如说part对orc读取文件做了特定的优化,今天我还分享了一些文章,就是关于牌跟or RC的,因此它有种创建排头使用表的时候,建议采用orc存储。
01:03
相对于这个对C支持更好一些啊。更有优势,使用CRC,之前我还说过这压缩比是不是100G能压缩到实际是吧?嗯,很高啊,使用那个压缩数据压缩可以减少节点间数据传输对IO的带宽压力啊,那对于也说还有这种叫计极,其实就是这个机器查询,机器查询需要快速的解压,建议采用单也说压缩采用单题存储采用or RC,我之前讲项目之前也给大家提前说过,是吧,那这种搭配是最好的啊,讲效果。啊,那下面呢,还有呢,P优化是circleq引擎上的一个优化啊,SQ查询那第一个只选择使用的指道,其实属于回顾之前的知识点啊,那这种你需要查哪个字段就选择哪个字段,不需要千万别用这个星啊,也在企业中啊,其实这个星很少使用啊,就用哪个我选哪个。
02:07
之后过滤条件必须加上分期制造,这个不难理解吧,哎,能加上分期过滤就用分期去过滤一下啊,减少这个查询的这个范围,还有格语句的优化,合理安排格语句中字段的顺序,对性能有一定的提升,价格外移中字段按照每个字段电的驱重数据的多少进行降序排序,那你看虽然说是对这两个字段进行。格白,那他们的顺序也会影响他们的性能啊,也会影响它性能啊。这块要注意一下这个顺序,那这是按照降序,你是先处理多的呢,UID是不是比这个在那也是性别多一些啊,肯定比这多一些啊啊那还有二多瓣使用时,嗯。
03:02
使用这个limit,这个咱们都用吧,基本上你看加上这个limit的限制的话,那就减少了大量的这个内存压力了。还有呃,招语句时将大表放在左边,大表放在它这个特点是把大表放在左边,你看还多时招音默认的算法是是什么广播招音,然后将招音左边的表分割到多个work。然后将张A右边的表整体呃数据整个复制一份发送到每个模块,它是把右表发送给所有的work,那如果右表你特别大的吗?那是不是就是都在内存里啊,嗯,那是不是就现在就差一些,那希望的是发的内容是不是小一些啊这个意思啊,OK,就会导致这个内存溢出啊,所以说跟它底层这个算法有关系,那下面呢是一些注意事项,注意事项讲的什么呢?你说跟这个have有区别的地方。
04:11
那看第一个B点和关键字冲突,买字段加上是不是一个反引号啊,字段呢,加的是双引号。这个是一个区别啊,当然如果这段不是关键式,我是当然可以不加了,不加OK,那还有一个时间函数,对于time STEM也是时间函数,需要比,需要进行比较的时候,需要添加time sta,而满思中对time sta可以直接进行比较,你看这条语句。也就是说select t from a,条件T呢,大于等于,它在买色风里面没有任何问题,那你在这个title当中,Select t from1张表,这个T。大于等于。表示告诉他这后面是一个时间啊,然后才能使用啊,这是一个区别,那再往下弹程当中不支持ins射over right的地方啊,覆盖或者插入只能先删除,然后in射into,再往里面插。
05:15
你说不能支持覆盖,那你只能先删除站他啊。这个要注意。还有。Per哥目前只支持韩的啊,支持查询,但不支持H啊,是支持查询这一块,它是擅调的啊,不支持这也是我们在写这个,呃,Circle的时候,或者have的时候,嗯,这是一个区别的地方,它不能执行这种,嗯,它定时运行的,这只能是一种临时查询的,这千万记住,他擅长的是查,不是别的啊。
我来说两句