00:00
好,那have,我说这个文件格式呢,主要有这么四种。Fair默认的是不是它呀,对吧,我们看到之前我们一直没有改默认就是它还有一个s fair这个东西,大家好像也用过自定一的这种对吧,然后还有两个orc可以。帕啊,这个是所谓的叫文件格式啊,叫文件格式跟刚才那个斯利拉斯罗还不一样。斯奈比拉缩罗,这个是属于压缩方式,这个是属于文件格式,文件格式那这个have当中支持的其实还比较多的,还有一些呢,大家以后会遇到啊呃,有CSV文件,还有TS文件,就是文件的某一个后缀,对吧?点什么东西啊,是类似这样的,那这两个东西呢,其实TSV呢,在对有同学知道制表符就是说以杠T分割的文件啊,它是属于这个TSV的文件格式,CSV呢,逗号对,CSV逗号其实在MYSO里边,它就是拿逗号分割的CSV的,那都是你要进到你Windows的那个MYS存储数据的目录,你能看到很多CSVCSV呢,在Windows里边是支持的啊,也就是说我们给大家建一个CSCSV大家看一下啊。
01:28
嗯,A点我把那个忽略名改成什CV,你看一下他什么表格买搜个存储格式,默认就用了C啊,那这个东西呢,我们给他看一下啊,确实逗号分割的来我们直接编辑对吧,直接编辑我用什么呢?A逗号B逗号CCTRS做一个保存啊注意我里面是不是写的逗号对吧?因为CSV呢,它其实就是一个逗号分割的文件,然后我们直接双击打开,你看一下变成什么效果。
02:02
ABC对吧,这就是Windows可识别的,但是Windows不识别TSV啊,就没法显示TSV呢,其实就是说如果你看到TSV文件,它里边是按杠T的。制表符分隔的啊,这个就属于我们所聊的叫文件格式。T fair就是普通的最普通的文本文件,对吧?Fair序列have啊好,还有包了这两个呢,啊没有见过,那那这是have当中主要支持的,这个呢,分成两部分来看,前面两个呢,它是基于行存的,后面两个呢,基于列存的啊好,那我们再来看一看什么是行存,什么是列存。你看对于我们数据而言,这张表是不是应该这个样子。没问题吧,我们看到ABC3个列,这是里边的A1B1C1,什么A2B2C2,这是里边的数据,如果看这是所谓的行存。
03:05
就是说大家能看到这个数据呢,是不是先把一行存完,然后再去存什么,下一行再去存下一行,一行的数据是放在一起的,就是我找到这一行的第一个元素,后面这一行数据全部都挨在一起的,如果说类似于你要做什么C新这种操作,你用行存可能更好一点。对吧,因为它一次加载一行数去,那如果说我们找的是c select a from这张表,那你说它找的时候是不是效率比较低了,因为我要的是A,是不是要把这个东西给我们输出,他在文件里边是不是A。A2A3A4A5是跳着把我们数据找出来。对吧,那我们看一下所谓的列存,列存呢,就是说把我们这一个列怎么样啊,你看挨在一起存的这一列数据存完之后我存什么第二列再存第三列。
04:08
啊,这就所谓的列存,那其实航存呢,我们刚才说了,如果说你C那个新,其实行存比较好,效率比较高,但是我们刚才说了,如果说我们只C那的A,你想想看哪个效率高呀,那是候我只要找到A所在的位置,我往后读就行了,只到B的时候我就不要了,我就知道这一列干什么读完了,对吧?而刚才如果说对于航存的时候,我们去C加A这个字段,那你找的数据是不是这些东西是跳着的,它不是连续的,对吧?啊,效率肯定会低一些,那就看其实更多的时候我们还是C量的单个。列会多一些,因为我们说在搜个当中,其实尽量的不要写什么c select新对吧?啊,尽量的不要写select型,所以呢,呃,在生产环境当中,劣势存储用的会更多一些,劣存用的更多一些,现在应该这两个存储方式应该没啥问题吧,对吧,比较简单对吧?啊这是关于这个说明啊。
我来说两句