温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那我们对这个input呢,做一个处理,之前我们课堂上留的一个作业,对吧?啊说让这是最普通的一个文件,那这个东西写MR去做过的看法大家肯定会的,对吧,这个毋庸置疑的,那之前我们好像我记得是这个表我也已经懂了,对吧。就是因为测那个呃,自定义的UDTF函数,那么这个时候我不用自定义的函数,其实也一样的。Explore不是可以炸开吗?对吧?那我能不能先给它炸开?谁来?那怎么炸开X的?好吧,这里边还艾落,当时我们说了他要接收一个数组对吧?所以Li切分一下,第一个位置呢,是一个,它是什么?Was,第二个位置是不是分割符,我们看一个逗号对吧?From,如果说我们能把它炸出来,那这个事情就怎么样。嵌套一个紫查询,按照当然炸裂出来,一般的我们给一个什么别名,因为你要嵌套紫查询,你不给别名的话,下面是不是用不了啊,对吧,你你知道这个别名叫啥啊,所以要给一个别名,然后接下来这个事情,我把它取名叫T表,我select。
01:18
然后word逗号count心对吧,那我们写一下来的word逗号count心from括号对吧,第一表,然后呢,把这个内容给他拿过来,我就直接在这里边写了啊,然后group在我的。对吧,就好了啊,只不过说xlo的它可以炸裂,但是它只能接受这个所谓的数组,对吧,字符串它炸不了,是我们所写的那个代码,是不是炸裂出来这个字符串呀,对吧?因为我们是传入字符串,然后呢去切割的,当然呢,你也可以说,呃,这个字符串呢,不按逗画分割,按其他的内容分割,是不是传两个参数进去。
02:06
对,我们当时说了啊,那这个呢,就是所谓的用我们have来做的一个我考对吧?啊关键的问题在于第一个炸裂,第二个其实大家发现的更重要的问题在哪,大家当时在思考这个问题卡在哪一步,我觉得大家卡在第一步,这个表怎么建。是不是对吧,大家当时就看到这个内容,我们当时布置课堂作业,肯定当时稍微有点思考,你当时思考的问题就是说这么乱七八糟的数据,有的有两个,有的有三个,有的有四个,这个表我应该怎么建,大家是不是当时在思考这种问题,对吧?啊,其实比较简单,大家如果遇到这种乱七八糟的数据,那我们怎么样用一个字段啊,就用一个字段,因为你定义两个字段,三个字段,四个字段都不合适。你发现没对吧,这种的如果是乱的,那我们就用一个字段,之后呢,我想办法给它弄开对吧?啊想办法都开,主要就是卡在那个要多一点,肯定是对吧,如果说能想到用一个字段字符串,哪个字段来表来接收来做咱们的列之后呢,无非就是炸裂开对吧,炸裂呢,我们学了explo的,也学了自定义的UDTF。
03:20
对吧,啊好,这是我们所说的之前的一个课堂练习word使用have呢,做我们的word count啊。
我来说两句