00:00
啊,只是说最后呢,学完之后呢,搞一个练习对吧?啊,大家去练一练,更多的大家还是要把那个呃,辅导老师给大家发的那个搜个题去做一做,多做一做啊搜多写一写啊呃,而且呢,那个可能是以MY搜说的,但是呢,你尽量的就拿汉语去做,因为你在生场环境当中,其实你用MYS的场景也比较少,也比较少啊,更多用have,你就不用考虑引擎的问题了,你就用have对吧,把那个直接在have里面建表导数据,然后呢去运行,用have的方式给它实现了就行了,不要用考虑去买S里边了啊,没必要。好,那接下来呢,我们看一下最后一张这个所谓的汉时代啊,它其实就是说有一些需求等待我们去做一下,呃,成为指标啊,就是说他这个视频网站。啊,视频网站这个常规指标统计什么观看数啊呃,视频类别热度啊,以及统快这个一看就特别复杂是吧?描述的这么久啊,等会我们具体来分析啊,包括还有每个类别当中视频热度啊,灌溉数就是每个类别当中灌溉数前十名的啊,以及每个类别观关数前十名的,以及还有其他的这个是呢,还有跟上传者相关的对吧?啊到时我们来看一下,因为我们还要结合这个数据结构来讲啊呃,那我们接下来看这个数据结构,第一个是我们有两张表,一个视频表,一个用户表。
01:23
那这里面呢,有一个视频表,视频表呢是这样的,有一个微ID,就视频的唯ID对吧?呃,是11位的一个字符串,呃,然后接下来呢,有一个uplo是谁上传的,上传者对吧?用户啊呃,Age。视频的年龄啊,不是当然上演者,他是以天数来做的,就是截止到今天为止,这个视频在我们平台待了多少天了啊,其实咱们这个数据呢,是YouTube上的数据。YouTube的那个数据啊呃,然后呢,Category category呢,我们要用一个数组,因为我们之前说过一个视频它的分类肯定是属于多个的,对吧?啊,肯定属于多个的啊,然后呢,还有length然件视频的长度啊,应该是以秒为单位的啊,为以秒为单位的啊还有一个view查看的什么次数评分对吧,总分是五分啊,可评到多少分,然后视频的流量啊,这就是这个视频占多大,然后呢评论数啊,最后一个关相关视频ID。
02:32
啊,它呢也是一个数组,因为我们对于一个视频来说,它的相关联的视频可能也有什么多个,对吧,最多20个,那这里边有两个数组,所以我们把数据做处理了,就把这两个数组中中间的分隔符做什么统一,对吧,两个数组,因为我们在建表的时候,这两个数组是不是只能用一个指定分割符啊,对吧?好,那家第二个用户表,用户表比较简单,第一个是上传者。第二个上传视频数,他这个人上传多少个视频对吧?第三个朋友的数量,注意朋友数量啊,不是朋友,那朋友放在这那就疯了是吧?在一个视频网站当中,你加的好友全部列在这,他就只列了一个数字对吧?好,这个数据呢,在这个地方还是在我们data里边啊,有一个鼓励video对吧,点开一个是video表,这里面呢,放这么多啊,就是说如果说你对你的机器不太自信的话,你可以导前面两个三个对吧,因为数据相对来说小一点嘛,全部导进来的话,它数据量会比较大对吧?然后呢,这里边就是我们刚才看到我们看一下啊,这个数据这是一条啊,第一个视频ID对吧,上传者。
03:44
然后这个是什么东西啊。Age是吧,视频的天数啊,这个应该是截止到一八年的时候啊,当时我们的拿数据,这个是品类吧,啊,这个是娱乐,然后呢,我们看一看,更重要的是除了这一种之外,它还有啊呃,我们找一个这个它用and拼接起来的对吧?啊,数组当中,那后面呢,也是那个一样的啊,这个是类别对吧?我们都用的是and,包括最后的这个关联ID用的是那个and对吧?啊and好,这也是它的一个类别啊,有多个用and啊,它可能属于多种不同的类型,呃,然后接下来这个这个类套,这个能看下评分对吧?什么观看数啊,然后流量啊等等这些东西啊,还有那个。
04:34
其他内容最后呢,这个东西都这好最后一个字段比较长了,呃,相关联的视频ID对吧,也是用与符号分割的啊,也是用语符号分割的,其实如果说你因为我这边不能那个就是班级网络当中那个梯子有问题啊,就是网上不了能翻墙的,你可以把这个进去搜一下,你一定能搜到这个视频,这里面数据都是真实的,就是任何一个视频ID你都能搜得到。
05:01
啊都能搜到,像这个视频就比较老了,一八年的时候都存在平台600多天了,很早的视频了啊,很早的视频了啊,17年18年的时候啊,这个所有的视频ID都能搜得到,也就是说这个数据呢,是真实的数据,优上的就优管上的是吧,优成为优管呗,怎么搞到的,你往淘宝买数据太多了,淘宝能买到数据的不要自己爬,不要自己去爬了,哪怕你会爬虫不要爬,公司当中现在做爬虫真的是面向监狱变成,真的是面向监狱变成,那咱们面向对象变成,那爬虫的面向监狱变成,啊这个是用户表,用户表呢也不较多啊,他就用户名字对吧,然后呢,上传的视频的个数,以及什么好友个数,你看他加了这么多好友,如果说把它列出来个封了嘛,5000多个对吧?啊是这样的啊,这个数据呢,我们了解一下,那接下来呢,我们把这个表建一下啊,最终。
06:02
啊,我们要用OC的一个表啊,所以呢,我们要准备四张表啊,就是我们处理的时候大家用一下对吧,我们跑任务的时候用OC这种模式啊呃,我们要建两张原始表,然后建两张orc表,因为OC这个表当中导直接把数据漏的进去怎么样。不行不行,对吧,啊,漏的不行啊,所以呢,我们先把数据放到原始表当中,然后去用in色资的方式给它写到什么OC表里边啊,是通过这种方式,所以呢,我们把这四张表去创建一下,然后主要是呃,中间字段呢,都用当地分割,然后两个数组就集合用什么与符号,刚才我们看到了主要是对于视频类别和最后的关联视频,对吧。不是,这都是一些常规的一些需求啊,但是它也是这个视频网站必做的需求啊,你看刚才那些需求说统计什么视频观看数托盘,那肯定要做的,对吧,这是这两张表,然后呢,接下来我们把这两张表记一下,呃,我们启用了orc这种格式,同时用了sta压缩,对吧?到做项目的时候呢,我们用的是拉自我啊,就是都带着他去用一下,其实这个东西用没有那么复杂是吧,就是在建表的时候呢,指定一下就好了,好,这是两个表,然后呢,接下来我们去往里边导数据啊导数据,呃,那我们先把这个数据给它干什么,扔到集群啊,CD到不是CD啊,我先背个这样一个杯。
07:33
好,那这个数据呢,我先把用户信息给你了。然后接下来我在这个地方CD到这个video里面。把我们刚才我这边数据呢,我就都用一下了,嗯,这个我也说了,就是说你觉得你机器不够自信,那你就导前面什么两三个都可以对吧,因为它不会影响你这个,So怎么写对不对啊,就是结果可能不太一样。
08:02
啊,自信到底是体现怎么样的自信是吧,那你就先都倒进去吧,对吧,目自信,盲目自信是吧?Logo啊,In pass,然后呢,我们这个数据啊呃,我们先导这个数据啊V9我们导这个目录啊,Table我们先导到原始表里边,原始表啊这个对吧,鼓励V走一下,好,这导进来了,那我们去查一下。什么叫自信是吧,无所谓,你先倒呗,倒跑不了的时候你到时候再换啊,啊,我们叫鼓励微O表原始表对吧?啊,先是这个五个都导进来了吧,对吧,我们直接导到目录啊啊,那接下来呢,Log data log,然后呢,这个目录底下有一个user.t ST into到这个鼓励video,还有一个叫user表X。
09:07
叫啊叫这个啊,这个还用了下划线了,行,那我们把这个改一下,就表明写错了呗,然后呢,把这个点一下啊走一下导进来,那这个呢,我们也去查一下,这个就一就一个文件对吧,单个文件啊嗯,鼓励or这张表总点哎优的点下写上来了啊那么接下来呢,我们把这个数据去导到orc表里边。这两个搜口我们一块去执行一下啊,然后都粘进来去执行啊,往这个OC表里边去插入,因为没办法漏不进去,所以呢只能通过C的方式,然后呢,让它启用MR任务呢去往里放。对。生产上面,如果说因为到后面大家在做书仓的时候啊,嗯,我们是会进行那个。
10:05
输仓要做分层处理的,因般第一层这个数据是什么样子,我们就建什么呀,如果说你生成的数据本身就是拉斯罗压缩的,那么第一层那我们就用了自度压缩,后面的就是由第一层查询得到的结果插入的,那这个时候你就随便了啊,就看你生产完境用什么,第一层就原始数据是什么样子,那你就得建什么表啊,一般呢,我们不会说第一层我非得建两个表啊,这块呢,我们只是说我们这一层对吧,OC啊这种这种形式啊。嗯,还有一个搜它也运行了,因为刚才呢,我把两个都粘进来了啊,先把这个数据呢,我们先搞一下。困了是吧,然后接下来呢,我们要去安装一下这个所谓的T擎,我们说过在have当中,它是不是有Mr test spark3类擎啊,Spark现在就不聊了,我们肯定要学完Spark,因为Spark我们要专门学嘛,对吧,所以到后面我们再去用啊,嗯,收仓项目呢,其实就用的是SPA引擎。
11:08
啊148引擎它要快很多啊,它要快很多,它快在哪呢?就是你只要b have开起来了,执行完第一个任务以后,他就不用申请资源了。调度现成了嘛,所有的任务都是现成了,他只启动资源,只启动一次,而现在MR也好,T子也好,他每一次都要去申请资源,启动那个所谓的container容器啊,所以它慢慢慢在这啊,好,这数据呢,我已经导到orc表里边了啊,这就数据的一个介绍以及准备数据啊。
我来说两句