00:00
好,那个同学说了,就是这个选择器啊,我们这个现在用的是不是副本啊,对吧,绑定了两个,其实你不写也可以,不写也可以,同学说了尽量的指明一下吧,啊指明一下也就这个东西了,就这个昨天我们是不是看到这个东西,它后面括了一个什么。Default,还有印象吗?默认的对吧?啊,其实这个东西你不写也可以啊,不写也可以,我们假如说给他加一下了,那随便在这个配置文件里面,随便加在哪都行啊,随便加在哪都行,因为它这个配置文件也是什么。KV形式的看见没对吧?啊,都是KV形式的,它通过KV这种方式来做的啊,来做的OK,那这个名字没问题吧,A1R1对吧,R1这边的select角啊,其实不加也可以啊,我加一下做一个保存,然后呢我们去启动。那这个启动呢,就要起多个了是吧,每个都是阻塞进程,那我们开什么。改多个。是不是还留一个要去创建文件对吧,创建文件这个呢,诶正好你看啊,这有什么。
01:02
123,那我们就把复数一分马二分三就开在这OK了啊,按照这个顺序啊,这个地方呢,我们留着去埃克数据挨克数据,然后再开一个。啊,其实这个开不开也无所谓了,最后就可以看一下啊,那就开,总共就开四个吧,因为我想最后一个就看那个本地文件系统里面数据IDF是不是登到网页上去下载下来看,对吧,那这个其实我们测完之后一次性对比一下它数据是否重复的也OK吧?啊这个呢就不开,因为这样就方便啊好,那我们把它开一下,那大家觉得这个分多层,你觉得先开哪个后开哪个。第一个在。正常的数据流应该先看下游数据对不对?先看下游数据吧。假如说你上游开了,数据采集了,下游没开。
02:02
数据传播出去吧,尽量的先开下游,那这个时候我们先看一下上游,看可不可以。对吧,注意这个地方呢,其实现在上游还真的有点问题,问题在哪呢?待会大家看一下日志啊,CD到这个block克斯里边,对吧,我们跳杠F一下这个。看看啊分享OK吧,就放在这,然后呢,先把它开一下,它怎么开CD model,然后这个。TW,我们把三个都干什么到这个目录吧啊,因为写相对路径就直接写B比较方便啊,你要写全对路径比较麻烦,这个怎么看b from NG a,杠C对吧。杠F是job,底下有一个room,底下有一个room 1.pd,然后杠N这个地方是不是A1对吧,你不用看这个地方是me,而且这个上面是一,所以呢,它是A1对吧,看着起来了没问题吧。
03:00
这个怎么说四幺端口拒绝连接,说这个四端口拒绝连接啊,就这两个端口拒绝连接,这是因为是这样的,对于阿波罗这个框架来说,你最后第二层阿波罗的第二层是不是阿波罗S。Source相当于服务端。因为它也是一个RBC的一个通信框架,是也是基于客户端跟服务端的一个通信机制而来的,而uplo source是什么?服务端,那正常的情况下,你说一个客户端,一个服务端,你先开谁呀,服务端对吧?啊所以呢,我们把它干什么,停一下吧,啊,其实他起来有问题,当然你其实不干掉他,你去这个时候把它起来也OK,它自己也会连上,因为它有重试机制,不断的允许去访问啊,直到OK的啊,直到OK的,这个给我们后面画机器传输有一个点啊,后面我们聊的你要记住一下source是什么。服务端啊,So,服务端你记住这个点啊,记住点,因为后面我们要跨机器通信,那那个地方的一个IP地址就不能说随便写了,诶我send写102写102对吧,两个机器啊呃,我S我呢写103写103不是说随便配的。
04:13
假如说102跟103,到时候后面我们看到啊,因为它是涉及到服务端的一个问题,服务端这个问题啊,那我们就先,那很简单,我先把102103开一下呗,对吧?啊,1023103开一下,那我们做一下准备工作,我们当时监控的数据说是不是data塔底下有一个汉脸唠唠。这到四还这到对到结果数据放在这到里。对吧,记住一下啊啊记住一下,好,这个里面呢,我们它是一个什么。have.log OK吧啊touch一下,也就是说现在是一个空的,没问题,好,那我们BNG呢。A-C-f job底下有group,底下有一个2.td-A对吧?A嘴上说然的ae是吧。
05:06
那这个我就直接干什么,摘一下。哎,你们怎么直接启动了。他都没启动,他启动了是吧,你不要站在后面啊,那这样为了保险起见,我干什么事?我先粘出来,因为这里面肯定没有后面没有杠T,因为你你注意啊,你这个往后一拖,你把杠T粘进来了。因为最后不是一个行分隔符吗,钢筋粘一粘贴,它不直接执行了,对吧?啊那。或者更简单一点就干什么先修改不就完了吗,对吧?转过来过去的是不是再运行我也不怕了是吧。走吧,啊,这个A3起来好,A2我也干什么启动啊,稍微等一会啊,这个呢,应该两个都已经启动了,启动之后把这个什么A一再提起来吧,啊刚才我们看到了你先起A1,它是不是不连接不上了啊,所以呢,先起下游啊,先起下游好,那这个时候呢,我们去干什么事?
06:02
艾克一个哈,追加到这个哈,点那个,然后再追加一个谷可以吧,两条数据。走,我们就追加两条啊,做一个对比啊,两条都能传过来应该就OK了啊,那接下来我们怎么做HDFS。点这个地方理论上应该会出现一个GROUP1,没问题吧,我们改个名字对吧?GROUP1A今天的时间吧,来点开零九没问题吧,啊,这个现在的时间还是太猛,30秒会更新吧,啊,30秒我们稍微等一会哈,那不用管它,我们再看一下谁啊本地稳定还有吧?啊,等待那个内容完成之后,我们给它下列来对比对吧?本地文件在哪?在贝塔四里边有一个。哎,我怎么又进到data塔里边了,我就说为什么没看到那个内容,对吧?哎,是谁呀,格1CD的格一。
07:03
它这个地方你看它有一点不一样,它也是。按照30秒什么滚动一次,30秒滚动一次,但是对于他来说,按假如说下30秒没有even的,他会滚动新闻电脑不会,而本地呢。30秒一个30秒一个空的对吧,空的那我们只要看它们是不是这个里面有什么有数据啊看一下。他啊,这是两个不同点啊走。Hello,爱个股没问题吧,啊过来了,好,同样的,那理论来说它应该就变了啊,它变了,但是你看这块就不会生成什么空的那个文件,对吧?啊空的文件他是这样发送的,你要大量空的文件,那封了啊封了。还是下载到桌面OK吧,这里边应该理论上说是什么。Hello,还硅谷两条数据吧,啊,两条数据我们看一下啊,那就证明了我们是一个副本机制点开。
08:00
OK吧,啊还有还的硅谷,那这样呢,我们就配了,诶做多路负负载,哎不是负载就好,是我们说说什么复制relicating那个关系吧,啊就是说将我们同一个数据传给不同的人啊,相完全相同的数据传给不同的人,那这样就很方便了,因为你以后在生产环境当中,这个数据不可能只有一个部门用啊,是不是有多个部门用啊,啊你可以用这个方式来做。
我来说两句