00:00
法律好,接下来呢,我们看一下这个卡普卡当完了,然后呢,我们就用来用母去消费卡法里的数据啊,先看一下地图啊,看我们到哪了,上节课呢,我们到了这个卡不卡这块,你说数据呢,已经写到卡卡对应的topic主题里面去了,那接下来的事情呢,就要把把卡管里的数据写入到ADS,那这块呢,就用到了一个啊左侧去消费卡卡右侧呢去上传到A啊在这个奖项第贴给大家说过,不用辅母能不能实现能写一个Java代码,对吧?Java代码左侧用来消费卡va数据,然后消费来的数据直接上传到AD啊就这么就搞定了啊OK,那这是这块行,那还要看一下这个集群规划。比如说这个消费杠杆的这个flu部署在哪台服务器上,我们是幺零是啊104 OK,那往下看看具体的配置。
01:14
哎呀,这个没有动画是吧?啊,那分析一下左侧呢,这块呢是卡啊,那数据呢,分别放在卡卡不同的topic里面,我们的目的是把不同的topic的数据写入到HDFS不同的目录上。那比如说这个start写到S的original datemalo topic star,把这个topic英文的写入到这边的ma log topic even。啊,分别写到不同里面去好,那这块呢,那左侧的是卡夫卡,那这边呢的S选择上。卡巴卡巴没得选择啊,肯定就是他那这个目的地呢,是HDMS目的地,那你的输出没得选HT进啊,那只有中间这块你有的选,那中间这块呢,其实也就只有剩两种了啊,剩哪两种的呢?File China和ma China的,有的说还有那个卡China吗。
02:20
因为下一级它不是卡卡啊,所以说不能去选择卡啊,那只有这个fair channel和啊这么两个OK。那是这个配置的话,你会不会找啊,好,那我们来看一下啊,来看一下。看一下我们这个配。那配置文件有这么多啊,这是配置好的啊,乍一看直接晕掉是吧?啊怎么来的啊,其实呢,非常简单,首先第一块这块主件啊主件因为我们是定义了六个主件啊六个现在是六个啊,两个哨,两个揣兜,两个think,那大家想没想过一个问题哈,你再看这张图,这张图上。
03:13
我现在是放到一个配置文件里面。我能不能?写两个可以吧,哎,没有任何问题啊,没有任何问题,而且在生产文件,我建议你去写两个啊,为什么呢?解啊解啊,要写成两个是最好一些的啊,这里面为了省事啊,放在一起了,其实它们两个配置完全是独立的,对不对,独立的啊好,那继续来看。对,基本一样啊,就是一个复制粘贴,看着很多。OK,首先呢,第一个就是主教啊,接下来呢,就是定义它的S,那这里面的S呢,是卡夫卡S啊卡卡好,卡夫卡S,既然有这个S了,我们就看一下吧。
04:03
官网的啊,第一件事是官网,官网呢,要经常性的一个关顾哈。啊。买一戴耳机。好,那这个呢,是反夫法对吧?啊,这是有一个一张方式。来看,那首先呢,这个卡法的类型这块呢,选择是卡source啊卡,然后呢,Title这是指定个,这是bad size啊,一次抓取数据的啊个数啊,这是5000个默认的,还有呢,这是延迟时间,这不管这个啊不12的server要配置一下9092啊然后呢是抓取的哪一个topic这块是不是得配啊好,那你看一下我们的配置。我的配置直接看,那这一块呢,首先卡夫卡的类型是卡布卡source啊,卡发S,然后抓取首先默认的啊,这也是它官网给以提供的2000延迟,然后呢,这呢是卡卡的broke啊BROKE10203用四,然后呢是抓取哪一个topic,那我们抓取的是topic star啊topic star下面配置完了啊,你看这就是准确配置一个卡S,那下面这个呢是topic event啊没问题,那之后再往下它的channel channel,现在呢,我们配了一个file channel,之前大家讲课的时候是不是用的都是member啊啊那这里面呢,其实就是为了给大家去啊扩展一下这个知识链啊,当然在企业开发中这块你选fair title和fair title都OK,准确来说取决于需求,需求什么需求决定了我用fair传。
05:46
如果这个数据比较重要,非常重要,不允许丢是吧?呃,那我们就要反应用five可以慢一点,那如果是map title,讲究的就是快啊,速度快OK啊,行,那这一块呢,是这个fair fair channel。
06:05
再去找。好,那这里呢,就是fair传啊,转一下看,Fair传到这了。那fair的下面有没有给案例啊,这给了一个是吧?啊,给了一个类型,然后穿换的D啊,还有一个对的D压式啊,这么几个参数,再来看我们配了几个。那这一个类型fair,然后呢,这有一个checkpoint的DR啊,检查点这个类型啊,检查点的一个路径,还有一个呢,是贝塔电压式。啊,一个这是读取。这是缓存数据的一个位置吧,因为file就是把这个数据存储到。输入某一个文件里面啊,某一个位置,那它存储在哪了呢?存储这个位置是存储到什么位置,那存储了多少或者多少个字节,靠什么呢。
07:04
啊检查点啊,现在类似于这种偏移啊偏量好,那下一个呢,是这个max fair size,比如最大这个文件多大对吧?啊多大还有呢,这里面呢是一个缓存的容量啊容量那这是能缓存多少。100万啊,100万条啊,数据啊,这是people alive啊,这个呢,这个是。什么下?好,Keep alive timeout in seconds for adding,这是memory的啊,那一样差不多moving and event啊timeout延时时间for iing and event,比如说删除或者添加这个数据啊,Event的这个等待时间嘛,啊,超时时间啊,那我们这里面是六个。六秒吧,六个second。
08:01
好,那这是这个配置啊,这个配置啊大这个时间你可以再进一步的一个调整啊行,那这是大,那下面这块带着这个这啊那这个的话就是HDFS,这也就最终目的地到哪那这块。龙牙我们看一下官网。明天。好找到啊,找到之后往下找。哎。这是。这是AD系啊啊ad性那也说它的类型HTS啊,然后呢是上传到HTS的哪一个路径上啊,然后上面呢,是这个文件路径的前缀对吧?啊前缀,然后下面的一个round什么数啊,然后这是文件夹的一个时间,那看一下哈,这块看英文怎么样。
09:04
这里有一个the ball pages will run down the time stand,有个时间for last,十月。呃,有一个月,这是十分钟吧,啊,For example啊,Even with time,这个时间戳是,如果是11:54:34啊,这个日期VIVO靠载点F路径,也就说它的路径名称就会变成6月10号,6月12号,你看是11:50了,并不是54分,因为它是十分钟变一次文件夹的名称,是不是以十分钟为一个答辩啊,啊,是这个意思啊,它变的是路径,记住哈,这三个值变的是文件的路径,一会还有一个文件的大小啊好,那我们来看。那就看一下呗,这个性格这块,那这是对应的这个这个啊,首先呢,类型A来这,然后呢,最终输出的路径。自到additional day的gmail log啊,他这个还有这个时间,那这个什么含义呢?Additional day的是原始数据这个含义,Gmail呢是我们这个电这个电商数仓,它叫gmail也是global mail商城的意思啊好,然后呢是log日志,那这个呢代表的是日志数据,日后呢我们还有一个DB。
10:19
其实是买车口里面的数据啊,都会在这去分开啊DB,然后呢,这里的对应的他start,其实还有它的一个一啊这么两个文件夹,然后下面呢是年月日啊,并没有带十分表啊年日啊OK,当然你可以把十表带出来啊,没问题,然后呢,下一个呢,就是这个文件的这个前缀那start杠。然后再下面就是官网提供的这个。啊,官网呢是十分钟便异性文件夹吧,啊,我这个呢是。啊,十秒啊十秒,因为我这个啊,为了演示啊,为了演示啊,十分钟有点太长了啊,所以说这是十秒钟啊,滚到一次文件夹,OK,那这个完事之后,下面还有几个参数,非常重量级啊,在企业开发中必须要配的就是产生小文件的一个控制,那这几个文件呢,分别是roll,还有roll side,还有roll call什么含义,哎,还是看过吗?
11:21
当前这个是往下找,找第一个roll roll roll这上个值。那这张纸第一个rowin number of seconds to wait before rolling card file。啊,也就是说这个文件滚动的时间是按照30秒滚动一次。啊,这里面跟我们刚才那个容易滚哈,刚才我们说的是这个这里面的目录那个名称文件名称十分钟滚动是吧?啊十分钟,那这个目录下面是不是有N多个文件呢?那每一个文件它是要求30秒再换一个,你说这时相当于是文件夹上面,你可以认为是文件夹,文件夹下面是有N多个文件,那每一个文件是到了30秒我再添加一文件,再添30秒暂添加文件。
12:19
那再举个例子,假如说再详细一点吧,在这十分钟之内进来的数据量很多,假如说进来一个G,十分钟那一个G的话,我希望把它分成128到一块,100块一块。那我可能这块的配置就是30秒啊,来一个30秒来一个啊或者是。哎呀,怎么说呢,看不懂啊,看看这块能不能打开啊。打一下这个地方。来,继续打。它未来会形成一个什么效果呢?这是一个文件夹,那这个文件夹的名称是十分钟生成一个,听懂吗?啊生成一个,那然后那进到那个文件夹里面,这里面还有假如说还有很多的文件。
13:14
啊,很多文件,那任何一个文件。我什么时候让他往下滚动。有这么三个条件,第一个条件是这个文件达到128兆的时候,默认再来生成一个文件,还有可以这个时间滚动了一小时。这是生产啊,这么配啊,还有一种条件是这里面的event的个数达到了我设定的值,你说多少个?都可以去考虑啊,那首先上面是对外的,是整体一个目录的时间十分钟,但十分钟比较小,你可以调整着一个小时或者两个小时啊,甚至一天都行,那下面这块具体的文件夹,下载文件的一个控制行。行,那这个是控制这个,那这里面呢,我这里控制的是十秒啊,十秒十秒钟。
14:03
啊,那下一个呢,还有这个size呢,对应的就是这个大小,看这个。这是分装,那下面这个呢,是肉晒。啊,是表示那个fire set to,翻滚啊,也是滚动,滚动到下一个文件,它是1024个字节,那我们在生产文件下要把它配置成128兆啊,那还有一个叫roll count啊,那它是number of event,也是事件的个数,Written to five before it wrote也是在滚动之前啊,写入到这个时间个数,当然如果你是设成为零的话,那是把这个功能禁止。啊,禁止掉,因为零嘛,Never the啊,Based on the number of events也不禁止这个功能哈,上面呢,同样也是,你要禁止这功能就把它关掉。啊,那这个呢,是控制产生小文件,那再往下呢,这块呢,还有一个控制压缩的,因为我们要将这个。
15:01
弗洛姆啊,读取过来的数据上传到EDS到ED的时候要具备拉德罗压缩。啊,就是大家直接说那压缩的话,那这块就需要你在服务里面配置的压缩啊,你可以把这个说一下。啊,你看直接到这啊到这一块,那这一块的话,它是什么的配置呢?诶接下来think啊A来think,那a think里面有这么一段话来看。Form慢currently second well date stream or comppress,也说压缩流啊,延缩流date stream will not comppress压缩on the five and please dont set product也不用设置它的压缩密码方式啊,这个comp,这个压缩流呢,Require set的ADS product那是哪啊,就是它。啊,需要设置它为,也说你要把它设置,那它呢,设置成多少呢?你看几种方式。
16:05
GBJ拉罗拉高P在体啊,几乎常见的这种压缩全部支持。啊,那这里面我们选择的是拉住P啊,就是拉住的一种方式。嗯,你看。就是啊,上面排着的是它,下面排着它,那这是两个通道可以第二。啊页面啊就OK了,所以说就是按照这个官网去配置,那下面这块呢,就是把对应的这个八个就是八个组件拼接在一起。啊,拼一起,R1K1R2K2C1C2啊这么多东西拼加一好,那这个呢,我们配置文件呢,就拿过来啊,你选一下啊。在用的是放在哪台手机上?104104啊,OKPT摸走路来这进到看洪目录啊,来这里面VM,它这个左侧是卡不卡,中间flu右侧是连接S,那我的命名。
17:11
KFK卡卡杠啊,From杠,嗯,后面是HDFS啊,这好OK。哎,那这样就OK了。好,那配置完成之后,那剩下的事呢,我们就启动这个配置啊,启动配置,那启动配置的话,把这个命令来啊启动一下。哎,启动命令有了。萨拉。这下。在这里面直接拿这个启动脚本吧,嗯,那这里面可以哎,No harm,还是这个绝对路径agent get Co下边呢,From啊,C,然后卡夫卡as啊,CF啊,然后name呢,还是A1啊,那这个日志啊,就一定要打印出来了啊,因为它是最容易出现故障的啊,一定要打印出来啊,生产文件也要打开,那这是opd model,把它这个日志呢,追加到这个,加下面的log.t啊,所有的日志全部打印,那为什么说这个容易这个出错呢的原因是这样的,看啊。
18:34
以前一边flu这块是卡普卡,然后呢,这是flu是这样吗?那启动的时候它启动啊说过卡夫卡它有一个特征,它启动的时候非常慢,那如过它还没起来呢,它启动了,那带来的后果呢,就是它去疯狂的去跟他建立连接,但是呢,他又没起来,那他这边就会提示找不到这个连接。
19:01
那他一旦找不到啊,而且尝试这个时间已经到了,就不再尝试了,那就再也连不上了。啊,再连它,那你就需要把它停掉,然后它真正的起来了之后再行它啊,就是这么一个过程哈,所以说这一块它的延时很重要,你说它得保证它稳定,启动之后再形态啊好。那这里面呢,我就这块儿执行。直接把这小本拿着得了。呃,这个脚本的话,直接我们放到这个,呃,海头两百二上啊,直接启动这个脚本啊,那这块这个脚本呢,其实是。井号代号啊,分支两个分支啊,两分支这个启动呢是这一块,注意它只在104上启动啊,然后读的啊中间呢,这块是自己的,请脚本,那停止脚本呢,还是用的这个杠EF,只不过这块gra换成了。卡device啊,然后V其他没有任何的变化。
20:04
有了脚本之后啊,就再也不想写那个非简单命令了。来点。VMf2.sh,这是第二级消费的什么?真高的信心。三二。好,那这个F2呢就OK了啊OK之后呢,那我们现在来测试一下,看看它行不行。目前卡夫卡已经启动起来了,然后呢,我们就用这个F2。嗯,F2F2加上线。激动。能不能成功呢?
21:02
那或者假设没成功。你应该怎么去调。现在如何能证明,我现在你看这个是F2已经启动起来了吧,那启动起来怎么能证明它是正常稳定工作呢?啊看日志是吧?来看看日志没问题啊,看日志是对的,那这里面是不是有这个log啊T啊它呀,它那像这种情况一般就看它的尾部啊。啊,维护正常应该没啥异常,没啥异常之后我们来到啊还一招就是看它的EDS上面是否有传过来的数据,那先发现有没有没有能证明我现在是错误的吗。不能,因为我还没有生产新的数据,有同学说那你这个卡卡里面有数据啊。那烦大家,咱们这个卡不卡consumer,之前写过consumer怎么才能读到数据,杠杠begin from begin吗?那是从头到尾读的时候才能读到数据,否则的话他能读到数据吗?不能吧,那是默认这个D已经到头了,对吧?只有在新进来数据我才能去读,是这样吗?啊,那这个也是一样的啊,只有新数据进来我才能读好,那这时候我们来生成这个数据看了。
22:26
还是?RM杠、RF代号拉姆斯,全部删除。好,那现在没有数据了啊,我们开始生成LG点,你可以观察这里面啊,观察这个文件。他这里面一旦收到数据基本就差不多了。因为这个是F2的一个。进到这。看original date gmail log啊,Star是吧,然后log它没有英文的吧,啊感觉差不多了,我们来看一下。
23:07
进来。进进两个topic格,五百九号拉着螺是不是压缩完拉着螺的啊,拉着的你可以打开看一下,你看是不是拉螺。你发现是不是打不开啊,嗯,它其实就是拉着啊,你发现看。是吧,啊一码,但是偶尔还能感受一下是这个日志信息啊啊。行,那这是这块啊大哥,然后你再看上一个。上一个呢是5月9号,是不是他啊,是这个啊。那这是这么两个东东啊,也是数据呢,就已经上传到整个机器里面去了啊不难哈,不难。
我来说两句