00:00
好,刚才呢,我们把这个技术选型已经定好了啊,这个采集用什么框架,存储用什么框架,计算用什么框架,那这些框架如何来满足我们正常这个需求呢?或者说他在这个整个项目呃流程当中承担什么样的角色,那先来两个概念,现在前面已经介绍了啊,这边只用官方链介绍下一个叫业务数据啊业务数据,那业务数据呢,就是业务流程中产生的像登录订单,用户商品支付等相关数据,通常这些数据呢,是存储在DB数据库,你像MYSQL或者。啊,满足业务正常需要的啊,就叫业务数据,这是一个名称,那这个呢是用户买点的行为数据啊,买点行为行为数据,那这呢是用户在使用产品这个过程当中,与客户端交互过程中产生的数据,比如你来到这个网站的浏览。点击停留评论,点赞收藏啊,那这些呢,就是用户行为数据,那你想一想,如果这些东西我不记录。
01:08
会不会影响这个网站正常运行呢?不会吧,哎,不会,那这些记录这些信息,只不过为了我们日后做推荐或者做分析,是不是提供数据呢?啊,那这个呢,就是额外的叫买点数据。啊,那想想在正常的开发过程当中,我们是先做哪一块呢?先有业务再有买点啊,大部分都是这个情况啊。那下面来看啊,那这个呢是一个是呃,Web和APP web呢就是PC端网站页面啊,这APP呢就是移动端的手机应用啊,这个是业务数据交互,这是前端难点的交互这两块,那这两块数据呢,都会通过这个昨天讲了吧啊,起到一个负载均衡的一个作用啊,负载均衡作用,它把这个数据不是分分散到不同的业务服务器当中啊,那业务服务器当中呢,我们用的是这个S部的啊,接收这个传播出来的数据啊,那接收来的数据呢,一部分呢,是放在这个买这业务数据库当中,因为它是业务数据,那力它这里,那其实还有一部分呢,你可以放在这叫后端买点。
02:22
就买点这些数据可以放在这儿。啊,可以放在这,那这个呢,你看我标的是虚线啊,我没有这么做啊,没有放在这个买点数据跟业务数据混合在一起,那它放在哪了呢。单独去部署啊,单独部署这个服务器,就类似于我们刚才那个审测,你看到那个审测了吗。啊,那个神策呢,他就承担了这种角色,我单独的日志服务器只用来记录日志的,跟你前边这个业务分开,比什么好做。结结耦对吧,它不会产生,比如说如果万一这边买点的数据没写好,是不是有可能把业务给瘫痪了,这种是建决不允许的。
03:06
啊建设啊,那当然也有放在一起的,为了啥呀?啊方便省钱对不对啊省服务器对吧?啊省器啊好,那我们通常情况下呢,是啊选择这种分开。OK,那同样这边产生的这个用户集费数据之后,通过ix负载均衡到不同的日志服务器,那日志服务器里面他只做一件事,接收到这个数据,就把它写到磁盘上。那这个功能能不能,你们会不会写。你看这边是一个网络请求的,网络请求过来是木啊过来了过来之后。接收到之后立刻就写,往文件里面写,用什么。按流就行了吧,没问题吧,来一条写一条,来一条写一条有有困难吗?把最基本的这个都忘了是吧?当然我们有自己的这个框架啊啊框架比如说log附件啊,也是没问题的,对吧?按照日志格式去写啊啊,那写完这个日志之后,下面我们就要用我们的框架去采集了,那采集日志这种文件最擅长的就是啊啊。
04:25
那大家想一想我这个。它的少是什么?Final是什么?Think又是什么呢?萝那个叫什好可以那个叫什之后那胡萝卜采完之后,我把这个数据放到下一级的卡卡啊,主要用来销售啊,同时呢,其实它还可以用来这个分不同的这个业务线啊,来采集它啊更灵活一些,否则的话,下后移的业务线都需要自己去搭flow,那就更不灵活了啊行,那卡普卡这个。
05:04
嗯,拿到数据之后,他要把这个数据上传到。从卡布尔的数据到100怎么办?现在以你们所学的知识,能不能搞定这件事,怎么能把卡卡的数据?传到as,让你去实现,不用这个能不能实现。设计实际的。来唐老师说说。让你去实现不用这个服务,能不能把这个卡马的数据传到百上。怎么实现?你也不知道,那你谁能帮你解决问题啊,你可以不会啊,这也就是你在日常开发中是这样的,你可以不会,你可以解决不了,但是得有人能帮你,你得有朋友啊,没有朋友中午说得请请请,请个帮你的人吃个饭呢。
06:06
谁能帮你?嗯,来吧。消费者。通过I0把方法数据写到as上。太丑太土了,我问你有没有学过卡尔的生产者,消费者能不能自行消费,可以进行消费吧,嗯,好,那HY学没学过API上传下来。学到了对吧,那剩下的事多简单。写一个Java代码。左侧那边消费卡卡数据,消费完数据就立刻上传到,就这么简单。咱俩是不是这样的。
07:01
啊,你说这些知识你学没学过呢?学过,但你会不会用呢?不会。是这样吗?啊,其实这个他完成的事儿也是这样的,它左侧对应的是卡不卡。S对吧,然后这边这的是H加S是啊,那实线的代码原理就是左侧是消费,消费完之后上传吗?啊就这点事。所以说要有思路啊,那当然了,如果你这个这个代码我们也有啊,就是说之前的项目当中啊,是实现过这个代码是没有任何问题啊,直接可以实现,那你要想不用自己写的,直接就可以用from对吧,From还可以消费啊,左侧sa卡法sa啊,然后这边对应的是那个啊啊这个是呃as啊就绑定了。那现在有没有个疑问呢?你们没有个疑问呢?
08:08
没有疑问呐,一点感觉都没有啊。你没有感觉这两个我要把它干掉。是不是好像也直接可以到明天上,是这样吗?那为什么我还要多此一举,加上这两个没感觉了?第一个感觉是不是这个卡夫卡,首先它是起到这个这个交锋缓冲作用,另一个这个卡卡,比如说下面我说过,再来一个实时的处理呢。嗯,还有再来一个其他的ES查询呢,我再来一个德鲁伊处理呢。那有这么多消费者,那我每一个人都要去搭一个这个前一级弗洛姆器产业的数据吗?不灵活了,哎,那我现在下移这些东西我都可以直接从行化区读出去,只不过我这个离线这一块是用S母把它交费到类似,当然我可以去消费,是这样吗?啊,所以说不要这个疑问啊,应该有这个疑问的,我觉得是好那再来。
09:14
那这边呢,是这个百色公里的业务数据,那我通过库把它导入到百,那我抛一个问题。那在导出的这个过程当中,子宫管突然间坏掉,导的一半坏了,你说这里面有四个任务。啊,有两个成功了,两个失败了,那这里面是不是就产生张了。那只不过应该说在导入导出的过程当中会有问题啊,早上问你们的时候没有问题。啊,那遇到这个问题怎么办呢。还是?把表删了,那我一半成功一半失败了,你怎么说我删哪些呢?啊,我不知道啊,好,那我们继续先画出来啊,响个两三天,咱们最终来解决哈。
10:02
两三天是快的啊,你想想你在企业二中遇到一个bug,我跟你说想一天那是正常的啊,两天我觉得正常啊,想一周也是有的啊,个别的八个人整一个月能整明白,那成害的。好,那EWS最终把这些数据哎,导入到ha尔数场里面啊,还尔数场,那还有数场里面呢,又三段时长,Ods DW ddws ADS。二。那还尔速查最终分析完的结果,我们要把它导入到买渗透,为啥不不放在这个hell里面去去查呀,啊是不是很慢啊很慢,所以说要把它导入到S里面,OK,那导出这过程中用什么。哎,SCO啊用SCO好,然后呢,这边呢,就对数据进行可视化好,那还有我们用到Kitty和pres,它主要用来查询汉当中的数据啊,解决这种及时查询啊,速度快啊速度快,你要实时的话,我们可以从卡塔里面去些数据,比如。
11:12
Spark stream啊,Spark stream还有德鲁伊DRD啊,德鲁伊这个框架也是从卡卡里面直接啊来读数据消费啊,这也是已经成为当前的一个比较主流了啊,一个德鲁伊还有一个Li house啊click house呢,目前是在这个贝壳啊,贝壳这个就是链家旗下的,他们内部使用的就是号,他俩属于同级别的框架。行,那这就是整个这个数据的这个流向啊流向,比如说你上边这一块选完这个技术框架之后,你再给领导提交方案的时候,你要把这张图要附上。啊,非常非常,这张图就是你这些架构是什么样的。你要把自己当成一个架构师啊,进升就是对吧,不要低估你们的实力,你要上个班就有好几个CTO了,直接开始开始招人了。
12:07
对吧,也许你们再去面试的时候,他已经成为你的老大了啊,就这么简单了,那这里面为什么要这个画这个图呢?因为你看这里面其实你说你是用到框架,那这里面你是不是两个位置都用了,那么它呢,它其实其实他们的配置是不一样的。啊,承担的这个功能也不一样啊,那你要在这张图上给他展示的啊,啊,这是系统数据流程设计一定要有。
我来说两句