00:00
好,接下来呢,我们来解决第一个问题,技术的选型啊,我们来选择哪些技术框架来解决这个问题。那像遇到这种问题,那首先得你得知道你为啥。你会哪些框架对吧,或者说你学过哪些框架,那比如说数据采集这一块。采集日志文件用什么?采集文件最熟的框架就是对吧,哎,模式最熟的,那采完之后。啊,为了这个消除,我可以采用卡不卡啊,那也就是说这两个框架就能保证把日志文件干掉,比如说file类型的文件,那还有一类文件是哪里的文件呢?业务数据库里的用什么导子库啊,子库数据在导呢,百里的数据啊,导入到have或者是as啊,这都是没有任何问题的。好,那这是一套,那我未来后面又列出了两个,那个是干嘛呢。
01:07
Erk对吧,ER其中的一个方向elk,那E是。ES啊,设计对吧,可视化对吧化,其实这是一套专门为运营人员做的一套框架。啊,他不需要懂什么代码啊,只需要把这些配置好啊,负责采集数据,ES负责分析查询啊,图形化一拓善啊,一查询这个指标就OK了,那T呢,就负责可视化展示啊,这一套非常简单的啊,我说过之前这一套房产描会的话,15K左右的服装啊,12~15K。就好了,就能搞定啊。那这套框架为什么要列着呢?你说你日后这个给老板提这个技术方案的时候。要提两套啊,要提两套要有对比,那我们肯定是倾向于。
02:05
我们熟悉的对吧,啊,那另一套为什么要提呢。有对比啊,而且万一老板要选择这一套。你说那我得需要时间对吧?啊前面这一套呢,我是通过经验已经验证过了,是OK的,那你非要选这个,那没办法,那我可以你给我点一周到两周的时间去研究就OK了,对吧。同时这还有一个对的差,对的差是解决什么问题呢?它类似于S库,他在目前市场上的份额,它应该是五五开,非常非常主流的一个观察电子差啊,日后我一定要给大家大家讲啊,我们要讲的这个非常重要的啊,但是它的原理差不多啊,原理差不多。在B哈上有专用的这个源码啊源码,而且还有非常详细的说明文档啊,这个手册非常详细,中文的看懂了啊,那下边解决完这个采集通道,下面我们来解决数据的存储。
03:09
那存储到我这里面分两块啊,一块呢是数仓的内容,我们都要给它存储到。N减N减S,同时我们要把这个分析完的结果数据用来可视化的存储到MYSQL里面,为什么要这么去存呢?因为它有各自的特点。而蛋白存储的数据。大满生个存储的数据小,但是它是不是快了啊,太快OK啊,那后面还用到了像H啊列存储,它是基于这个跟K。可以去出来啊,我们这里面没用答案,你们日后再讲实时项目的时候,呃,可以用h base啊,或者用ESES,那还有后面你的项目过程当中会用到raish啊,还有mango DB mango DB一般呈什么数据呢?爬虫爬回来的。
04:01
数据啊,往往都存在这个发光地面里面啊。那下面呢,是这个计算这一块啊,传输存储都解决完了,那下面来解决数据计算。那数据计算这块,你们其实现在学的。就这一个have吧,啊这个have,那我们就用这个have,但是这个have比成它是MR实战运算速度太慢了啊,那换一个引擎叫TT它有个优势,它的数据存储,呃,计算过程不落它,你说中间结果不存储到A来上,都在内存中搞定,那它速度就快啊,很快啊,对比很明显啊,对那内存中,那看你内存多大了,看你的机器配置,那这里面后面我给大家讲什么指标放在have里面,什么指标放在T里面。啊,这是不一样的,比如说你要分析三天啊,或者一周或者一年啊,每个月的数据的时候,这些真正指标肯定是要用还,即使它慢,但是它能跑出真正的结果,如果你用这个pad或者Spark的话,它虽然很快,但是它是经忆内存的,你跑了一天,突然间发现。
05:18
内存OM那结果就没了啊,那这个是很到底的事情啊好。那还有当前比较主流的格。啊不主流哈,Flink很主流啊,第三代啊大数据分析引擎啊,那这一块呢,后面咱们班肯定是有项目,有项目要基于link技术项目,那现在呢,发现无论是深圳这个市场,还是这个北京这个市场啊,都有这个逐渐的趋势在加这个弗Li,弗Li克在实施这一块做的真的是啊,非常非常棒啊,它底层这个框架做的。非常棒,对,呃,昨天晚上啊,我和这个啊,主任老师啊,张晨老师,还有吴晨老师啊,我们一起讨论这个国家评价都非常非常高啊,你那主任老师是中科院的硕士老师是清华的硕士,张晨老师是人大的硕士,我是最拙的,但是我是这个思是吧,啊然后这这些呃,去讨论这个技术框架引擎啊,说这个Spark都是那个是当前比较巅峰的巅峰之啊啊未来几年肯定都是绝对的主流的。
06:28
在大数据当中能撑个三年,那已经是很牛逼的框架了啊,你像最开始出的时候够火呀啊,现在逐渐的走向没落了。行,那还有呢,像这个数据查询这一块啊,数据查询及时查询啊,快速分析,那就有的录一啊和K啊K那这个呢,我主要在这项目当中用到这两个框架,那这里面像这个pre和它俩是同类型同级别的框架。
07:00
啊,到时候给大家对比,那这个德鲁伊呢,和这个麒麟呢,呃,德鲁伊在处理实时的及时查询,为你这个麒麟强一些。啊,那麒麟呢,是梳理这种呃,一级串啊,它是比较快的,其实这这种仪它也是一级串。啊,也是一级串,他只不过进了一些,我就一级串一些,进了一些,就一级一些啊,但是呢,他这个那个准确度啊不高啊,它会有一定的这个偏差的对。行,那这一块儿呢,就是这个技术选型这块儿,那稍微回顾一下,在数据采集通道这一块儿,你可以建议老板啊,采用我们卡看负责采集日志,那s support呢,负责导入my circleql的数据存储这一块,MYSQL和EDS,那HTS负责存储所有的数据,买三个负责存存储分析完最终的指标啊,用来可视化,那数据计算这一块,我们这里面主要给大家讲的是have和T啊,T啊日后呢,我们再讲,讲完18个之后给大家啊再说一下怎么靠在这个项目里面哈。
08:08
那数据查询这一块啊,教大家用的就是ma和德一啊,德一那在C1里面,你可以加上这个,你什么七零啊。行,那这就是技术选型啊,技术选型这一块技术就要跟老板提供两套方案啊,这套方案一套呢,是我们非常非常熟悉的,以往经以往的项目当中用过的,那那一张呢,是不熟悉的,那不熟悉的时候。如果老板真的就想要这些,那你就要时间就OK了啊。行,这是技术选型。
我来说两句