00:00
好,昨天呢,我们把这个书仓采集这个文档啊,做了一半啊完成到到了这个日志生成这一块啊,把开表一本都已经安成完了,那我们简单回顾一下昨天讲的内容。好,那第一章当中有一道面试题对吧?啊,一道面试题我提问一下。呃,张老师你给我说说啊,第一章当中数据仓库概念有道面试题啊及答案是什么?什么的输入。数据仓库的输入输出分别是什么?那分别是什么呢?啊,那这个作为。猪肉。嗯,最终数据留下来报表。哎,OK啊,没问题啊,但是呢,以后说话呢,要有底气啊,有点发虚,那我感觉黄老师带的。
01:07
好,那这个没问题,那好来到第二章啊,继续提问,第二章当中啊,回顾一下我们要掌握哪些技术问题。这个题。那第一个就是项目的技术选型这一块,选哪些技术,以及一些注意事项,那我要提供了。来前你给我说说啊。技术选型这块啊,要注意哪些东西。看一下啊。技术数据的采集、传输。然后呢?怎么选?
02:03
我不高行卡。嗯。Of a sta X。可以选那个D。你给我念那课文儿有啥用啊?对吧,那你的依据是啥呀,我这块要注意什么东西啊。你说现在是你给你扔到一家新公司,让你做一个技术选型框架,你给我提个方案。嗯。然后呢,那你给我说说你为什么选这些红的吧,啊的依据是什么,他们的负责人在这个项目当中承担什么角色。对他干啥?你为什么选他?你给我个理由。知道吗?那那啥,那一堂,你给我说说。
03:02
首先,数据传输。比较啊,通用跟熟悉,现在跟卡卡跟。这三个,那他们解什么就的日志的采集,OK,就是。呃,消息的分发。销魂。嗯,OK,就是把关系型数据中的数据。嗯,OK,没问题,那下面MYSQ和ATS分别用来日后存储什么数据?MY存储一些跟。呃,前端进程。交互比较频繁,需要查询速度比较快,OKHDFS用于存储。计算跟分析跟数据量比较大的,以后可能用主要用来储对吧?好,那还有呢,主要跟是一个基于是是基于的计算是基于基于内存,嗯,OK,没问题,属于处理计算问题对吧?好,那这两个呢,最后两个就是。
04:22
啊,实时查询基于内存这样的一个,对啊,基忆内存的基时查询已擎对吧,OK哈,啊这就OK了,非常不错啊,非常不错,你说技术选型这一块啊,首先呢,你要提供两套方案,一套是你非常熟悉的,以前用过的那一套呢,是这个啊你没用过的啊,但是呢,也是能解决这个问题的,相关的这个技术框架啊这一块好,那既然选择了这些框架,那你要给出选择这些框架理由,比如说啊,它主要处理处理。采集日志文件这种对吧?啊,文件类型的数据啊,卡管呢,主要用来这个消防啊,以及日后的一个这个啊分流吧,啊分流那此部分呢,主要用来处理买渗当中的数据,导入到数仓里面,那买渗主要用来处理这种增商改查,也就是我们分析完的结果指标啊,用它来存储,那HHFS主要就是来存储我们大量的这个数据,那have和T都是用来计算的,那tag的底层是mmr啊tag呢是基于内存的啊,速度快,还有那price高和这个德录伊啊,它们主要用来处理这个实时查询和实施啊,实时指标的一些分析啊,这么几个框架的理由哈,好,那下面呢,我继续提问。
05:40
啊,继续提问第二个问题。框架版本如何?选择的理由是什么?那我找一个。来,小雨给我说说。变声了。
06:02
对。一些大厂是吧,OK。嗯,这样的比较。OK。白冰呢?对。它是属于这个HTTP啊,它最主要的这个问题就是不稳定啊,不是特别稳定,但是它的好处呢,就是支持二次开发这一块啊不错啊不错,那下面第三个问题,服务器使用物理机还是云主机,理由是什么?来正呗,你给我说说。嗯。
07:03
啊,需要需要运维物理对吧。嗯。对,OK,不错啊,其实物理机呢,最主要的就是他前期买的时候很便宜,但是呢运维成本偏高,那云主机呢,属于前期买的比较贵啊,但是呢,后期运维啊省钱啊,是这么一个角度啊,那一般在选择的时候呢,像这个大公司。基本上都是自己的物理机啊,如果中小型公司呢,一般会选择云主机啊,主要从这个数据安全角度去考虑一些哈,OK行,那在这一块,那下面呢,是如何来确认这个机器规模,假设每台服务器八台啊,8G的这个硬盘。来,班长跟我说说。怎么穿的?那个。
08:02
好,每天1亿的数据量,一条1K。是这样啊,你要匹配的话就是。啊,就那么多,然后整串继续冷串,啊说思路就行,不用禁绝去串数。然后问他那个需要保存多少天,嗯,需要保存对需要多少多少天,然后不需要额外增加机器对吧,然后。你说半年。钱,然后乘以183,然后再是。副本副本书300。参与副本,然后。我还有。对吧,嗯。已经不错了啊,OK,就这么几个点,第一个点呢,就是你要问啊,要问它保存多少天,然后不需要额外增加机器啊,不需要额外的这个运维了哈啊,那比如说半年,那那这个指标要要获取到啊,第二个指标呢,就是副本数保存多少个,是两个还是三个,接下来就是它的预量啊,20%还是30%啊,通常情况下都在这个范围内啊好,然后还要问一下这个集群的数量啊,和每条日志大概的这个大小啊,有些东西你是必须要问的啊,不要到50之后,这个不敢问啊,以前那学生毕业的时候他就发现。
09:37
其实这些东西都是必须要要的,但是他就不敢要啊,还有一些什么东西要必须要要的呢?集群在用户名密码啊,主机名称,密码,网络IP,这些东西你该要得要吧,不要的话你怎么办公啊,对吧?啊,你得有适当的这个工作权限啊,这些东西不用发虚啊,该要得要,OK,那就是第二章啊,我们要掌握的这个内容。
10:00
那接下来呢,就是这个第三章啊,数据生成,数据生成这一块啊,要记住它的使用场景,它的使用场景呢,就是嗯,有这么两种场景,一种场景呢,是跟这个加E同时并行开发。啊,或者说这个加没有完全开发完,他为了抢时间啊,那这时候呢,只是你们之间定义好这个接口,然后各开发各的,那最终都开发完了,然后再以对接调试啊,有这种场场景,那这种场景的话,就要求你自己去独立的造数据,然后保证你后面大数据分析的一个正确性。啊,而且不耽误进程,所以说那这块呢,那你就要照一些假数据啊,可以参照这个脚本,那在这方面另一方面什么呢?你分析完这个大数据这个指标,你如何证明。他是对。啊,它是确认,那这时候你就需要照一些特殊的数据来证明你是OK的。啊,你说提前我都想好了,他就应该是这样的啊张数据,比如说就是20%的张数据,那我出来之后,这边统计分析之后,就应该有25%张数据。
11:10
啊,那指标必须让那个清楚啊,否则的话呢,是明这个你分析的东西不对啊,你要改你的舌口了,好,那这是第三章,我们要找到内容,接下来呢,是来到了这个第四章。第四上这块首先是hi安装啊,Hi豆安装过程当中啊,有几个我们项目当中的一些亮点,或者是一些注意事项,那首先呢,就是这个HTS的多目录配置。啊,那它解决的是什么问题呢?来找一个。来冻结,你给我说说。啊,我为啥要配置录,我这块干干啥呢,这配置。这是一个。就主要就来解决这个服务器,比如说有四个插槽这种情况,或者多个插槽,嗯,那我配置的时候,如果不配置内外多目录,那就只可能配置到一块磁盘上,那我再增加插入磁盘的情况下,是不是它不能关联到这个地方。
12:16
需要你再配置多目录,那需要重启集群,那基于这种情况,我们目录把这些地址提前就配置到这个addfs这个目录上啊,然后之后呢,这能关联上啊,是这个一个套路啊,啊不错啊,那下边呢,是这个下中,要知道这个拉多罗压缩啊也是一个亮点,在企业干发当中,数据呢,是一定是要压缩的啊,否则这个数据量太大了啊,那至于是不是这个拉多罗,那不一定啊,公式当中有这么几种比较主流的纳米拉着螺对吧?啊,那存储方式呢,有r Mr cpoint啊啊这么几种啊,也说压缩存储比较主流的。
13:03
行,那这一块,那还有一块就是做完这个海口集群之后,要对它进行一个测试,那测试呢,包括对它as的写性能测试和读性能的一个测试啊,还有呢,对这个集群FR运算的一个测试啊,也是这块啊,测试它的计算能力,对他进行一个排序啊,去处理排序,那这个呢,如果你机器性能OK的话,那这个正常这个程序是一定能跑得通的。啊,又跑了,当然咱们现在这信息眼,不知道大家晚上试了吗?又跑通了吗?好像没有,反正我在上面没没搞定啊,没搞定这个机器不行啊行,那这是这一块,那下一个呢,就是ay是参数的调优啊,那这里面呢,至少要记住两个参数啊,一个参数呢,是来解决内部到和内能到之间啊并发通信的一个问题啊,如果它俩之间通讯延迟比较大,那你要按照这个参数去配置啊,也是20乘以log啊二的这个集群的这个次数啊集次数。
14:07
那这里面比如说这些是八台服务器,那其实就是三啊,LOG8等于三,那就是20乘以三等于60,这么去算二。那下面呢,这块呢,是这个编辑日志的路径和镜像文件的这个径,尽量分开减少这个啊是盘的这个写延迟啊写入延迟,OK,这是这个,那下边呢,还有这个主皮波,主波,这里面要注意一个啊,内容就是环境变量这一块啊,我们之前用的环境变量呢,都是这个全局量EDC profile它呢主要是对全局所有的这个环境变量都有效啊,那这里面如果你用的这个SSH啊,去呃到对方啊,然后执行一些flash脚本的时候,在你需要SSH到对方主机之后再S一下。啊,那才会生效,否则你不用这种方式的话,你还可以用下一种。
15:02
啊,在自己的加固下,该用户的加工下有一个点best RC这么一个文件啊,那你可以把环境变量定义到这里面,那这个文件主要用的是针对你自己这个用户的所有的变量有效啊,那这个呢,只要你日后用这个best命令的时候,用的就是当前用户,那它是自动去读取这个文件啊,读一的文件,那就立刻相当于声明了一个文件命令生效就及时有效了哈,那这个要注意一下啊,就开把它追加到这个里面去。行,那接下来呢,就是这个日志生成啊,日志生成具体的这个生成这个脚本啊,这个没什么技术含量,执行一下这个命令就行了,那这里面还有一个是集群时间同步修改的一个脚本啊,修改时间这里面有一个杠G啊,其实是生成一个伪终端啊,伪终端强制生成啊,这样呢能正常的这个啊远程过去啊。
16:01
还有一个呢,是查看所有的进程啊,这个呢,这个脚本很有用啊,虽然不难,但是呢,日后呢,会提高我们的这个开发效率啊,好,那就是昨天我们要有这些内容需要去掌握一下啊。
我来说两句