00:00
好,接下来呢,我们看一下第二章,第二章呢是非常非常重要的啊,第二章解决的问题就是现在把你扔到一个从零开始去搭大数据集群的一个公司。啊,这种公司很多啊,往往是一些上市公司,目前都属于这个阶段啊好,那现在来看吧,这张首先需求。啊,也就是说我们整个这个项目要做什么,我们这个项目要做的是首先把这个数据采集平台。给搭建好,你说这个数据啊,你得最终进入到have这个数仓里面,对不对啊,那些需要服务,需要卡法啊一些框架好同时呢,实现用户行为数仓的分层搭建,你采集完这个用户的日志行为数据之后,你要对这个日志行为数据进行分析啊,分析这个用户他的一个特点状态,包括整个市场里面的一些其他一些指标也吧这个。
01:02
同时你要实现业务数据仓库的一个分层搭建。那业务数据库呢,就是从买circle里面把数据导过来,那要分析这里面的一些指标啊好,那其实我们总共分一的指标呢,主要包括这几个叫流转继复活啊,还有一些连续的指标模型增加了哈,那流转呢,就流转就是留存啊,用户一日留存,两日留存,三日留存,留存率是多少?那还有转化率,转化率呢,就是用户来到首页,来到订单详情页啊,来到支付页面。那这个转化比例是多少?我肯定希望他越高越好,你说来了一万人,我甚至让他一万人都去支付,当然这不太可能。啊,那我尽可能提高这个比例啊,那g ma呢,就是每天的这个交易额啊,你卖了多钱。老板最关心的就是钱啊,那这个很重要啊,那下一个呢,就是这个复购率。
02:05
那就购买一次,购买两次,购买三次,那这些用户有多少,我能不能提高他的复购率,让他买一次之后还继续买,那活跃,那就是来到这个网站的人数每天是不是一直在增加,一直在增加啊,有N多个人在活跃啊,那只有人活跃我才能产生商机。那好,我们要做这些事情,那下边第一个问题。你要做这些事情,你的项目技术如何选型?我用什么框架来解决上面的问题?第二个问题。那框架的版本如何选择?我是选择阿帕奇的,是电机的还是HTP?啊,那他们的优势劣势是什么什么,什么情况下用什么方向。那再来一个问题,服务器,我是选择物理机。
03:01
还是阿里云服务器,还是京东云啊,还是什么这个腾讯云。有很多人对吧,那再来如何来确认集群的规模?啊,假如说你每台服务器的示盘是8G的硬盘,128G的内存。那我只给你一个数字,每天有1000万条吧。1000万条数据。每条数据1K。剩下的事儿,你来给我规划这个集群。啊,有没有思路。新代理就是企业的高级架构师是吧?架构设级别就解决来解决这些问题吗?对吧。给我你的理由。
04:00
去了老板,这是肯定是第一件事儿啊,现在你们的学哥学姐们有很多人都在做这事儿,一个班至少是五到五到八个班。应该占了比例。好,这就是项目需求。
我来说两句