00:00
好,那接下来呢,我就讲第一章啊,数仓的概念,数据仓库的概念。那我们接下来的七天的时间要做的就是数据仓库,那数据仓库它是什么样一个概念呢?他做了哪些事呢?接下来我们来看一下。好,那看一下整个数据仓库当中有这么几个系统,第一个比如说日志采集系统。日志采集它就是用来收集用户来到这个网站是做了哪些事的啊,做这些东西的,那这个日志采集系统呢,这个需要你额外的去。买点啊,什么叫买点呢?大家想一想,比如说啊来到这个京东哪一个。找一个京东吧,京东最近事儿挺多的是吧,支持一下东哥。
01:05
来来到这个页面对吧,那来到这个页面,这个网站正常的这个后台运行,比如说你你去买一个商品吗?比如说班长最喜欢的是哎呀还是吧是吧,啊还有什么,然后来到这页面之后,哎,我一点啊点击来到详情。博士了啊,确实正大博士嘛。然后加入购物车是不是就可以支付去购买了,那这个网站它是保证这个啊,这个客户能够买到自己心仪的产品,那其实他把这个数据会存到哪里呢。整合这个流程是不是他买是不零,比如说这个金额对吧,啊,还有这个支付流水,这些行为肯定都存蛋买是不里。那么还有一个叫用户行为,比如说这个。啊,日志采集这个系统它是干什么呢?采集的是用户的日志,它记录了你来到这个京东网站。
02:08
来到这儿,那来到这儿你干了什么事,比如说在这个这个搜索框里面搜索了还有日文。同时又点击了这个还有人盘,详情来到这儿。而而且又加入购物车,那这一系列的这个点击流,他要把你记录下来,大家说要记录下来干啥呀。对,分析完日后可以用它来做推荐系统,而且研究用户的心理,把用户打成标签,那叫用户画像。啊,用户画像是啥意思呢?啊,把你们分成一类一类的人,比如说班长都属于一类喜欢。购买还有什么对吧?啊大补啊这种,那比如说你班还有这个像这个呃,易涛他属于什么呢?啊,喜欢美女是吧?啊在里面你说搜索搜索一些美女一些东西啊,那比如说我就不一样了,你看我我就喜欢搜什么link呀开头啊是吧?啊这种学习类的,那我是这另一类啊你也是这样啊,那咱是一类的,对那那在里面看啊,那业务系统这块是保证这个电商网站正常运行,满足他的支付啊啊订单呢啊这种事情,那他的数据呢,存在买S里面。
03:32
那日志采集这些东西呢,它是记录这个用户来到这个网站贴的多长时间啊,他搜索了哪些关键字啊,他的喜好是干什么。那这个呢,是用于日后我们做推荐系统或者分析用户来做准备啊,那他的数据是存在哪里呢。文件啊,你说日志文件里面啊,这两个它存的地方不一样,那它的数据量是不是可以很大很大呀啊很大买赛里能存大量的数据吗。
04:03
不太难啊,对不对啊,几百万条啊,差不多个类情况下能达到千万条,像咱们呢,这个日文件平平常常几亿条。啊,晚期条很正常,好,那你说这个数仓啊,来源于日志采集,还有这个业务系统两块,还有一块。个别这个企业就喜欢。爬虫啊,其实我觉得大企业他也先不爬啊,比如说京东他就要不爬。淘宝他怕他干嘛呀。他是不是分析他的这个商品的这个价格呀,对不对,而且他的销售额呀,卖了多少啊,用户是什么样的,多少人来浏览呢,等等,是不是为他企业可以做决策呀,啊还有一些什么企业愿意查呢,小企业。因为他本身就没有这些用户和数据,他还想说这些东西,那是不是叫怕变呢,哎,就怕变OK哈。那这些来的数据。
05:02
要进行什么呢?ETL数据清晰对吧?咱们讲函的时候说过啊,虽然说只学了一个判断数据长度O,不OK呢,不OK的是不干掉了啊,那么一个1CEL信息啊,虽然说比较简单,但是五脏俱全啊,好,那就说不管你来源于哪类的,这个系统我都要对几个数据进行清洗啊,清洗完之后把这个数据汇总到数据仓库里面。真正的企业的一个数据仓库,它的数据来源啊,各个平台,各个系统,这里面有日业务爬虫,其实还有什么这个像OA办公系统,钉钉办公系统啊,还有什么财务系统,尤其是财务系统啊,好多数据都会汇总到这个数据仓库里面。那汇总到数据仓库里面干什么事呢?或者谁来用这个数据呢?
06:01
来看,数据操控是为企业所有决策制定过程提供所有系统数据支持的战略机构。也就是说他是为来为老板做决策提供数据支撑的,那老板要做决策,他就要考虑数据的方方面面。啊,那这做出一个决策才能更可靠,所以说它是用来做决策的啊,那通过对数据仓库中的数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质量啊,举个例子,之前这也是比较典型的啊,有一个APPBABAB是多少啊?啊,一个应用对吧,比如说是呃,手机上的一个京东的一个应用,它这里面有一个。情况,他通过这个数量分析,分析了很多用户来到了订单这个饮料。准备马上要支付的时候。
07:01
突然间不止付了啊,比如说进来要1亿个用户。来订单,但最终支付的只有一个。啊,这有极端情况啊,啊这些情况。那这是什么原因呢?其实他就是通过大数据这个出仓啊,分析出来,来到这个订单详情页面为一,然后出去了1万,他把这个信项报给谁呢。产品经理,那产品经理就会去看这个APP,来到这个订单页面啊,发现一个问题,他这个支付的按钮。在一个非常偏僻的地方,非常不好找,同时这个按钮就比较小。那就是好多用户想去买这些东西,结果没有找到吃饭人。啊,流失了很多用户啊,然后这个产品里把这个页面啊修改了一下,放在了一个非常显眼的地方。啊,而且呢,这按钮比较大啊,方便用户去查看,最终啊由1亿条用户进来啊,可能9000万数据都赔偿。
08:07
这就是对产品这个改进的一个非常典型的一个案例哈,能提供一些呃方案啊。那再往下。数据仓库并不是数据的最终目的地,也说不是把这数据存到这里面就结束了,而是为数据最终的目的地做好准备,比如说准备什么呢?把这里的数据进一步的清洗。转移、分类、重组、合并、拆分、统计。啊,在这数场里面,比如说我去举例子,这个老板要求你统计今天的UVUV是什么,知道吗?用户user view,用户来到你这个网站啊,日活啊,浏览的人数啊,那PV是什么呢?配置view浏览了网页多少个页面啊,然后次数啊,乘以这个人数啊好,那就说多少个网页被浏览了多少次。
09:10
那还有。统计,今天这个网站新增了。多少用户?啊,还有这个网站。今天有订单不少吧。还有这个像天猫双11最统计的,统计最多的就是什么实时的。交易额对吧,那今天的交易额是多少。啊,卖出多少商品,这都要统计的,那统计完这些数据去哪了?最终去的有报表系统,报表系统就是我刚才给大家看那个神策。那个页面看到了吗?啊,那个页面里面那就叫报表系统,老板每天就要干这个事情,在什么时间看八点。上班之后。那就要求你在八点之前要把所有的指标分析完啊,可视化展示出来,还有用户画像,用户画像他对人打标签啊,打标签给你分成一类一类人,比如说你这一类人他喜欢晚上勾。
10:16
啊,有些人喜欢这个。呃,晚上12点啊去买东西,或者有些人喜欢,哎,周六周日买东西,有些人呢,喜欢买一些女士东西啊,买一些化妆品啊面膜,有些人呢,喜欢买这个生活用品啊,比如说强身健体的是吧,一些班长这种都可以啊,他打标签,那在企业当中,像我知道的话,在百度内部它有几千个标签去描述一个人。他的爱好啊,几千个标签啊,下面一条内部也有很多,也有上千个。啊,他把人分的很细很细,那分的越细,最终他做推荐,日后对他带来这个企业效益的时候就会更准确一些啊,那这个画像做完,其实它又把这个数据给到推荐系统啊,最终产生这个推荐的一个效果啊,那推荐系统里面其实还涉及到核心的。
11:15
推荐算法啊,怎么去准,那这里面涉及到机器学习啊学习,那还有一个叫风控系统,了解什么叫风控系统,风险控制啊风险控制,那像咱们今年出了一拼多多出了一件事。听说了吗?是不是那个半夜刷单是吧,刷那个什么充话费吧,啊充话费啊,这个就典型的它风险控制没做到位,你就说这个出现这个异常情况,他没有把这个风险降到最低啊,就没有往这方面说啊好,那这些系统基本上都是企业当中啊,都要去做的,那最先做的是谁呢?或者说最做的最多的。
12:01
报表系统几乎是必做的,在使么呢?那剩下的像这个用户画像推荐及学习风控。有的公司。还没有实力去做这个东西,尤其在深圳这块啊,做的最多的就是他啊,随着时间的推移,可能半年以后,一年以后,那这边就开始逐渐的增多,未来你们是一定要做这些这些这些这些。啊,这些算法没问题,咱们有同学,每个班都有同学去做这方面,不是他真正的去写这个算法,或者是研究这些算法,这些算法都是谁来写的。至少是211985的博士啊,个别都是清华北大的,甚至一些海归啊,他们这些人那用我们来干什么呢?他们写完这个算法。需要验证,需要测试对吧?啊,需要去证明它,那这时候就需要去准备数据测试这个算法O不OK,能不能达到预期。你像咱们那个陈佳峰老师,他在贝壳链家旗下的这个贝壳啊,做这块做什么呢?他那个组当中有好几个博士,人家负责来研究这个算法,他负责校验这个算法的准确度啊,准确度啊,那这个薪资待遇也不低啊,包括咱们还有G360的也是这一方面啊,G360内部还有个例子,他们组的同组的同学什么样的。
13:26
呃,在一次吃饭当中啊,老大问啊,哎,你介绍一下你是哪儿的啊,这个牛津的啊,你是哪儿的,是大国的,那么那个呢,清华的啊,第四个北大的到三的哪的呢?他是一个非常普通的一个二本学校的一个学生。嗯,但是这哥们儿很努力啊,算法也很溜啊,但是给人打仗啊,打仗目前还混的还不错啊,现在已经混成这个360啊金融。优秀员工拿了两次,一年时间拿了两次啊,而且还发了奖杯,我我显摆了,而且最近又涨工资啊,他们是16薪啊,你他就提高了20%啊,所以说啊,问的还不错啊,那就是努力嘛,他拼职场肯定拼不过人家,对不对啊,但是那最努力呢,那肯定就是他每天来的最早,走的最晚。
14:20
行,那这个呢,就是整个数仓啊,我们要做的事情,其实记住这一块,它是为企业提供决策,为老板,那这里面涉及到一道面试题,面试题什么样呢?啊,面试官会问你们这个数仓数据的来源是哪。数据的目的地是哪?那这个答案。哎,至少你要说出你的书上的数据来源,日志采集对吧?呃,日用户的日志行为数据,还有业务数据,买成里的数据啊,那最终的目的地是哪?哎,至少要说出来报表啊报表啊,如果能力强的实力强的,你说你公式还有用户画像推荐系统,以至于自学习啊,没有问题,好,那这也就是就这么一道边形,那这道概呢,证明什么呢?你中文中过舒畅。
15:15
如果说你连这个他的数据来源于哪,最终去了哪都不知道,那你直接凉凉啊,就简单的问题是不容易错啊,这就是数仓的概念。
我来说两句