什么是数据分析?
无论你是刚接触数据分析,还是一位分析大神,我想很多人都不知道,数据分析究竟是什么,或者说数据分析的本质是什么。
其实很多公司和企业,也不明白数据分析是什么,很多人从网上看到公司招数据分析师,进入了之后发现是做什么的呢?就是天天用sql取数给业务用,十分机械而且也没成就感。
这叫做数据分析吗?当然不叫!所以我们要先对数据分析有个整体的认知。
先看一下教科书上的定义:
数据分析是用恰当的统计分析方法对收集来的大量数据进行分析,然后加以处理和加工,以开发数据的功能、挖掘数据的价值,主要目的是为了清洗出有用的信息并形成结论。
这个定义过于繁琐,很多刚刚接触数据分析的人都不一定能看得懂,因此我自己给数据分析下了个定义:
数据分析,就是针对某个问题,将获取后的数据用分析手段加以处理,并发现业务价值的过程。
大家可以看到我把五个关键词给标红了,这一句话,基本上可以包含数据分析所必须的流程点,我们一个个讲。
一、问题
首先第一个关键词是“问题”,我们可以把这个词解释“发现问题”或者是“目标”。
数据分析一定要有目标!哪怕业务人员给你提出的问题或者需求,根本不是那么明确和清晰,你也要找到自己要分析的目标!
举个最简单的例子,业务方最近新上线了一个功能,想让你分析一下目前这个功能的使用情况。这时候你该怎么做?
你会觉得“分析业务功能情况”是目标,然后根据这个模糊的目标你只能做一些描述性的统计分析,告诉业务方每天UV的最大值,最小值,中位数,平均数,方差,标准差……看起来很厉害的样子,但这些数据有啥意义呢。
这样子的目标就是在做样子,应该怎么做呢?
要明确业务方的需求是什么,然后分析业务最终的目的,把这个目的进行拆解;比如刚才的例子,业务真正想要了解的是什么,是这个新功能的目的,是为了提升客户的留存率?还是为了提升客户的转化率?还是其他的?然后再把这个目的给拆解,确定我们的指标,然后再进行分析。
这才是真正的目标思维。
二、获取
第二个关键词是“获取”,叫做“数据获取”或者“数据采集”
数据采集就是将原始数据从数据库中取出来,主要工作是:搞清楚数据放在哪里+怎么把数据取出来。
1、数据存放在哪里?
很简单的答案,很多人都知道公司的业务数据一般都是放在数据库里的,但是相同的数据库,数据源不一样相同,我们所取的数据一定保证数据源的一致,否则会造成数据混乱。
比如说,不同的数据存储系统,mysol、oracle、sqlserver等等,数据仓库结构以及各库表之间的关联方式也可能有所不同,星型?雪花型?数据指标是否相同,名称、含义、字段类型、约束条件等等?是否经过了ETL处理,清洗规则是什么样的?这些都是我们在进行数据提取之前所必需了解的。
2、那么怎么把数据取出来呢?
其实只要搞清楚了数据放在那里,取出来就是水到渠成的事情。
一般来说SQL是进行数据采集的必备技能,目前也是数据分析实际业务场景中最常使用的取数方式。当然了,能取出什么样的数据,也要看你是否精通sql,比如单张数据库表的提取很容易就做到了,但是跨表查询提取的时候很多人就不行了。
再比如更为复杂一点的复杂查询、联机处理等等,这些做数仓的人用的很多,我们数据分析师不必设计这么深,我们只要熟练掌握就行了;
当然,有很多数据分析师最后也做了数仓师、架构师,如果你以后考虑往这个方向发展,sql肯定是要精通的。
三、数据
第三个关键词是“数据”,这里说的数据是广义上的数据,包括数据库中的数据,也可以概括为数据场景,也可以理解为经过清洗后的数据。
总之,这个数据指的是我们可以直接拿来分析的信息,而不是一堆脏乱差的原始数据。
1、数据库数据
数据库数据这里就不细讲了,我们只要知道数据库中的数据都有哪些就行了,比如业务数据、日志数据之类的。
2、数据场景
很多人都问我为什么看资料看的好好的,一到实际业务场景中都歇菜了?
这是因为在实际业务分析中,我们分析的不是数据,而是场景。那我们怎么根据场景找数据呢?最重要的方法是建立分析指标体系:
我很喜欢用点线面体的定义来解释指标体系,如果用点线面来解释,搭建分析指标体系就是分析整个“体”,将分析框架的体系化,明确每个点都是什么指标,任何一个分析路径都能对应到指标。
指标体系搭建一般都是要放在数据提取之前做的工作,方便我们这一步的数据清洗。以电商为例,我们在取数前遵循“人货场”的思维逻辑,这就是我们的体,我们的大体指标框架。然后我们要找人货场各自的业务逻辑,也就是场景,电商常用的业务分析场景有哪些呢?无非就是销售、商品、渠道、竞品、会员等等,这就是我们的面。而商品可进一步细分为商品的库存、商品的利润以及关联销售分析,这就是线和点。
总结起来就是,在整个业务分析体系中,确保先分析什么,后分析什么,从体及线,从线及点,有了点,我们就知道该需要什么数据了。
3、清洗数据
数据分析工作里数据清洗基本上比较占时间,包括脏数据的排除、重复数据检索、无效数据等等,如果你的数据源比较混乱,那么还需要筛选数据指标、整合核心数据等等工作,总体来说比较耗费精力。
最后要注意一点,很多人喜欢采集大数据,认为数据越多越好,不管什么规则、质量好坏,这是不对的,我们在进行数据获取的时候,一定要保证我们数据的质量,避免脏乱差数据。
四、分析手段
这里就是我们狭义上所说的数据分析了,根据实际场景需要可以分为四种:描述分析、统计分析、挖掘分析、建模分析
1、描述分析
其实就是数据分析思维,其实业务很喜欢让你做描述性的分析,因为不会用到算法之类的东西,业务能看得懂,就能跟你扯皮。
描述分析包括:
对比、细分、趋势等三大基础思维
结构化、演绎推理、假设等常用分析思维
指标思维、系统思维等常用业务思维
2、数理分析
数理分析,基本要用到一些数理统计学基础的分析方法,比如:
分类分析
聚类分析
相似分析
假设检验分析
回归分析
...........
3、建模分析
第三个是建模分析,也就是数据分析模型,常见的一些我们都会讲到:
波士顿模型
ABtest模型
RFM模型
购物篮模型
............
4、挖掘分析
最后就是挖掘分析,基于我们的一些数据分析和挖掘工具,比如常用的excel和python、BI等,这里不多做介绍。
五、业务价值
最后一个关键词是“业务价值”,这是数据分析最核心也是最终的目的
企业是做什么的呢?企业的作用是向市场提供产品或服务,为客户创造价值。那我们数据分析就是为企业提供服务和产品,为企业创造价值。
价值体现在两点:
一是将盈利时间拉长,一是将单位时间内盈利量做大。
第一点,需创造的价值让越来越多的客户知道并认可,获得用户粘性,从而实现持续增长,其实就是用户体验;第二点,需提高企业创造价值的效率。
所以我们要做的数据分析也要跟紧紧贴合这两个点,这就要求我们在进行数据分析最后一步——数据可视化、数据报告等等时,要紧紧贴合业务,给领导或者业务最想看的数据,这也是一门学问。
转载自网络 不用于商业宣传 版权归原作者所有,侵权删。
领取专属 10元无门槛券
私享最新 技术干货