数据分析是指运用适当的方法和技巧对数据(一般数据量较大)进行分析,从看似杂乱无序或毫无关联的数据中挖掘出有价值的信息,总结出隐藏在数据背后的规律。
概括地说,数据分析就是通过分析手段将原始数据提炼成有价值的信息。数据分析一般是带有目的性的,它可能是为了制订解決方案或研究某个对象,也可能是为了预测事物的发展趋势。因此,要有针对性地分析数据、提炼信息,因为分析相同的数据如果目的不同,得到的信息也可能会大不相同。数据分析只有与实际问题相结合,才能体现出自身的价值。
数据分析并不是毫无章法的,如果遵循一定的流程,可以提高工作效率,也能降低出错的概率。数据分析的整个流程大致可以分为5个相对独立又相互关联的阶段:明确需求、数据收集、数据处理、数据分析和数据展示。下面简单介绍各个阶段。
01 明确需求
数据分析不是无目的性的,否则在面对大量数据时我们会无从人手。只有明确需求,清楚我们想知道什么,才能有针对性地分析数据。明确需求和目标,可以帮助我们在后续的分析流程中选择适当的方法。对于需求本身,要定义它的范围,太宽泛则会导致收集数据时没有导向性,分析结果也会散乱且没有重点。
数据收集指的是根据定义的范围和明确的目标,收集相关数据。通常要先提出需求,定义了分析范围后,再收集数据,否则没有边界会导致收集大量无效数据。收集的数据可以是一手数据,如企业内部的销售数据、实验室的试验结果;也可以是二手数据,如第三方机构发布的权威数据、利用爬虫技术获取的网络数据。根据收集方式的不同,数据收集又可分为线下收集和线上收集。数据收集为数据分析提供输人和素材,做好收集工作才能为数据分析打下坚实的基础。
从不同渠道收集到的原始数据在大部分情况下都比较粗糙,无法直接拿来分析。因此,在进行数据分析之前需要对数据进行二次加工,降低原始数据的复杂度,清除干扰项,把数据处理成合适的形式和结构。这就好比制作一份佳肴之前,我们可能需要清洗食材、加工食材。数据处理包括数据过滤、数据筛选、数据清理、缺失数据填补、类型转换、数据排序等。
这个阶段包括分析和挖掘:数据分析侧重于观察和描述数据本身的特征,通常依赖数据分析人员的个人经验和对业务的熟悉程度;数据挖掘侧重于知识发现,挖掘数据背后更深层次的规律,通常需要建立数学模型。
其实,整个数据分析的流程与烹饪有很多相似的地方。制作一道菜品,需要先了解品尝者的口味 (明确需求),再购买食材(数据收集)、准备食材(数据处理)。数据分析则是最后烹制的过程,煎炸蒸煮,哪种是最合适的烹任手段也同样是在数据分析中需要考虑的问题。因此,基于淮备好的数据,我们要结合实际业务使用合理的策略和方法去分析数据的特征,选择怡当的模型去挖掘数据背后的信息。
数据展示是将最终分析的结果以更直观、易懂的方式呈现出来,呈现方式可以是根告、报表、图表,甚至是更生动的动态演示。是否需要数据展示,主要根据项目需求而定,它并不是必要的阶段。
描述性统计分析是比较基础的数据分析,主要是对目标数据集进行统计性描述。描达性统计分析通过统计指标描述数据的特征,主要包括数据的平均数、数据的分布、数据的集中趋势、数据的离散度等。
推断性统计分析是根据样本数据推断总体的特征,并对总体特征进行估计、检验和分析。推断性统计分析是经典的统计分析方法,常用于探索数据背后所呈现的规律。通过分析样本数据,可以推断总体的很多数据特征,如推断数据分布,检验总体是否服从正态分布;分析样本数据的多个特征属性,判断属性之间的关联性;通过比较样本数据之间的差异,推测总体受外部因素影响的变化规律。
探索性统计分析也是一种挖掘数据内在规律的分析方法,但更具有探索性。不同于推断性统计分析,探索性统计分析是在尽量少的先验假设下,通过数据分析探索数据背后的模式或规律。在实际应用中,很多数据并不符合假设的统计模型分布,从先假设再分析得出的结果中往往挖掘不到有意义的信息。探索性统计分析则更侧重于 用数据本身解释隐藏在背后的真相,通过数据可视化、制表或拟合等手段去观察和发现数据的特征及其内在联系。
探索性统计分析在实际生活中的应用较广泛,例如调查男性和女性在商品购买习惯方面的差异、探讨泳衣阻力与游泳成绩之间的关系等。数据分析中有一个经典的成功案例——啤酒与尿不湿的故事,这个故事将看似亳无关联的啤酒与尿不湿通过数据分析联系在一起。探索性统计分析就是拥有这样的魔力,可以探索和挖掘不易被察觉的规律和内在联系。
随着科学计算的不断发展,越来越多的数据分析方法被提出来,如何选择合适的方法则是数据分析人员需要不断去学习的。本节我们介绍几种常用的数据分析方法。
公式拆解法是指对某一指标用公式层层拆解并分析其影响因素。公式拆解法借助公式的形式,对影响指标的因素层层抽丝剥茧,最终找出核心问题的所在。使用公式拆解法时,需要先确定表明问题的关键指标,然后层层拆解。如分析某游戏产品利润低的原因,过程如下。
通过这样层层深挖,我们最终可以找到核心间题是什么,从而进一步制订解决问题的方案。例如上面的例子,假设是平台 A 本身的问题导致老用户流失,那么可以考虑使用新的促销手段吸引更多的新用户。
对此分析法是指通过对比两组或多组数据来直观地体现事物的差异或变化,这是一种很常见的分析方法。对比分析法首先要根据问题确定对比的指标,例如分析一款软件在计算机和手机上的注册用户情况,可以比较注册用户数量的差异,也可以分析注册转化率(注册用户数量 - 下载用户数量)的差异。对比的方式大致可以分为横向对比和纵向对比横向对比通常是在同一范国内比较不同的事物,例如比较同一时期内某产品在不同销售渠道的销售占比:纵向对比通常是比较同一事物在不同范围的变化,例如分析某产品一年内每月销售额的变化,类似于 “与自己比”。
AB测试分析法是在软件测试中常用的对比分析法,主要用于比较 A 和B两组对象在差异性上所呈现的不同效果。例如,某音乐软件在测试阶段发布了不同的用户交互界面,通过AB测试分析法推断哪种界面设计能够提高转发和评论数量。
预测分析法是指基于已知的数据对未知事物或事物在未来的发展趋势做出估计和测算,即用已知预测未知。这种方法常被用在一些特定领域里。例如,根据历年传染病的感染人数,结合实际情况制作流行病的传播模型,预测当下传染病在将来的传播情况,从而提前制订传染病防控策略;根据历史的股票涨跌数据,预测当前股市的趋势,降低投资风险;通过用户的音乐播放历史清单,推测用户的喜好,从而推荐用户可能喜欢的音乐作品。
预测分析法根据预测方式大致分为两种:一种是基于时间序列的预测,基于历史数据预测未来的趋势;另一种是相关性预测,预测变量之间的关联性和因果关系,是一种回归类预测,常见于推荐系统。
漏斗分析法是一套流程式数据分析方法,侧重于分析事件在关键环节上的转化率。在互联网行业中,漏斗分析法被普遍用于用户行为分析和流量监控,反映各个阶段用户的流失和留存情况。以电商为例,用户购买商品要经过登录首页、浏览商品详情、加人购物车、进人支付顶面、支付成功共:5个阶段,每个阶段都可能有用户流失,形成倒三角的漏斗模型。
基于漏斗模型,我们可以进一步分析每个阶段用户流失的原因,并根据分析结果做出洪策。例如,分析用户进人支付页面但最终不选择支付的原因,可能是优惠力度不够,或是用户惯用的支付方式不支持,也可能是账户余额不足等其他原因。只有了解了用户流失的原因,才能做出应对策路,从而提高用户转化率。
象限分析法是指以两个或多个维度为坐标洋划分出不同象限,不同象限表示不同的价值导向。象限分析法是典型的策路驱区动思维,常见于市场分析、产品分析、客户管理等。
例如,下图所示为一个购物平台分析客户群体的例子,通过页面点击率和购买转化率两个维度来刻画客户群像。通过划分象限,可以了解购物平台的主要客户群体,也可以针对客户特点施行不同的促销活动和商品推荐。