原创内容
No.784
求职指南 | 数分基本功:统计学-数据的收集
想让一个数分面试官抓狂很简单,告诉他你不知道什么是正态分布就够了。

图片由夸克AI绘制
想让一个数分面试官奔溃有多简单:

上一期内容中,我简单介绍了一些统计学的入门级的基知识。有多基础呢,统计学课本的第一章节这种程度的基础吧。接下来我们要上一点难度了,来讲讲一般统计学教材的第二章,数据的收集。
所有的统计数据追踪其初始来源,都是来自调查或者实验。从使用者的角度来看,统计数据主要来自两条渠道:间接来源和直接来源。
如果数据已经存在,我们只是对数据进行二次加工这种情况就是间接来源的数据,比如统计年鉴、行业协会报告等,这种数据收集起来相对容易,采集成本也偏低,但是这种数据会有一个弊端,那就是资料的相关性可能不够,口径可能不一致,数据也许不准确等。很多时候,仅靠二手的数据资料还不足以支持我们分析和得出结论,这种时候我们就需要搞一点一手的数据了。如果是通过调查的方法获得的数据就是调查数据,而通过实验方法得到的数据则被称为实验数据。
一般情况下,关于社会现象相关的数据通过调查得到的,而关于自然现象相关的数据是通过实验的方法得到的。
请各位老司机动动小脑瓜想一想,企业CRM系统里的数据是一手数据还是二手数据呢?
通常情况下,企业CRM系统中的数据是由企业自己收集、生成和维护的数据,用于特定的业务目的,具有原始性、直接性和可控性。按照统计学的分类,我们称为之一手数据。
对于企业内部经营管理状况分析这种课题而言,企业可以很有自信地说,我们系统里的数据就是全量数据,但是对于外部市场竞争这样的课题来说,CRM中有的数据只是茫茫人海中的沧海一粟。
虽然数据分析师日常接触到的数据多以内部系统自有的一手数据居多,但偶尔也有需要我们去收集数据的场景:比如发个问卷了解一下市场对新产品的反馈。
很多时候,这种涉及了一点抽样的项目没有得到一个符合预期的结果都是因为在一开始进行设计的时候没有一个统计学比较好的人参与其中。别看了,说得就是你。数据分析师在这种项目中最合适的角色就是发挥自己的专业能力,把控好项目的统计学原理底线,让项目的结论更加科学。
我们都知道,当样本总体过大的时候,收集数据本身就是一件有意思的事情,如何抽选一个合适的样本对于最后的结论有着至关重要的意义。如果研究顾客的满意度,样本就应该来自于已经购买了的用户;如果要了解消费者对于产品的购买意愿,样本就应该从市场上找。
在数据采集阶段,统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的,对某一个研究课题而言可能是好的样本,但是对另一个课题而言可能就不是好样本。所以,进行什么样的抽样设计首先取决于研究目的,一般来说,我们把抽样的具方式分类为概率论抽样和非概率抽样。
且不论几种抽样方式之间差别细节,我们先来聊聊大方向上的选择。
首先明确一点,数据收集是有成本的,并且这笔收集的费用还价格不菲,哪怕是企业搭建CRM系统这种时现在看来几乎是标配的操作也是需要不菲的成本的。不管是内部数据收集还是外部数据收集,我们往往需要衡量一下数据质量和成本之间的关系:在研究的过程中 ,有的问题对于样本的精度要求很高,有的问题则对数据质量没有那么高的要求。
加工汽车零件时对零件精度的要求和加工香肠时的要求就有着非常大的差别,对于统计股票投资收益率时的数据精确度的要求和统计电视节目的收视率时对于数据准确性的要求也有着天差地别的差异。因此在选择数据收集方案的时候,我们要做得第一件事就是去做一个性价比最高的方案。
选择哪种抽样方法取决于研究目的、总体的特性、资源的可用性以及研究结果的预期用途。既然我们数据分析师需要做一个性价比最高的数据收集方案(顺便说一句,在CRM系统中加一个字段也是一种数据收集方案哦)出来,那么我们就必须要知道每种数据收集方案之间的差异是什么,优势和成本都分别是什么样的。
概率抽样是指每个样本单位都有已知且非零的概率被选中的抽样方法。非概率抽样是指样本单位被选中的概率未知或某些单位被选中的概率为零的抽样方法。
概率抽样一般适用于这样的情况:
非概率抽样则是适用于这样的情况:
对于一般的企业经营分析来说,概率抽样可能反而用得少一些,一般都去找专门的咨询公司去处理了,非概率抽样的用得倒是有点多。
举个例子,我曾经有一段工作经历在做算法质量的优化,对于这样的项目,我其实需要知道真值是多少,再根据真值去找到算法的弱点。这种情况下,随机抽样就不是很符合我的需求——耗费的时间和成本太大的。我指定的方案是根据一些用户反馈的case,大致总结一下这类case的特征,在抽样的时候有倾向性地去抽取含有这类特征的case作为样本进行研究。这种类似的场景在各位数据分析师的职业生涯中是非常常见的,用行话来说,叫做目的抽样。
不管是概率抽样还是非概率抽样,其实都有很多更细分的方法。概率抽样有下面四种常见的方法:
非概率抽样也是类似,有下面几种方法:

虽然我们从学术研究或者专业课学习的层面上来说,概率抽样是比较多的,但是在真实世界实操的时候,我们采用非概率抽样才是更大概率的选择。很多从业很久的数据分析师会表示统计学好像在实操的过程中应用不多,但其实并不是用得不多,而是我们学习的重点并不是真实世界中常用的做法。
当然,除了抽样问卷的方法,实验的方法也是很常用的一种方法,比如互联网公司数据分析面试必问的一题——AB Test。
实验不仅是一种数据收集的方法,更是一种研究的思路。实验法的基本逻辑是:有意识地改变某个变量A的情况,然后看另一个变量B变化的情况,如果B随着A项的变化而变化,就可以说明A项目对B有影响,负责就是没有影响。一般情况下我们会把研究对象分为两个组,一个是实验组,一个是对照组。通常情况下实验组是随机抽选的实验对象的子集,在实验组中,我们对每个单位做特殊的处理。而在对照组中,我们则不对个体做特殊的处理。
理论上来说实验法逻辑严密,可以很好地证明假设、分析事物的因果关系。但是在实操的过程中,我们往往会遇到很多不可控的因素,比如当研究涉及到人员的时候,我们会受到人员心理因素的影响,甚至一些问题因为道德原因无法进行研究。
此外,虽然我们在做AB test之类的项目的时候会尽可能地去避免其他干扰因素引起的误差,但是实际上和自然科学不同,商业环境复杂多变,很多时候我们根本不知道可能的影响因素是什么,根本做不到控制其他干扰因素的出现。
虽然误差一定会有,但是我们还是可以通过一些手段去进行误差的控制的。
一般我们把误差分为抽样误差和非抽样误差两类。抽样误差是由抽样的随机性引起的误差,非抽样误差则是除抽样误差之外的其他因素引起的误差。
抽样误差的大小与多方面因素有关系,其中最明显的是样本量的大小。换句话说,样本量越大抽样误差越小。在统计学上,我们可以通过公式来计算抽样误差的大小:



对于计划从业数据分析的应届生而言,上面这些公式都是需要记住的。根据我最近做得互联网大厂笔试题来说,这一类题目出现的概率还是蛮高的。对于从业的老司机来说,公式是什么可能就没有那么重要了,不如下面这几个数值重要:

270、384这两个数字对我而言曾经就是工作中必背的两个数字。因为我的第一份工作就涉及了大量的抽样调查方案的制订,每当客户问我样本量怎么选择的时候我都会给出270和384两个数字供客户选择。怎么说呢,一个有零有整的数字会显得我这个咨询顾问非常专业,并且一个真的可以拿出公式的答案也可以说服一些比较较真的用户。虽然实操的时候我们一般推荐用户选择300个样本,因为报价更容易一些。
这个结果的计算公式有兴趣的同学也可以看一下下面这个公式(其实就是上面估计总体比例公式的推导):

其中:
E=0.05(即 5% 的允许误差)
Z 由置信水平决定:
90% 置信水平 → Z=1.645
95% 置信水平 → Z=1.96
99% 置信水平 → Z=2.576
p 为总体比例。若事先未知,取最保守值 p=0.5,此时 p(1−p) 最大,算出的样本量也最大。
非抽样误差就不好解决了。非抽样误差很多时候是由于一些人为操作失误引起的,比如填错了,或者一些比较敏感的问题用户有意识地回避并给出了一个错误的答案这种。
可能很多人在招聘入职的时候填写过一些类似于心理测试的人才测评题目,这些题目中会有一些比较敏感的问题,对于这种问题,我们常常会下意识地去选择那个用人单位比较喜欢的答案。这种误差在心理学上也被叫做社会赞许性偏差,就是一种比较难避免的非抽样误差。
预告:下一期我们会从统计学的视角来讲讲数据的图表展示。