在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。
本文通过数据分析师的角度,来讲解下分析师所需要掌握的基础。统计从整体上分为描述统计和推断统计,描述统计主要通过图表、数值的方式帮助我们理解数据并发现规律;而统计推断则是通过样本特征推断总体特征,推断分为参数估计、假设检验和回归分析。其中样本来源于抽样,假设检验方法来源于抽样分布。
除了掌握统计基础外,还需要一定的概率基础。最主要的就是随机变量的概率分布和中心极限定理,这也是统计推断的理论基础。整体的知识点如下:

统计基础
描述统计是数据分析使用最多的,常用于探索性数据分析(EDA)。

;加权平均

;几何平均


,总体方差为:


,总体标准差为:


算术平均数>中位数>众数,即大多数据堆积在左侧,而右侧存在极大值,因此使得众数靠左,均值靠右。
表示观测值

与样本均值

有

倍标准差。

的数据与均值在

个标准差内

原则进行判断
两个随机变量的线性关系,可以通过协方差

或者

相关系数进行度量。日常以相关系数使用

较多,

绝对值越大,相关性越强,正号表示正相关,负号表示负相关。
实际生活中,总体数据是无法全部获得的,常常需要根据样本数据去推断,因此统计推断的前提就是科学地进行抽样获取样本。样本数据可以估计总体的特征统计量,也可以用来验证假设,还可以通过回归进行预测。这些推断的基础都是基于中心极限定理和随机变量的概率分布。
常见的抽样方法有简单随机抽样、系统随机抽样、分层抽样和整群抽样,最常用的是简单随机抽样。





然而实际上,不会进行多次的抽样操作,往往只会一次抽样,因此就需要根据一次抽样的样本数据估计总体。

,所以可以直接用样本均值估计总体均值 抽样标准误(样本均值标准差):

,总体标准差未知情况下可以用样本方差代替 样本均值的抽样分布:由中心极限定理,当样本量较大(统计上大于30),样本均值的抽样分布近似于正态分布

;当总体方差未知时:

,其中

确定样本容量:当指定了边际误差为E时,则有

,可得到

总体比率与样本均值存在差异

,所以可以直接用样本比例估计总体比例 抽样标准误:


边际误差 区间:

确定样本容量:当指定了边际误差为E时,

一般将自己想要证明的假设作为备择假设,与之互斥的作为原假设
第一类错误为拒真,第二类错误为存伪
日常需要控制第一类错误的概率

为5%,常称为显著性水平。第二类错误的概率

为20%,而统计功效为

一般需要根据假设角度确定是单尾还是双尾检验,通过样本的比较情况确定是单样本、独立双样本、配对双样本还是多样本检验,最后根据数据特征选择检验统计量,采取t检验、z检验、方差分析还是卡方分析。
对于总体均值而言:

) 左尾检验:

右尾检验:

双尾检验:


与

独立双样本检验:

与

配对样本检验:

:

,其中

为配对样本的均值,

为配对样本数据 多样本检验:

与

与

等 :


总体标准差未知的单样本检验:t检验

总体标准差已知的独立双样本检验:z检验

,其中

为常数值,日常一般设为0 总体标准差未知的独立双样本检验:t检验

总体比率与总体均值存在差异

) 左尾检验:

右尾检验:

双尾检验:


与

:

独立双样本检验:

与

:

多样本检验:

与

与

等 :

常用的决策方式有p值法、检验统计量与临界值比较法、置信区间法。日常使用的就是p值法和置信区间法。
一元回归是回归的基础,在满足基本假设的前提下用最小二乘法估计参数。判决系数衡量拟合效果,显著性检验衡量自变量是否影响因变量,当自变量通过显著性检验后,得到一元回归方程就可以进行预测了。通过残差分析辅助验证回归方程的可靠性。
多元回归是一元回归的扩展,多元回归的基本假设有所增加
一次随机试验产生一次基本事件,由于该事件的结果是随机的,又称为随机事件,所有随机事件的组合即为样本空间。
将随机事件映射到数字空间,则称为随机变量。在多次试验后,每个X的频率趋于稳定,则将频率记作概率。

数学期望:

方差:

二项分布:

概率函数:

数学期望:

方差:

几何分布:

概率函数:

数学期望:

方差:

泊松分布:

概率函数:

数学期望:

方差:

多项分布:

概率函数:

数学期望:

方差:


概率函数:

数学期望:

方差:

指数分布:

概率函数:

数学期望:

方差:

伽马分布:

概率函数:

,其中

为形状参数
,

为尺度参数 数学期望:

方差:

高斯分布/正态分布:

概率函数:

数学期望:

方差:

例如正常抛硬币试验,抛硬币的所有结果只能为正反。即样本空间为{ 正面,反面 };如果抛一次硬币(一次随机试验),其结果为正面(随机事件),将该结果记为1。再抛一次硬币,其结果为反面,将该结果记为2。因此该抛硬币的结果设为随机变量X,X的结果可能为1或者2,多次试验后,X的分布服从二项分布,所以X=1的概率为0.5。
给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本(统计上大于30),重复 m 次,分别求出这m次的样本平均值。这些样本平均值的分布近似正态分布。
中心极限定理可用于估算抽样标准误:

在日常分析工作中,描述统计常用于探索性数据分析(EDA),概率分布常用于模拟数据,假设检验常用于AB试验。
共勉~