首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >统计系列(一)统计基础

统计系列(一)统计基础

作者头像
HsuHeinrich
发布2023-03-15 16:13:44
发布2023-03-15 16:13:44
1.2K0
举报
文章被收录于专栏:HsuHeinrichHsuHeinrich

统计系列(一)统计基础

在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。

本文通过数据分析师的角度,来讲解下分析师所需要掌握的基础。统计从整体上分为描述统计和推断统计,描述统计主要通过图表、数值的方式帮助我们理解数据并发现规律;而统计推断则是通过样本特征推断总体特征,推断分为参数估计、假设检验和回归分析。其中样本来源于抽样,假设检验方法来源于抽样分布。

除了掌握统计基础外,还需要一定的概率基础。最主要的就是随机变量的概率分布和中心极限定理,这也是统计推断的理论基础。整体的知识点如下:

统计基础

描述统计

描述统计是数据分析使用最多的,常用于探索性数据分析(EDA)。

图表描述

  • 直方图:分为频数分布直方图和频率分布直方图,可以用来直观显示随机变量的分布
  • 条形图:条形图分为柱状图和水平条形图,可以用来直观显示组间差异
  • 饼图:直观地展示各组占总体比例,并显示组间差异,但不宜分组过多
  • 茎叶图:也是显示原始数据分布,但在数分中使用较少
  • 散点图:直观显示两者之间的相关趋势
  • 折线图:直观显示数据的时间趋势
  • 箱线图:常用来显示数据离群点

数值描述

集中趋势
  • 平均值:算数平均

;加权平均

;几何平均

  • 众数:随机变量出现次数最多的结果值
  • 分位数:将数据从小到大排序,等分100份选取指定位置的数则为百分位数,等分四等分取指定位置的数则为四分位数
  • 中位数:中位数是分位数的一种,将数据从小到大排取50%分位的数据
  • 最大值:随机变量最大的结果值
  • 最小值:随机变量最小的结果值
离散程度
  • 极差:最大值-最小值
  • 四分位距:四分位数中的上四分位数(Q3)-下四分位数(Q1)
  • 方差:衡量数据波动的统计量,其中样本方差为:

,总体方差为:

  • 标准差:方差开根号的结果,其中样本标准差为:

,总体标准差为:

  • 变异系数:变异系数没有量纲,可用于比较不同单位的样本间的波动大小。计算方式为:
分布形态
  • 偏度:用来度量随机变量概率分布的不对称性。偏度大于0则右偏,日常中常根据尾巴方向进行判断,尾巴在右则右偏。右偏的数据常表现出算术平均数>中位数>众数,即大多数据堆积在左侧,而右侧存在极大值,因此使得众数靠左,均值靠右。
  • 峰度:用来度量随机变量概率分布的陡峭程度。峰度越大,分布越陡峭,数据越集中,即表现为"瘦高"。
  • z分数:衡量观测值与样本均值的距离,

表示观测值

与样本均值

倍标准差。

  • 切比雪夫定理:对于任何分布,约

的数据与均值在

个标准差内

  • 经验法则:对钟形分布,约 68%的数据与均值的距离在 1 个标准差内;在2,3个标准差内的数据分别约为95%,99%
  • 异常值检测:偏离均值较远的离群点,统计上一般通过五数统计(箱线图)和

原则进行判断

变量相关性

两个随机变量的线性关系,可以通过协方差

或者

相关系数进行度量。日常以相关系数使用

较多,

绝对值越大,相关性越强,正号表示正相关,负号表示负相关。

统计推断

实际生活中,总体数据是无法全部获得的,常常需要根据样本数据去推断,因此统计推断的前提就是科学地进行抽样获取样本。样本数据可以估计总体的特征统计量,也可以用来验证假设,还可以通过回归进行预测。这些推断的基础都是基于中心极限定理和随机变量的概率分布。

抽样

抽样方法

常见的抽样方法有简单随机抽样、系统随机抽样、分层抽样和整群抽样,最常用的是简单随机抽样。

抽样分布
  1. 一次抽样产生一个样本统计量,多次抽样就会产生多个样本统计量,这些统计量的分布就是抽样分布,常作为假设检验的方法。常见的抽样分布有正态分布、t分布、卡方分布、F分布等。例如:

  • 正态分布:总体方差已知,单个总体的样本均值服从正态分布。即
  • t分布:总体方差未知,单个总体的样本均值服从t分布。即
  • 卡方分布:总体均值未知,单个总体的样本方差服从卡方分布。即
  • F分布:总体均值未知,两个总体的方差比服从F分布。即

  1. 当然抽样会造成一定的偏差,即抽样误差,可以通过计算所有样本统计量的标准差得到。即

参数估计

然而实际上,不会进行多次的抽样操作,往往只会一次抽样,因此就需要根据一次抽样的样本数据估计总体。

  1. 点估计 样本均值点估计:由于

,所以可以直接用样本均值估计总体均值 抽样标准误(样本均值标准差):

,总体标准差未知情况下可以用样本方差代替 样本均值的抽样分布:由中心极限定理,当样本量较大(统计上大于30),样本均值的抽样分布近似于正态分布

  1. 区间估计:边际误差 当总体方差已知时:

;当总体方差未知时:

,其中

确定样本容量:当指定了边际误差为E时,则有

,可得到

总体比率与样本均值存在差异

  1. 点估计 样本比例点估计:由于

,所以可以直接用样本比例估计总体比例 抽样标准误:

  1. 区间估计:

边际误差 区间:

确定样本容量:当指定了边际误差为E时,

假设检验

假设

一般将自己想要证明的假设作为备择假设,与之互斥的作为原假设

第一类错误为拒真,第二类错误为存伪

日常需要控制第一类错误的概率

为5%,常称为显著性水平。第二类错误的概率

为20%,而统计功效为

检验

一般需要根据假设角度确定是单尾还是双尾检验,通过样本的比较情况确定是单样本、独立双样本、配对双样本还是多样本检验,最后根据数据特征选择检验统计量,采取t检验、z检验、方差分析还是卡方分析。

对于总体均值而言:

  1. 假设角度(假设单样本检验

) 左尾检验:

右尾检验:

双尾检验:

  1. 样本比较角度 单样本检验:

独立双样本检验:

配对样本检验:

,其中

为配对样本的均值,

为配对样本数据 多样本检验:

等 :

  1. 数据特征 总体标准差已知的单样本检验:z检验

总体标准差未知的单样本检验:t检验

总体标准差已知的独立双样本检验:z检验

,其中

为常数值,日常一般设为0 总体标准差未知的独立双样本检验:t检验

总体比率与总体均值存在差异

  1. 假设角度(假设单样本检验

) 左尾检验:

右尾检验:

双尾检验:

  1. 样本比较角度 单样本检验:

独立双样本检验:

多样本检验:

等 :

决策

常用的决策方式有p值法、检验统计量与临界值比较法、置信区间法。日常使用的就是p值法和置信区间法。

回归分析

一元回归

一元回归是回归的基础,在满足基本假设的前提下用最小二乘法估计参数。判决系数衡量拟合效果,显著性检验衡量自变量是否影响因变量,当自变量通过显著性检验后,得到一元回归方程就可以进行预测了。通过残差分析辅助验证回归方程的可靠性。

多元回归

多元回归是一元回归的扩展,多元回归的基本假设有所增加

概率基础

随机试验

一次随机试验产生一次基本事件,由于该事件的结果是随机的,又称为随机事件,所有随机事件的组合即为样本空间。

随机变量

将随机事件映射到数字空间,则称为随机变量。在多次试验后,每个X的频率趋于稳定,则将频率记作概率。

概率分布
  1. 离散型 伯努利分布:概率函数:

数学期望:

方差:

二项分布:

概率函数:

数学期望:

方差:

几何分布:

概率函数:

数学期望:

方差:

泊松分布:

概率函数:

数学期望:

方差:

多项分布:

概率函数:

数学期望:

方差:

  1. 连续型 均匀分布:

概率函数:

数学期望:

方差:

指数分布:

概率函数:

数学期望:

方差:

伽马分布:

概率函数:

,其中

为形状参数

为尺度参数 数学期望:

方差:

高斯分布/正态分布:

概率函数:

数学期望:

方差:

例如正常抛硬币试验,抛硬币的所有结果只能为正反。即样本空间为{ 正面,反面 };如果抛一次硬币(一次随机试验),其结果为正面(随机事件),将该结果记为1。再抛一次硬币,其结果为反面,将该结果记为2。因此该抛硬币的结果设为随机变量X,X的结果可能为1或者2,多次试验后,X的分布服从二项分布,所以X=1的概率为0.5。

中心极限定理

给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本(统计上大于30),重复 m 次,分别求出这m次的样本平均值。这些样本平均值的分布近似正态分布。

中心极限定理可用于估算抽样标准误:

总结

在日常分析工作中,描述统计常用于探索性数据分析(EDA),概率分布常用于模拟数据,假设检验常用于AB试验。

共勉~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HsuHeinrich 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 统计系列(一)统计基础
    • 描述统计
      • 图表描述
      • 数值描述
    • 统计推断
      • 抽样
      • 假设检验
      • 回归分析
    • 概率基础
      • 随机试验
      • 随机变量
      • 中心极限定理
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档