前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何通俗地解释「置信区间」和「置信水平」?

如何通俗地解释「置信区间」和「置信水平」?

作者头像
猴子数据分析
发布2024-03-25 11:05:39
8300
发布2024-03-25 11:05:39
举报
文章被收录于专栏:猴子数据分析猴子数据分析

从下面几个方面系统聊下这个问题:

1.为什么需要置信区间?

2.什么是置信区间和置信水平?

3.如何计算置信区间?

1.为什么需要置信区间?

历史上最早的科学家曾经不承认实验可以有误差,认为所有的测量都必须是精确的,把任何误差都归于错误。后来人们才慢慢意识到误差永远存在,而且不可避免。即使实验条件再精确也无法完全避免随机干扰的影响,所以做科学实验往往要测量多次,用取平均值之类的统计手段去得出结果。

多次测量,是一个排除偶然因素的好办法。国足输掉比赛之后经常抱怨偶然因素,有时候是因为裁判不公,有时候是因为主力不在,有时候是因为不适应客场气候,关键是如果你经常输球,我们还是可以得出你是个弱队的结论。

而国际足联的世界排名,是根据各国球队多次比赛的成绩采用加权平均的办法统计出来的,这个排名比一两次比赛的胜负,甚至世界杯赛的名次更能说明球队的实力。但即便如此,我们也不能说国际足联的排名就是各个球队的“真实实力”。这是因为各队毕竟只进行了有限次数的比赛,再好的统计手段,也不可能把所有的偶然因素全部排出。

所以,在科学实验中总是会在测量结果上加一个误差范围。比如经过测量马云的智商是100,测量误差是±5。

这句话的意思是说,马云智商是100,但其中有正负5的统计误差,所以马云的智商范围就是[100-5,100+5]这么一个范围。

真实的智商值当然只有一个,但是这个数是多少,我们不知道,它可以是这个误差范围内的任何一个数字。

考试成绩也如此,假设一个同学考了两次才过英语四级,第一次53分,第二次63分。他说这是略有进步,我说你这不叫进步,叫都在测量误差范围之内。

在股票市场经常会看到有人为了短期的股价上涨而兴奋不已,却又对短期的股价下跌彻夜难眠。其实这都是因为不理解误差范围导致的。

想想,如果这些人真的具备了误差的概率,就会忽略误差范围内的任何波动。如果你投资的这家公司在未来10年有足够的成长空间,那么你就会忽略掉这10年期间它股价暂时的波动,因为你看到的是长期,只要长期在你预期的误差范围内就可以接受。

这里的误差范围(区间)在统计概率中就叫做置信区间。简单来说,置信区间就是误差范围。

2.什么是置信区间和置信水平?

在之前我在“统计概率”的课程中有讲到过到如何用样本估计总体。同学就问了我一个问题:在抽样调查中,样本能在多大程度上代表总体?有没有公式来表示?

其实这个问题的本质就是想知道数据统计的误差范围是多少。在统计概率中有个专门的名称来表示误差范围,叫置信区间。

比如我用一定量的样本数据估计出全体知乎用户的平均年龄为28岁。

如果你收集了另外一组样本,其平均年龄为35岁,是否能判断我前面的估计是错误的呢?

因为我们没办法知道总体平均数的真实数值,所以,我们需要给出一个误差范围来描述这个估计的准确程度。

如果你已经知道什么是中心极限定理(怎样理解和区分中心极限定理与大数定律?),就会知道:样本围绕在总体平均值周围呈现正态分布。所以下图中中间红色线是总体平均值。

(如果不懂正态分布,看这里:怎样用通俗易懂的文字解释正态分布及其意义?)

我们用中括号[a,b]表示样本估计总体平均值的误差范围的区间,由于a和b的确切数值取决于你希望自己对于“该区间包含总体均值”这一结果具有的可信程度,因此,[a,b]被称为置信区间。

同时,我们选择这个置信区间,目的是为了为了让“a和b之间包含总体平均值”这一结果具有特定的概率,这个概率就是置信水平。

假设我设定的置信水平是95%,也就是说如果我做100次抽样,会有95个置信区间包含了总体平均值。

3.大样本如何计算置信区间?

当样本大小n小于30时,通常被认为是小样本。其实,任何的统计概率知识都没有那么高大上,同样的,计算置信区间也是一种套路。如果你学会学会下面我介绍的计算置信区间的4个步骤,你也可以轻松计算出置信水平。

第1步:确定要求解的问题是什么

比如我们想要通过样本来估计总体的平均值

第2步:求样本的平均值和标准误差

第3步:确定置信水平

常用的置信水平是95%,因为这样可以保证样本的平均值会落在总体平均值2个标准误差范围内。

查找z表格,求z值。如果你的置信水平是图中的95%,可以直接获取到对应的z值

第4步:计算置信区间

a=样本平均值 - z*标准误差

b=样本平均值 + z*标准误差

下面我们通过一个案例看下如何应用这4步。

第1步:确定要求解的问题是什么

国务院2010年颁布的《全国人口普查条例》规定,人口普查每10年进行一次,位数逢0的年份为普查年度,在两次人口普查之间开展一次较大规模的人口调查,也就是1%人口抽样调查,又称为“小普查”。全国调查的样本量约占全国总人口的1%左右。

假设我是这次调查报告的数据分析师,想知道全国成年男性的平均身高,我们不可能把每个人的数据收集到。所以只能通过样本的信息来估计总体的信息。

为了后面计算方便演示,假设我们收集的样本大小是100人。

第2步:求样本的平均值和标准误差

当样本大小大于30时,抽取的样本符合中心极限定理,也就是抽样分布是正态分布。我们这个案例里的样本大小大于30。下面图片看下抽取的样本信息。

样本的平均值是167.1cm,标准差是0.2。

当我兴高采烈的把这个结果告诉我的老板,老板问我:你这个样本数据在多大程度上可以代表总体呢?

幸好,我学过统计概率中的置信区间,领导,这是让我给出误差范围呢。怎么办呢?

我需要先算出样本的标准误差。

标准误差SE等于样本标准差除以样本大小n的开方。这里使用样本标准差s来估计总体标准差

总体标准差我们是不知道,但是我们可以用样本来估计出总体标准差,也就是我们这里的样本标准差,最后算出标准误差等于0.02cm

第3步:确定置信水平

那么由谁来决定置信水平?多大的置信水平才合适?

答案完全取决于你的具体情况以及你需要对“区间中包含总体平均值”这一说法有多大信心。

关键是记住一点:置信水平越高,区间越宽,置信区间包含总体平均值统计量的概率越大。

常用的置信水平是95%。其实,这个数字并不是必然的,而是人为设定的。

那么置信区间为什么通常是95%呢?

上面图中是我们在《抽样分布》课程中讲到中心极限定理的抽样分布图。横轴是样本平均值从小到大

根据中心极限定理,我们知道不管总体是什么分布,任意一个样本的平均值都会围绕在总体的平均值周围,并且呈正态分布。所以图中的中间位置红色竖线是总体平均值。

根据正态分布的特异功能,也叫做经验法则,我们知道有95%的样本平均值会落在2个标准误差范围内,这也是为什么会选择95%作为置信区间的原因。

第4步:求出置信区间上下限的值

现在我们来求置信区间[a,b]的上限a和下限b的值。a和b对称分布在中间红线的两端。

我们如果能计算出a离总体平均值多少个标准误差,那么我们就可以知道a的值了。为什么这么说呢?

假设a离总体平均值2个标准误差,那么a=总体平均值-2个标准误差

同样的,根据根据正态分布的对称性,我们就可以知道b的值,也就是b=总体平均值+2个标准误差。

这里距离平均值几个标准误差,就是我们之前课程中讲过的标准分。

所以,现在问题变的很简单了,只要我们求出a对应的标准分是多少就可以了。

我们用Z来表示标准分。

下面我们看下如何计算出标准分z的值。

现在我们知道,图中阴影部分,也就是置信区间a和b包括的概率是置信水平95%,

由于整个抽样分布曲线的概率和是1,所以我们可以知道上面图中两块红色区域的概率相加是1-95%=5%,而两端是对称的,所以每块红色区域的概率是2.5%

也就是概率p(Z<Za)=2.5%,现在知道概率了,我们可以根据z表格来查询获取到对应标准分z的值。

下面图片我们一起看下如何用z表格求标准分z。

z表格也叫标准正态分布表,它是标准正态分布中,标准分与概率数值的对应关系表。这个表格就是在我们知道标准分的情况下,可以快速查找到对应的概率值。

同样的反过来,我们知道概率值,也可以查找到对应的标准分z是多少。

现在我们已经知道了概率值是2.5%,那么就是查找对应的标准分z是多少。

在表格中我们查找到概率值2.5%对应的最左边第一列的值是-1.9,对应的最上边第一行的值是0.06。

根据Z表格,z数值的第一位小数值在表格最左边的第一列。z数值的第2位小数值在表格的第一行。

所以z=-1.96。

现在标准分z有了,下面图片我们就可以计算出置信区间a和b的值了。

z=-1.96表示距离总体平均值左边1.96个标准误差,所以是负数。

而b在总体平均值右边,所以z是正数,也是1.96个标准误差。

所以,这里的z就是1.96

a=总体平均值-1.96*标准误差

b=总体平均值+1.96*标准误差

而之前我们已经求得标准误差,那么总体平均值是多少呢?

根据中心极限定理,样本平均值约等于总体平均值,所以我们可以得到下面图片中置信区间的一般表达方式。

4. 一句话总结前面的知识

如果你看统计概率方面的书,很多书中也会有讲T分布下的置信区间计算,也就是当样本数量小于30时,样本分布符合T分布。这里我不准备聊这个知识,因为太多会让你大脑内存溢出。

你只需要记住有这么个T分布,当你拿到的数据样本不足30时,才会用到它。

大部分情况下,我们是可以获取到大于30的样本,这时候样本平均值是符合正态分布的,用我聊的步骤来计算就可以了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 猴子数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档