终于要学习推断统计学啦!推断统计和品尝味噌汤是一个道理。不论是谁,放好作料后,都会用汤勺等工具舀一小勺尝尝味道如何。通过这种方法判断汤的问题,前提是汤勺舀起的那部分汤,味道要与整锅汤的味道相似,这样尝味道才有意义。
在统计学中,所有数据“没有集中偏向某一方”的分布叫作正态分布(超出初中数学范围)。
全数调查与抽样调查
首先我们来整理一下下列词汇的意思。
全数调查
对需要调查的对象进行逐个调查
(例)人口普查、健康诊断
抽样调查
调查总体的一部分,从而推测出总体的状况
(例)民意调查、收视率、家电茶品的耐久检查
·总体:在抽样调查中,作为调查对象的总体
·样本:在抽样调查中,从总体中抽取的部分
·样本的容量:样本的个数
其实,初中数学的内容到这里已经结束了,但如果就此打住,大家就不会明白为什么通过抽样调查能推测出整体状况了,所以我想给各位成年人读者讲解一下后面的知识。
不过,这些内容不属于初中数学范围,所以没有兴趣的读者可以跳过。
正态分布(超出初中数学范围)
之所以会通过样本了解总体,是因为我们了解的正态分布是比较常见的分布状况。正态分布是指,生物的身高、工厂里出现不良品的频率等数据的柱状图中出现的山形分布。
在调查硬币出现正面的次数时,有人发现了这个规律,扔硬币的次数越多,柱状图的形状就越容易确定下来。对于不可预测的现象,只要采用大量的数据,柱状图就会呈现出“美丽的山形”,数学家柯尔莫哥洛夫在20世纪初做出了证明(中心极限定理)。
之前看到的柱状图都是柱形图,如果将组段的幅度压缩到最小,那么图像就是一条平滑的曲线,此时正态分布可以用下面这个复杂的式子表示。
x是数据的值,σ是标准差,μ是平均值,e是自然对数的底数(常数2.71828……)。
但是,当平均值(μ)为0,标准差(σ)为1时,
如此一来,式子就变得简单多了,图像如下,线条是不是很优美?这种分布就叫作标准正态分布。
看到这里你是不是看不下去了?请放心!为了让更多人能够利用统计,复杂的计算都是由专家们完成的,因此,我们无需掌握上述函数的计算方法。
目前,我们已经对标准正态分布有了一定的认识,这就够了。
标准正态分布的特征
所有数据的95%处在-1.96≤x≤1.96区间。
本应是柱状图的正态分布图的面积,之所以可以从概率的角度思考,是因为各个数据都是“一样的”。在标准正态分布和其他概率密度函数(柱状图中的组段幅度缩小到极限后的曲线式子)中,
面积=比例=概率
这个关系式是成立的。
这就是原因!因为我们认识到这一点,所以才会只依靠样品就做出判断。或许有人会提出疑问:
“可是,数据即便是正态分布,也未必是标准正态分布吧?”
能提出这种疑问的人,真的是相当敏锐啊!确实,一般的正态分布不是标准正态分布,但是,我们可以通过简单的计算,将一般的正态分布改成标准正态分布(平均值为0,标准差为1的正态分布)。
我们来试一下吧。
假设有个数据集X。
之后的2页都是算式的罗列,请忍耐一下。不过,如果你能认真读完并理解这2页的算式,那么你的计算能力就是高中级别了。
假设X=
先计算X的平均值μ,
从X的各个数据中减掉μ,得出一个数据集Y。
Y=X-μ={-20、-10、0、10、20}
Y的平均值μ就是,
从数据X中减掉它的平均值后得到数据Y,这时数据Y的平均值为0。
接下来,我们用算式证明一下。
接下来计算数据X的标准差σ,
现在设Y除以σ后得到的数据集为Z。
因为Y的平均值为0,所以要注意Z的平均值也为0,然后求出Z的标准差σ,
标准差为1!也就是说Z是平均值为0,标准差为1的数据集!
数据集X的平均值为μ,标准差为σ时,
Z就是平均值为0,标准差为1的数据集!
这个我也证明一下吧。
值得高兴的是,正态分布的数据都可以变形成标准正态分布,所以在各种各样的数据集之中,都能使用标准正态分布的性质。
领取专属 10元无门槛券
私享最新 技术干货