首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从数学的角度解释只需一勺就知道整锅汤味道如何的原因

终于要学习推断统计学啦!推断统计和品尝味噌汤是一个道理。不论是谁,放好作料后,都会用汤勺等工具舀一小勺尝尝味道如何。通过这种方法判断汤的问题,前提是汤勺舀起的那部分汤,味道要与整锅汤的味道相似,这样尝味道才有意义‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

在统计学中,所有数据“没有集中偏向某一方”的分布叫作正态分布(超出初中数学范围)。

全数调查与抽样调查

首先我们来整理一下下列词汇的意思。

全数调查

对需要调查的对象进行逐个调查

(例)人口普查、健康诊断

抽样调查

调查总体的一部分,从而推测出总体的状况

(例)民意调查、收视率、家电茶品的耐久检查

·总体:在抽样调查中,作为调查对象的总体

·样本:在抽样调查中,从总体中抽取的部分

·样本的容量:样本的个数

其实,初中数学的内容到这里已经结束了,但如果就此打住,大家就不会明白为什么通过抽样调查能推测出整体状况了,所以我想给各位成年人读者讲解一下后面的知识。

不过,这些内容不属于初中数学范围,所以没有兴趣的读者可以跳过。

正态分布(超出初中数学范围)

之所以会通过样本了解总体,是因为我们了解的正态分布是比较常见的分布状况。正态分布是指,生物的身高、工厂里出现不良品的频率等数据的柱状图中出现的山形分布。

在调查硬币出现正面的次数时,有人发现了这个规律,扔硬币的次数越多,柱状图的形状就越容易确定下来。对于不可预测的现象,只要采用大量的数据,柱状图就会呈现出“美丽的山形”,数学家柯尔莫哥洛夫在20世纪初做出了证明(中心极限定理)。

之前看到的柱状图都是柱形图,如果将组段的幅度压缩到最小,那么图像就是一条平滑的曲线,此时正态分布可以用下面这个复杂的式子表示。

x是数据的值,σ是标准差,μ是平均值,e是自然对数的底数(常数2.71828……)。

但是,当平均值(μ)为0,标准差(σ)为1时,

如此一来,式子就变得简单多了,图像如下,线条是不是很优美?这种分布就叫作标准正态分布。

看到这里你是不是看不下去了?请放心!为了让更多人能够利用统计,复杂的计算都是由专家们完成的,因此,我们无需掌握上述函数的计算方法。

目前,我们已经对标准正态分布有了一定的认识,这就够了。

标准正态分布的特征

所有数据的95%处在-1.96≤x≤1.96区间。

本应是柱状图的正态分布图的面积,之所以可以从概率的角度思考,是因为各个数据都是“一样的”。在标准正态分布和其他概率密度函数(柱状图中的组段幅度缩小到极限后的曲线式子)中,

面积=比例=概率

这个关系式是成立的。

这就是原因!因为我们认识到这一点,所以才会只依靠样品就做出判断。或许有人会提出疑问:

“可是,数据即便是正态分布,也未必是标准正态分布吧?”

能提出这种疑问的人,真的是相当敏锐啊!确实,一般的正态分布不是标准正态分布,但是,我们可以通过简单的计算,将一般的正态分布改成标准正态分布(平均值为0,标准差为1的正态分布)。

我们来试一下吧。

假设有个数据集X。

之后的2页都是算式的罗列,请忍耐一下。不过,如果你能认真读完并理解这2页的算式,那么你的计算能力就是高中级别了。

假设X=

先计算X的平均值μ,

从X的各个数据中减掉μ,得出一个数据集Y。

Y=X-μ={-20、-10、0、10、20}

Y的平均值μ就是,

从数据X中减掉它的平均值后得到数据Y,这时数据Y的平均值为0。

接下来,我们用算式证明一下。

接下来计算数据X的标准差σ,

现在设Y除以σ后得到的数据集为Z。

因为Y的平均值为0,所以要注意Z的平均值也为0,然后求出Z的标准差σ,

标准差为1!也就是说Z是平均值为0,标准差为1的数据集!

数据集X的平均值为μ,标准差为σ时,

Z就是平均值为0,标准差为1的数据集!

这个我也证明一下吧。

值得高兴的是,正态分布的数据都可以变形成标准正态分布,所以在各种各样的数据集之中,都能使用标准正态分布的性质。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191026A03BQJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券