首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >什么是正态分布?为何如此重要?终于有人讲明白了

什么是正态分布?为何如此重要?终于有人讲明白了

作者头像
IT阅读排行榜
发布于 2019-07-15 08:40:02
发布于 2019-07-15 08:40:02
34.4K04
代码可运行
举报
文章被收录于专栏:华章科技华章科技
运行总次数:4
代码可运行
导读:为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。

机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。

我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。

作者:Farhad Malik

译者:Monanfei

来源:AI科技大本营(ID: rgznai100)

▲1893年人类身高分布图,作者:Alphonse Bertillon

本文的主要内容如下:

  1. 概率分布是什么
  2. 正态分布意味着什么
  3. 正态分布的变量有哪些
  4. 如何使用 Python 来检验数据的分布
  5. 如何使用 Python 参数化生产一个正态分布
  6. 正态分布的问题

01 简短的背景介绍

  1. 首先,正态分布又名高斯分布
  2. 它以数学天才 Carl Friedrich Gauss 命名 正态分布又名高斯分布
  3. 越简单的模型越是常用,因为它们能够被很好的解释和理解。正态分布非常简单,这就是它是如此的常用的原因。 因此,理解正态分布非常有必要。

02 什么是概率分布?

首先介绍一下相关概念。

考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。

  • 如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。
  • 首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。
  • 第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。 事件的概率越大,该事件越容易出现。
  • 在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。
  • 我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。
  • 我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。
  • 一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。
  • 如果将所有概率值求和,那么求和结果将会是100%

世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。

03 初遇正态分布

我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。

如下图所示,为正态分布的概率分布曲线:

理解和估计变量的概率分布非常重要。

下面列出的变量的分布都比较接近正态分布:

  1. 人群的身高
  2. 成年人的血压
  3. 传播中的粒子的位置
  4. 测量误差
  5. 回归中的残差
  6. 人群的鞋码
  7. 一天中雇员回家的总耗时
  8. 教育指标

此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x<100。

04 什么是正态分布?

正态分布只依赖于数据集的两个特征:样本的均值和方差。

  • 均值——样本所有取值的平均
  • 方差——该指标衡量了样本总体偏离均值的程度

正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。

值得注意的是,大自然中发现的变量,大多近似服从正态分布。

正态分布很容易解释,这是因为:

  1. 正态分布的均值,模和中位数是相等的。
  2. 我们只需要用均值和标准差就能解释整个分布。

正态分布是我们熟悉的正常行为。

05 为何如此多的变量都大致服从正态分布?

这个现象可以由如下定理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。

由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。

这就是中心极限定理

本文的核心:

我们从上文的分析得出,正态分布是许多随机分布的总和。如果我们绘制正态分布密度函数,那么它的曲线将具有以下特征:

如上图所示,该钟形曲线有均值为 100,标准差为1:

  • 均值是曲线的中心。这是曲线的最高点,因为大多数点都是均值。
  • 曲线两侧的点数相等。曲线的中心具有最多的点数。
  • 曲线下的总面积是变量所有取值的总概率。
  • 因此总曲线面积为 100%

更进一步,如上图所示:

  • 约 68.2% 的点在 -1 到 1 个标准偏差范围内。
  • 约 95.5% 的点在 -2 到 2 个标准偏差范围内。
  • 约 99.7% 的点在 -3 至 3 个标准偏差范围内。

这使我们可以轻松估计变量的变化性,并给出相应置信水平,它的可能取值是多少。例如,在上面的灰色钟形曲线中,变量值在 99-101 之间的可能性为 68.2%。

06 正态概率分布函数

正态概率分布函数的形式如下:

概率密度函数基本上可以看作是连续随机变量取值的概率。

正态分布是钟形曲线,其中mean = mode = median。

  • 如果使用概率密度函数绘制变量的概率分布曲线,则给定范围的曲线下的面积,表示目标变量在该范围内取值的概率。
  • 概率分布曲线基于概率分布函数,而概率分布函数本身是根据诸如平均值或标准差等多个参数计算的。
  • 我们可以使用概率分布函数来查找随机变量取值范围内的值的相对概率。例如,我们可以记录股票的每日收益,将它们分组到适当的集合类中,然后计算股票在未来获得20-40%收益的概率。

标准差越大,样品中的变化性越大。

07 如何使用 Python 探索变量的概率分布

最简单的方法是加载 data frame 中的所有特征,然后运行以下脚本(使用pandas 库):

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
DataFrame.hist(bins=10)
#Make a histogram of the DataFrame.

该函数向我们展示了所有变量的概率分布。

08 变量服从正态分布意味着什么?

如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。这就是前文所述的中心极限定理。

服从正态分布的变量总是服从正态分布。例如,假设 A 和 B 是两个具有正态分布的变量,那么:

  • A x B 是正态分布
  • A + B 是正态分布

因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。

09 样本不服从正态分布怎么办?

我们可以将变量的分布转换为正态分布。

我们有多种方法将非正态分布转化为正态分布:

1. 线性变换

一旦我们收集到变量的样本数据,我们就可以对样本进行线性变化,并计算Z得分:

  1. 计算平均值
  2. 计算标准偏差
  3. 对于每个 x,使用以下方法计算 Z:

2. 使用 Boxcox 变换

我们可以使用 SciPy 包将数据转换为正态分布:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
scipy.stats.boxcox(x, lmbda=None, alpha=None)

3. 使用 Yeo-Johnson 变换

另外,我们可以使用 yeo-johnson 变换。Python 的 sci-kit learn 库提供了相应的功能:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True)

10 正态分布的问题

由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。假设变量服从正态分布会有一些显而易见的缺陷。例如,我们不能假设股票价格服从正态分布,因为价格不能为负。因此,我们可以假设股票价格服从对数正态分布,以确保它永远不会低于零。

我们知道股票收益可能是负数,因此收益可以假设服从正态分布。

假设变量服从正态分布而不进行任何分析是愚蠢的。

变量可以服从Poisson,Student-t 或 Binomial 分布,盲目地假设变量服从正态分布可能导致不准确的结果。 11 总结

本文阐述了正态分布的概念和性质,以及它如此重要的原因。

希望能帮助到你。

原文链接:http://bit.ly/2NyetFz

有话要说?

Q: 这么神奇的正态分布,你玩转了吗?

欢迎留言与大家分享

猜你想看?

  • 一文看懂数据清洗:缺失值、异常值和重复值的处理
  • 2019上半年,457635位大数据用户最喜爱的10本书
  • 发际线预警!10本程序员必读烧脑经典,你敢挑战一本吗?
  • 手把手教你实现共享单车数据分析及需求预测

更多精彩?

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 报告 | 读书 | 书单 | 干货

大数据 | 揭秘 | Python | 可视化

AI | 人工智能 | 5G | 区块链

机器学习 | 深度学习 | 神经网络

1024 | 段子 | 数学 | 高考

据统计,99%的大咖都完成了这个神操作

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:baiyu@hzbook.com

更多精彩,请在后台点击“历史文章”查看

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
高中就开始学的正态分布,原来如此重要
机器学习的世界是以概率分布为中心的,而概率分布的核心是正态分布。本文说明了什么是正态分布,以及为什么正态分布的使用如此广泛,尤其是对数据科学家和机器学习专家来说。
机器之心
2019/07/12
6390
高中就开始学的正态分布,原来如此重要
终于有人把正态分布和二八法则讲明白了
如果你是一位程序员,编程时就一定用过随机(random)函数。它的功能是在特定取值范围内随机生成一些数。这个函数在很多编程语言中是预置的,可以直接调用。
IT阅读排行榜
2022/03/11
2.1K0
终于有人把正态分布和二八法则讲明白了
​常见的8个概率分布公式和可视化
来源:Deephub Imba本文约2800字,建议阅读8分钟本文我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。 概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。 现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。 “概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。” 了解数据的分布有助于更好
数据派THU
2022/04/29
1.2K0
​常见的8个概率分布公式和可视化
Excel正态分布函数简介
引言:Excel提供了几个工作表函数来处理正态分布或“钟形曲线”,这里介绍Excel的正态分布函数为统计上的挑战所提供的帮助。本文学习整理自exceluser.com,供有兴趣的朋友参考。
fanjy
2021/08/31
5.6K0
Excel正态分布函数简介
概率论和统计学中重要的分布函数
每当我们遇到任何概率实验,我们谈论的是随机变量,它只不过是获取实验预期结果的变量。例如,当我们掷骰子时,我们期望从集合{1,2,3,4,5,6}中得到一个值。所以我们定义了一个随机变量X,它在每次掷骰时取这些值。
deephub
2020/08/21
1.8K0
概率论和统计学中重要的分布函数
数据分析师必掌握的统计学知识!
概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。
Python数据科学
2019/03/14
9920
数据分析师必掌握的统计学知识!
可视化数据科学中的概率分布以帮你更好地理解各种分布
在某些分布假设下,某些机器学习模型被设计为最佳工作。因此,了解我们正在使用哪个发行版可以帮助我们确定最适合使用哪些模型。
计算机与AI
2020/11/19
1.1K0
可视化数据科学中的概率分布以帮你更好地理解各种分布
每个数据科学家都应该知道的六个概率分布
介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而
小莹莹
2018/04/20
2K0
每个数据科学家都应该知道的六个概率分布
数据科学17 | 统计推断-期望方差和常见概率分布
随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。
王诗翔呀
2020/07/03
1.8K0
数据科学17 | 统计推断-期望方差和常见概率分布
每个数据科学专家都应该知道的六个概率分布
摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。 介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。 他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题
小莹莹
2018/04/24
1.4K0
每个数据科学专家都应该知道的六个概率分布
统计分析篇-统计常用分布(1)
以身高为例,以学校为总体,假设学校51578人,会有5178个身高,这5178个身高如下表:
臭脚妹妹
2022/11/16
6150
Python实现 8 个概率分布公式及可视化
概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
数据STUDIO
2022/05/24
1.4K0
Python实现 8 个概率分布公式及可视化
正态分布在机器学习中为何如此重要?
两个骰子面值之和的概率,是两个骰子独立事件的概率的和。比如,得到点数3的概率为:一颗1、一颗2的概率 加上 一颗2、一颗1的概率 之和:
Ai学习的老章
2021/01/05
4.5K0
数据并非都是正态分布:三种常见的统计分布及其应用
你有没有过这样的经历?使用一款减肥app,通过它的图表来监控自己的体重变化,并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重,这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理,然后绘制一条直线预测未来的体重变化。然而,体重减轻通常不会呈线性发展,使用更复杂的数学模型,如泊松回归,可能会更加贴近真实情况。
deephub
2024/06/17
6850
数据并非都是正态分布:三种常见的统计分布及其应用
PYTHON 用几何布朗运动模型和蒙特卡罗MONTE CARLO随机过程模拟股票价格可视化分析耐克NKE股价时间序列数据|附代码数据
金融资产/证券已使用多种技术进行建模。该项目的主要目标是使用几何布朗运动模型和蒙特卡罗模拟来模拟股票价格。该模型基于受乘性噪声影响的随机(与确定性相反)变量
拓端
2023/04/07
1.7K0
概率论基础 - 11 - 高斯分布 / 正态分布
本文记录高斯分布。 高斯分布 / 正态分布 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择: 建模的任务的真实分布通常都确实接近正态分布。 中心极限定理表明,多个独立随机变量的和近似正态分布。 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。 一维正态分布 正态分布的概率密度函数为: p(x)=\frac{1}{\sqrt{2 \pi} \sigma} e{-(x-\mu){2}
为为为什么
2022/08/05
1.6K0
概率论基础 - 11 - 高斯分布 / 正态分布
学界 | 为什么数据科学家都钟情于最常见的正态分布?
大数据文摘出品 编译:JonyKai、元元、云舟 对于深度学习和机器学习工程师们来说,正态分布是世界上所有概率模型中最重要的一个。即使你没有参与过任何人工智能项目,也一定遇到过高斯模型,今天就让我们来看看高斯过程为什么这么受欢迎。 高斯分布(Gaussian distribution),也称正态分布,最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着
大数据文摘
2018/06/29
1.4K0
BioScience: 贯穿科学界的对数正态分布
生物学和数学对概念化、形式化和抽象化的需求与日俱增。数学对于分析和表征随机变化特别重要,如人群中个体的大小和体重、他们对化学物质的敏感度,事件发生的时间等。这些数据的频率分布是决定可以对任何数据集有效执行统计分析类型的主要因素。许多广泛使用的统计方法,如方差分析(ANOVA)和回归分析,都要求数据服从正态分布,但在使用这些技术时,很少对数据的频率分布进行检验。
Listenlii-生物信息知识分享
2021/01/05
3.8K0
BioScience: 贯穿科学界的对数正态分布
算法入门(三) -- 概率论基础
概率知识是算法学习中较为重要的一环,下面我们就来回顾一下算法中需要用到的概率基础知识,以及他们的公式和分布图像。
万事可爱^
2025/01/23
2470
算法入门(三) -- 概率论基础
概率学中的随机变量与分布
随机变量 Random Variables 如果一个变量的值存在一个与之相关联的概率分布,则称该变量为“随机变量(Random Variable)”。数学上更严谨的定义如下: 设随机试验的样本空间为S={e},X=X(e)是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量。 一个最常见的随机数例子就是扔硬币,例如可以记正面为1,反面为0。更复杂的情况是扔10次硬币,记录出现正面的次数,其值可以为0到9之间的整数。 通常可以将随机变量分为离散型随机变量(Discrete Random Varia
张逸
2018/03/07
2.1K0
概率学中的随机变量与分布
推荐阅读
相关推荐
高中就开始学的正态分布,原来如此重要
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档