前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每个数据科学家都应该知道的六个概率分布

每个数据科学家都应该知道的六个概率分布

作者头像
小莹莹
发布于 2018-04-20 07:18:32
发布于 2018-04-20 07:18:32
1.9K0
举报

介绍

假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。

他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题吧。

一种方法是将成绩可视化,看看是否可以在数据中找到某种趋势。

上面展示的图形称为数据的频率分布。其中有一个平滑的曲线,但你注意到有一个异常情况了吗?在某个特定的分数范围内,数据的频率异常低。所以,最准确的猜测就是丢失值了,从而导致在分布中出现了凹陷。

这个过程展示了你该如何使用数据分析来尝试解决现实生活中的问题。对于任何一位数据科学家、学生或从业者来说,分布是必须要知道的概念,它为分析和推理统计提供了基础。

虽然概率为我们提供了数学上的计算,而分布却可以帮助我们把内部发生的事情可视化。

在本文中,我将介绍一些重要的概率分布,并会清晰全面地对它们进行解释。

注意:本文假设你已经具有了概率方面的基本知识。如果没有,可以参考这篇有关概率基础的文章。

目录

1、常见的数据类型

2、分布的类型

  • 伯努利分布
  • 均匀分布
  • 二项分布
  • 正态分布
  • 泊松分布
  • 指数分布

3、各个分布之间的关系


正文如下:

一、常见的数据类型

在开始详细讲述分布之前,先来看看我们会遇到哪些种类的数据。数据可以分为离散的和连续的。

离散数据:顾名思义,只包含指定的值。例如,当你投骰子的时候,输出结果只可能是1、2、3、4、5或6,而不可能出现1.5或2.45。

连续数据:可以在给定的范围内取任何值。范围可以是有限的,也可以是无限的。例如,女孩的体重或身高、路程的长度。女孩的体重可以是54千克、54.5千克,或54.5436千克。

现在我们开始学习分布的类型。

2、分布的类型

2.1、伯努利分布

我们首先从最简单的分布伯努利分布开始。

伯努利分布只有两种可能的结果,1(成功)和0(失败)。因此,具有伯努利分布的随机变量X可以取值为1,也就是成功的概率,可以用p来表示,也可以取值为0,即失败的概率,用q或1-p来表示。

概率质量函数由下式给出:px(1-p)1-x, 其中x € (0, 1)。它也可以写成:

成功与失败的概率不一定相等。这里,成功的概率(p)与失败的概率不同。所以,下图显示了我们之间比赛结果的伯努利分布。

这里,成功的概率 = 0.15,失败的概率 = 0.85 。如果我打了你,我可能会期待你向我打回来。任何分布的基本预期值是分布的平均值。来自伯努利分布的随机变量X的期望值如为:

E(X) = 1p + 0(1-p) = p

随机变量与二项分布的方差为:

V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)

伯努利分布的例子有很多,比如说明天是否要下雨,如果下雨则表示成功,如果不下雨,则表示失败。

2.2、均匀分布

对于投骰子来说,结果是1到6。得到任何一个结果的概率是相等的,这就是均匀分布的基础。与伯努利分布不同,均匀分布的所有可能结果的n个数也是相等的。

如果变量X是均匀分布的,则密度函数可以表示为:

均匀分布的曲线是这样的:

你可以看到,均匀分布曲线的形状是一个矩形,这也是均匀分布又称为矩形分布的原因。其中,a和b是参数。

花店每天销售的花束数量是均匀分布的,最多为40,最少为10。我们来计算一下日销售量在15到30之间的概率。

日销售量在15到30之间的概率为(30-15)*(1/(40-10)) = 0.5

同样地,日销售量大于20的概率为 = 0.667

遵循均匀分布的X的平均值和方差为:

平均值 -> E(X) = (a+b)/2

方差 -> V(X) = (b-a)²/12

标准均匀密度的参数 a = 0 和 b = 1,因此标准均匀密度由下式给出:

2.3、二项分布

让我们来看看玩板球这个例子。假设你今天赢了一场比赛,这表示一个成功的事件。你再比了一场,但你输了。如果你今天赢了一场比赛,但这并不表示你明天肯定会赢。我们来分配一个随机变量X,用于表示赢得的次数。 X可能的值是多少呢?它可以是任意值,这取决于你掷硬币的次数。

只有两种可能的结果,成功和失败。因此,成功的概率 = 0.5,失败的概率可以很容易地计算得到:q = p – 1 = 0.5。

二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。

结果有可能不一定相等。如果在实验中成功的概率为0.2,则失败的概率可以很容易地计算得到 q = 1 – 0.2 = 0.8。

每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。

在上述说明的基础上,二项式分布的属性包括:

每个试验都是独立的。

在试验中只有两个可能的结果:成功或失败。

总共进行了n次相同的试验。

所有试验成功和失败的概率是相同的。 (试验是一样的)

二项分布的数学表示由下式给出:

成功概率不等于失败概率的二项分布图:

现在,当成功的概率 = 失败的概率时,二项分布图如下

二项分布的均值和方差由下式给出:

平均值 -> µ = n*p

方差 -> Var(X) = npq

2.4、正态分布

正态分布代表了宇宙中大多数情况的运转状态。大量的随机变量被证明是正态分布的。任何一个分布只要具有以下特征,则可以称为正态分布:

分布的平均值、中位数和模式一致。

分布曲线是钟形的,关于线 x = μ 对称。

曲线下的总面积为1。

有一半的值在中心的左边,另一半在右边。

正态分布与二项分布有着很大的不同。然而,如果试验次数接近于无穷大,则它们的形状会变得十分相似。

遵循正态分布的随机变量X的值由下式给出:

正态分布的随机变量X的均值和方差由下式给出:

均值 -> E(X) = µ

方差 -> Var(X) = σ^2

其中,μ(平均)和σ(标准偏差)是参数。

随机变量X〜N(μ,σ)的图如下所示。

标准正态分布定义为平均值等于0,标准偏差等于1的分布:

2.5、泊松分布

假设你在一个呼叫中心工作,一天里你大概会接到多少个电话?它可以是任何一个数字。现在,呼叫中心一天的呼叫总数可以用泊松分布来建模。这里有一些例子:

医院在一天内录制的紧急电话的数量。

某个地区在一天内报告的失窃的数量。

在一小时内抵达沙龙的客户人数。

在特定城市上报的自杀人数。

书中每一页打印错误的数量。

泊松分布适用于在随机时间和空间上发生事件的情况,其中,我们只关注事件发生的次数。

当以下假设有效时,则称为泊松分布:

任何一个成功的事件都不应该影响另一个成功的事件。

在短时间内成功的概率必须等于在更长的间内成功的概率。

时间间隔变小时,在给间隔时间内成功的概率趋向于零。

泊松分布中使用了这些符号:

λ是事件发生的速率

t是时间间隔的长

X是该时间间隔内的事件数。

其中,X称为泊松随机变量,X的概率分布称为泊松分布。

令μ表示长度为t的间隔中的平均事件数。那么,µ = λ*t。

泊松分布的X由下式给出:

平均值μ是该分布的参数。 μ也定义为该间隔的λ倍长度。泊松分布图如下所示:

下图显示了随着平均值的增加曲线的偏移情况:

可以看出,随着平均值的增加,曲线向右移动。

泊松分布中X的均值和方差:

均值 -> E(X) = µ

方差 -> Var(X) = µ

2.6、指数分布

让我们再一次看看呼叫中心的那个例子。不同呼叫之间的时间间隔是多少呢?在这里,指数分布模拟了呼叫之间的时间间隔。

其他类似的例子有:

地铁到达时间间隔

到达加油站的时间

空调的寿命

指数分布广泛用于生存分析。从机器的预期寿命到人类的预期寿命,指数分布都能成功地提供结果。

具有的指数分布的随机变量X:

f(x) = { λe-λx, x ≥ 0

参数 λ>0 也称为速率。

对于生存分析,λ被称为任何时刻t的设备的故障率,假定它已经存活到t时刻。

遵循指数分布的随机变量X的均值和方差为:

平均值 -> E(X) = 1/λ

方差 -> Var(X) = (1/λ)²

此外,速率越大,曲线下降越快,速率越慢,曲线越平坦。下面的图很好地解释了这一点。

为了简化计算,下面给出一些公式。

P{X≤x} = 1 – e-λx 对应于x左侧曲线下的面积。

PP{X>x} = e-λx 对应于x右侧曲线下的面积。

P{x1-λx1 – e-λx2, corresponds to the area under the density curve between x1 and x2.

P{x1-λx1 – e-λx2 对应于x1和x2之间地曲线下的面积。

3、各种分布之间的关系

伯努利与二项分布之间的关系

伯努利分布是具有单项试验的二项式分布的特殊情况。

伯努利分布和二项式分布只有两种可能的结果,即成功与失败。

伯努利分布和二项式分布都具有独立的轨迹。

泊松与二项式分布之间的关系

泊松分布在满足以下条件的情况下是二项式分布的极限情况:

试验次数无限大或n → ∞。

每个试验成功的概率是相同的,无限小的,或p → 0。

np = λ,是有限的。

正态分布与二项式分布之间的关系,以及正态分布与泊松分布之间的关系

正态分布是在满足以下条件的情况下二项分布的另一种限制形式:

试验次数无限大,n → ∞。

p和q都不是无限小。

正态分布也是参数λ → ∞的泊松分布的极限情况。

指数和泊松分布之间的关系

如果随机事件之间的时间遵循速率为λ的指数分布,则时间长度t内的事件总数遵循具有参数λt的泊松分布。

结束语

概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。现在,你已经能够识别、关联和区分这些分布了。

END.

来源:数盟社区

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每个数据科学专家都应该知道的六个概率分布
摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。 介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。 他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题
小莹莹
2018/04/24
1.3K0
每个数据科学专家都应该知道的六个概率分布
从贝叶斯定理到概率分布:综述概率论基本定义
选自 Medium & analyticsvidhya 本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。 简介 在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,
小莹莹
2018/04/24
1.2K0
从贝叶斯定理到概率分布:综述概率论基本定义
可视化数据科学中的概率分布以帮你更好地理解各种分布
在某些分布假设下,某些机器学习模型被设计为最佳工作。因此,了解我们正在使用哪个发行版可以帮助我们确定最适合使用哪些模型。
计算机与AI
2020/11/19
1K0
可视化数据科学中的概率分布以帮你更好地理解各种分布
数据科学中常见的6个概率分布及Python实现
拥有良好的统计背景对于数据科学家的日常工作可能会大有裨益。每次我们开始探索新的数据集时,我们首先需要进行探索性数据分析(EDA),以了解某些特征的概率分布是什么。如果我们能够了解数据分布中是否存在特定模式,则可以量身定制最适合我们的机器学习模型。这样,我们将能够在更短的时间内获得更好的结果(减少优化步骤)。实际上,某些机器学习模型被设计为在某些分布假设下效果最佳。因此,了解我们正在使用哪个概率分布可以帮助我们确定最适合使用哪个模型。
刘早起
2020/06/30
1.4K0
数据科学中常见的6个概率分布及Python实现
数据挖掘学习小组之(概率分布)
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达!
数据处理与分析
2019/08/05
7330
机器学习统计概率分布全面总结(Python)
在平时的科研中,我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此,掌握一定的统计概率相关知识非常有必要。
算法进阶
2023/12/26
5950
机器学习统计概率分布全面总结(Python)
11种概率分布,你了解几个?
了解常见的概率分布十分必要,它是概率统计的基石。这是昨天推送的 从概率统计到深度学习,四大技术路线图谱,都在这里!文章中的第一大技术路线图谱如下所示,图中左侧正是本文要总结的所有常见概率分布。
double
2019/10/08
20.6K0
11种概率分布,你了解几个?
​常用的连续概率分布汇总
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
deephub
2021/11/08
1.9K0
​常用的连续概率分布汇总
统计中的各种分布
1. 伯努利分布:伯努利分布:伯努利试验单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果。又名两点分布或者0-1分布。
小末快跑
2020/07/29
2.1K0
统计中的各种分布
python实现10种概率分布(附代码)
在概率论和统计学中,均匀分布也被称为矩形分布。这种分布可以通过两个参数a和b来定义,它们分别是数轴上的最小值和最大值,因此通常表示为U(a, b)。
皮大大
2024/08/07
8400
Python实现 8 个概率分布公式及可视化
概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
数据STUDIO
2022/05/24
1.3K0
Python实现 8 个概率分布公式及可视化
​常见的8个概率分布公式和可视化
来源:Deephub Imba本文约2800字,建议阅读8分钟本文我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。 概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。 现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。 “概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。” 了解数据的分布有助于更好
数据派THU
2022/04/29
1.1K0
​常见的8个概率分布公式和可视化
机器学习领域必知必会的12种概率分布(附Python代码实现)
机器学习有其独特的数学基础,我们用微积分来处理变化无限小的函数,并计算它们的变化;我们使用线性代数来处理计算过程;我们还用概率论与统计学建模不确定性。在这其中,概率论有其独特的地位,模型的预测结果、学习过程、学习目标都可以通过概率的角度来理解。
Datawhale
2019/10/09
4360
机器学习领域必知必会的12种概率分布(附Python代码实现)
一文搞懂常见概率分布的直觉与联系
数据科学,不管它到底是什么,其影响力已不可忽视。“数据科学家比任何软件工程师都更擅长统计学。”你可能在本地的技术聚会或者黑客松上无意中听到一个专家这么说。应用数学家大仇得报,毕竟从咆哮的二十年代起人们就不怎么谈论统计学了。以前聊天的时候,像你这样的工程师,会因为分析师从来没听说过Apache Bikeshed(口水仗)这个分布式评论格式编排项目而发出啧啧声。现在,你却突然发现人们在聊置信区间的时候不带上你了。为了融入聊天,为了重新成为聚会的灵魂人物,你需要恶补下统计学。不用学到正确理解的程度,只需学到让人们(基于基本的观测)觉得你可能理解了的程度。
zenRRan
2019/11/20
1.9K0
一文搞懂常见概率分布的直觉与联系
算法入门(三) -- 概率论基础
概率知识是算法学习中较为重要的一环,下面我们就来回顾一下算法中需要用到的概率基础知识,以及他们的公式和分布图像。
万事可爱^
2025/01/23
1300
算法入门(三) -- 概率论基础
数据科学17 | 统计推断-期望方差和常见概率分布
随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。
王诗翔呀
2020/07/03
1.7K0
数据科学17 | 统计推断-期望方差和常见概率分布
深度学习必懂的13种概率分布
作为机器学习从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。
AI研习社
2019/10/22
8410
深度学习必懂的13种概率分布
深度学习必须掌握的 13 种概率分布
深度学习从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。
算法进阶
2023/08/28
2670
深度学习必须掌握的 13 种概率分布
对真实的世界建模-概率论(分布&计算)
前段时间觉得概率论不可理喻,再拿起的时候已经少了些许晦涩之感。(我们的自然语言不明确,概率论是离真实建模最近的学科,所以觉得难学,是因为我们逐渐走向精确)
云深无际
2024/10/08
2070
对真实的世界建模-概率论(分布&计算)
常见概率分布及在R中的应用
常见概率分布 离散型 1.二项分布Binomial distribution:binom 二项分布指的是N重伯努利实验,记为X ~ b(n,p),E(x)=np,Var(x)=np(1-p) pbinom(q,size,prob), q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率 dbinom(x,size,prob), x同上面的q同含义。dfunction()对于离散分布来说结果是特定值的概率,对连续变量来说是密度
机器学习AI算法工程
2018/03/13
3.6K0
相关推荐
每个数据科学专家都应该知道的六个概率分布
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档