首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >机器学习概率基础:除了偏度、峰度还有矩量母函数

机器学习概率基础:除了偏度、峰度还有矩量母函数

作者头像
Python数据科学
发布于 2021-09-08 07:23:21
发布于 2021-09-08 07:23:21
1.4K0
举报
文章被收录于专栏:Python数据科学Python数据科学

本篇介绍随机变量和概率分布的基本概念,以及有关概率分布的一些简单统计量,它们构成了概率和统计的基础知识。

11 基本概念

当投掷六面骰子时,可能结果有 ,没有其他结果。这种可能的结果称为样本点,所有样本点的集合称为样本空间。

这里出现了两个东西,样本点及其集合。对,就是用集合语言来描述这些内容。

事件定义为样本空间的一个子集。例如,出现任意奇数点数的事件 表示为

没有样本点的事件称为空事件,用 表示。仅由一个样本点组成的事件称为基本事件,而由多个样本点组成的事件称为复合事件。包含所有可能样本点的事件称为整个事件。

至少发生了 和 事件之一的事件称为事件的并集,并用 表示。例如,出现奇数的事件 与出现小于或等于 的事件 的并集表示为

另一方面,事件 和 同时发生的事件称为事件的交集,用 表示。上面的事件 和 的交集为

如果事件 和 永远不会同时发生,即

则 和 事件称为不相交事件。出现奇数的事件和出现偶数的事件不能同时发生,因此是不相交的。对于 和 事件,以下分配定律成立:

对照上面公式和下图,回忆一下中学集合论里的文氏图。

由集合的补集概念很容易想到所谓的补事件。样本空间中除去事件 中样本点后剩下的样本点构成的事件称为 的补事件,用 表示。出现奇数的事件的补事件是不出现奇数,即出现偶数。对于事件 和 的并集和交集,遵循以下德·摩根(De Morgan)定律:

22 概率

概率是对事件发生的可能性的度量,而事件 发生的概率用 表示。俄国数学家科莫哥洛夫(Kolmogorov)通过以下三个公理来定义了概率,而这些公理是对概率显然应该满足的特性的一种抽象。

1.非负性:对于任意事件

2.归一性(幺正性):适用于整个样本空间。

3.可加性:对于不相交事件的任何可数序列,

从上述公理可以看出,事件 和 满足以下加法法则。

这同样使用于两个以上的事件:对于 和 事件,

投掷骰子示例(离散均匀分布 )

33 随机变量和概率分布

如果将概率分配给变量的每个取值,则该变量称为随机变量。概率分布是描述从随机变量的取值到概率的映射的函数。

可数集是其元素可以枚举为 的集合。在一个可数集中取一个值的随机变量称为离散随机变量。请注意,可数集的大小不必是有限的,可以是无限的,例如所有自然数的集合。如果离散随机变量 的每个值的概率为

其中, 称为概率质量函数。注意 应该满足

投掷一个六面均匀的骰子 的结果是一个离散的随机变量,其概率质量函数由 给出。

具有连续值的随机变量称为连续随机变量。如果连续随机变量 在 中取值的概率为

被称为概率密度函数,需要注意的是 应该满足

例如,旋转轮盘 的结果是一个连续的随机变量,其概率密度函数由 给出。请注意,式(1)也有一个重要的含义,即连续随机变量 正好取值 的概率实际上为零:

比如,旋转轮盘赌的结果恰好是特定角度的可能性为零。

连续随机变量 的值小于或等于 的概率,

称为累积分布函数。

概率密度函数和累积分布函数

累积分布函数 满足以下属性:

  • 单调非减: 时有 。
  • 左极限:。
  • 右极限:。

如果存在累积分布函数的导数,那么它就是概率密度函数:

称为上尾概率或右尾概率,而 称为下尾概率或左尾概率。

上尾概率和下尾概率一起称为双侧概率,而它们中的任何一个都称为单侧概率。

44 概率分布的性质

在讨论概率分布的性质时,使用简单的统计量来概括概率质量/密度函数会带来方便。在本节中,将介绍此类统计量。

+数学期望、中位数和众数

数学期望(Expectation)字面上是指期望随机变量取到的值。当然用文字表达比较含糊,具体还是看公式。用 表示的随机变量 的期望定义为根据概率质量/密度函数 加权的 的平均值,

请注意,存在诸如柯西(Cauchy)分布之类的概率分布,它们的期望并不存在(例如趋于无穷大)。对于 的任何函数 ,可以类似地定义它们的期望:

离散型

对于常数 ,期望运算 满足以下属性:

尽管期望代表了概率分布的中心,但当有异常值存在时,它与直观期望的差距可能很大。

例如,收入分配中,由于一个人赚取 100 万美元,直接把期望值拉高到 美元,以至于让所有其他人都低于平均值。这就是网络上大家常说的被平均

在这种情况下,中位数(Median)比期望值更合适,中位数定义为使得下式成立的 值,

也就是说,中位数是概率分布的中心,就其而言,它是不管从左侧还是右侧开始数的中间点。在示例中,中位数为 美元,确实位于人群中间。另外,还会用到中位数的扩展,当 的 -分位数,即使得下式成立的 值,

也就是说,-分位数从左侧给出了 点,而当 时就是中位数。

让我们考虑在区间 上定义的概率密度函数 ,而所谓的期望平方误差定义为

使得它取极小值的 值,事实上正是 的期望。类似地,使得期望绝对误差

取最小值的 值也是 的期望值。此外,式 (2) 的加权变体,

使得它取极小值的 值,正是 的 -百分位。

另一个常用的统计量是众数(Mode),它是一组数据中出现次数最多的数值,被定义为使得 取最大值的 值。

+方差和标准差

尽管期望是表征概率分布的有用统计量,但是即使概率分布具有相同的期望,它们也可以不同。接下来我们引入另一个称为方差的统计量,以表示概率分布的分散情况。随机变量 的方差 定义为

实际上,可以将以上表达式展开,

通常会使计算变得更容易。对于常数 ,方差运算 满足以下性质:

可以看到,这些性质与期望的性质完全不同。

方差的平方根称为标准差,用 表示,

通常,方差和标准差分别用 和 表示。

+偏度、峰度和矩

除了期望和方差之外,还经常使用诸如偏度(Skewness)和峰度(Kurtosis)之类的高阶统计量。偏度和峰度分别表示概率分布的不对称性和尖锐度,它们分别定义为

分母中的 和 用于规范化处理,峰度定义中包含的 将正态分布的峰度归零。

如上图所示,如果偏度为正,则右侧尾比左侧尾要长;如果偏度为负,则左侧尾比右侧尾长。如果偏度为零,则分布是完全对称的。

如上图所示,如果峰度为正,则概率分布比正态分布更尖锐;如果峰度为正,则概率分布比正态分布更钝。

以上讨论说明了该统计量,

在表征概率分布中起着重要作用。 称为关于期望的 阶矩,而

被称为关于原点的第 阶矩。期望值、方差、偏度和峰度可通过使用 统一表示,

  • 期望值:, 方差:
  • 偏度:
  • 峰度:

5矩量母函数

如果指定了期望、方差、偏度和峰度,那么概率分布在一定程度上就被确定下来了。但是,如果我们该如何用更多的特征来描述分布呢?

其实,像平均值、方差、偏度和峰度这些特征统一被称为,那么有没有一个函数能够计算所有矩呢?有的,那就是所谓的矩量母函数(Moment generating function)。有了它,我们可以通过微分来计算各种矩,而不是用积分算,这样就简化了计算。

作为一个极限情况,如果指定了所有阶的矩,那么概率分布可以唯一地确定下来。矩量母函数使我们能够系统地处理所有阶的矩:

的确,将零代入矩量母函数关于 的 阶导数 ,可得 阶矩:

下面证明了这一事实。

函数 关于 的 阶导数为 ,函数 关于 在原点处的泰勒展开式为,

两边分别计算期望,得

两边求导,得

将 代入其中得 。

对于某些概率分布,矩量母函数可能并不存在(例如发散到无穷大)。但它有个兄弟却是始终存在,即特征函数(Characteristic function),

其中 表示虚数单位,使得 。实际上,对概率密度函数作傅立叶变换即得到特征函数。

那么,这些函数有什么用途呢?关于这个我们下回再谈。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python数据科学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习数学基础:数理统计与描述性统计
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/02
1.9K0
机器学习数学基础:数理统计与描述性统计
【R系列】概率基础和R语言
R语言是统计语言,概率又是统计的基础,所以可以想到,R语言必然要从底层API上提供完整、方便、易用的概率计算的函数。让R语言帮我们学好概率的基础课。 1. 随机变量 · 什么是随机变量? · 离散型随机变量 · 连续型随机变量 1). 什么是随机变量? 随机变量(random variable)表示随机现象各种结果的实值函数。随机变量是定义在样本空间S上,取值在实数载上的函数,由于它的自变量是随机试验的结果,而随机实验结果的出现具有随机性,因此,随机变量的取值具有一定的随机性。 R程序:生成一个在(0,1,
小莹莹
2018/04/20
2.5K0
【R系列】概率基础和R语言
博客 | 机器学习中的数学基础(微积分和概率统计)
中国教科书中通常首先学习导数,例如中学时期的切线方程,函数单调性,零值点和极值点个数等等,而直到大学时期才引入微分的概念,导致大多数人通常并不了解微分和导数之间的关系。
AI研习社
2018/12/27
9410
博客 | 机器学习中的数学基础(微积分和概率统计)
[Skill]程序员须掌握的概率统计基础知识
计算机科学作为理工科一个独特的分支,本质上仍然是建立在逻辑思维上的一门科学,良好的概率论思维有助于设计高效可行的算法。
TOMOCAT
2020/06/10
7390
任何时候你都不应该忽视概率统计的学习!
基于概率论的数理统计也即概率统计是现代科学研究的基础工具与方法论,错误的理解与使用概率统计也可能会导致完全错误的研究结果。即使现在,我们随便抽出一篇微生物组学研究的paper,都有可能发现其中概率统计的瑕疵,诸如线性回归算法样品数少于变量数、R2与P值未作校正、聚类结果未作检验等。无论任何时候,我们都应该尝试去反思:我的概率统计知识够吗?
SYSU星空
2022/05/05
9870
任何时候你都不应该忽视概率统计的学习!
随机变量的数学期望
数学期望在解决许多具体问题时非常有效,这些领域包括但不限于医疗、经济、数据分析、社会活动以及彩票抽奖等。以下是一些具体的例子和应用:
用户11315985
2024/10/16
8690
随机变量的数学期望
概率统计学习之参数估计与假设检验
假设随机变量X的分布函数是已知的,但是它的一个或多个参数未知,需要借助总体的一个样本来对总体参数进行估计,就是参数估计问题。
SYSU星空
2022/05/05
1.2K0
概率统计学习之参数估计与假设检验
【机器学习】在不确定的光影中:机器学习与概率论的心灵共舞
机器学习已经成为现代科技的核心驱动力之一,而背后支撑这一技术的基础之一就是概率论。在机器学习中,概率论帮助我们理解和处理不确定性,进而建立模型进行预测和决策。无论是在分类、回归任务,还是在强化学习与生成模型中,概率论都起着至关重要的作用。
半截诗
2025/01/09
5370
【机器学习】在不确定的光影中:机器学习与概率论的心灵共舞
机器学习的数学基础
向量空间一组基中的向量如果两两正交,就称为正交基;若正交基中每个向量都是单位向量,就称其为规范正交基。
iOSDevLog
2019/05/30
1.6K0
统计力学中的概率论基础(一)
统计力学是一门通过粒子的纯粹微观量来表示系统宏观量的学科,从统计分布出发,用无偏/有偏估计来研究各种不同的系综。本文内容部分参考自郑伟谋老师所著《统计力学导引》,主要介绍其中概率论基础的部分。但因为大多是个人的理解,如有差错,与参考文献作者无关。
DechinPhy
2024/05/15
2420
我的机器学习概率论篇排列 组合古典概率联合概率条件概率全概率公式贝叶斯公式独立事件随机变量离散型随机变量连续型随机变量期望和方差三个基本定理参数估计
前言: 概率论的理解有些抽象,掌握概率论的方法,用实际样本去无限接近真实,熟练掌握并且使用一些最基本的概念是前提,比如,均值,方差 排列 组合 计算各种公式的基础 排列 image.png
DC童生
2018/04/27
2.3K0
我的机器学习概率论篇排列 组合古典概率联合概率条件概率全概率公式贝叶斯公式独立事件随机变量离散型随机变量连续型随机变量期望和方差三个基本定理参数估计
统计学.参数估计(点估计~最大似然估计)
先介绍无偏估计 是统计学中一个非常重要的概念。简单来说,如果我们用样本统计量去估计总体参数,当这个统计量的期望值等于总体参数的真实值时,我们就称这个统计量为该参数的无偏估计。
云深无际
2024/11/25
4340
统计学.参数估计(点估计~最大似然估计)
第一周:数据的描述性统计
平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成,忙的时候采用懒人模式。作业的日期、质量等无法固定,可能会迟到,但不会缺席。
数据处理与分析
2019/07/31
1.2K0
第一周:数据的描述性统计
统计系列(一)统计基础
在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。
HsuHeinrich
2023/03/15
1.2K0
统计系列(一)统计基础
概率论基础 - 17 - 卡方分布
卡方分布(英语:chi-square distribution, χ²-distribution,或写作χ²分布)是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。
为为为什么
2023/11/04
2.5K0
概率论基础 - 17 - 卡方分布
随机变量X的k阶(原点、中心)矩
其中 𝐸[⋅]E[⋅] 表示数学期望。如果 𝑎=0a=0,则称 𝜇𝑘μk​ 为k阶原点矩;如果 𝑎=𝐸[𝑋]a=E[X],则称 𝜇𝑘μk​ 为中心矩。 随机变量 𝑋X 的k阶中心矩定义为:
用户11315985
2024/10/16
1.4K0
随机变量X的k阶(原点、中心)矩
对真实的世界建模-概率论(分布&计算)
前段时间觉得概率论不可理喻,再拿起的时候已经少了些许晦涩之感。(我们的自然语言不明确,概率论是离真实建模最近的学科,所以觉得难学,是因为我们逐渐走向精确)
云深无际
2024/10/08
5980
对真实的世界建模-概率论(分布&计算)
深度好文 | 探索 Scipy 与统计分析基础
云朵君推荐 本文部分内容仅展示部分核心代码,本文提供含完整代码的完整PDF版本下载,获取方式:关注公众号 「数据STUDIO」并回复【210512】获取。若你对代码不感兴趣,直接略过,不影响阅读。
数据STUDIO
2021/06/24
3.3K0
机器学习统计概率分布全面总结(Python)
在平时的科研中,我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此,掌握一定的统计概率相关知识非常有必要。
算法进阶
2023/12/26
9090
机器学习统计概率分布全面总结(Python)
斯坦福 CS228 概率图模型中文讲义 二、概率复习
样本空间Ω:随机实验所有结果的集合。 在这里,每个结果ω ∈ Ω可以看作实验结束时真实世界状态的完整描述。
ApacheCN_飞龙
2022/12/01
6290
斯坦福 CS228 概率图模型中文讲义 二、概率复习
推荐阅读
相关推荐
机器学习数学基础:数理统计与描述性统计
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
社区新版编辑器体验调研
诚挚邀请您参与本次调研,分享您的真实使用感受与建议。您的反馈至关重要,感谢您的支持与参与!
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场