机器学习中经常会见到各种各样的概率分布,本文将对一些最为基本的分布进行概述。
均匀分布是各种概率分布中最简单的一种,它表示在区间(a,b)内的实数以均等概率被采样到。
均匀分布虽然简单,但极为重要,由于计算机只能产生均匀分布的随机数,因此任何其他概率分布都需要从均匀分布样本中生成出来,相应的方法称为逆变换采样(inverse transform sampling)。
伯努利分布衡量的是单次实验结果的概率分布,例如常见的抛硬币问题,抛一次硬币,正面和反面向上的概率都是0.5,这就构成了一个概率分布,显然,此分布是离散的。掷骰子问题也是伯努利分布,每面向上的概率都是1/6。
二项分布衡量的是多次实验结果的概率分布,例如抛10次硬币,可能的结果有很多种,例如8次正面2次反面、4次正面6次反面……每种结果都可以计算其概率,这些概率就构成了二项分布。
多项分布同样衡量的是多次实验结果的概率分布,但它不是抛硬币,而是掷骰子,例如掷10次,可能的结果同样有很多种,每种结果的概率就构成了多项分布。
正态分布是应用最广泛的分布,也称为高斯分布,其形状为钟形,如上图所示。
为什么正态分布出现的如此广泛呢?这是因为中心极限定理:大量相互独立的随机变量,其均值(或者和)的分布趋近于正态分布。注意,中心极限定理对随机变量的分布没有要求。
自然界中,很多现象都是大量因素叠加产生的结果,因此,几乎各种日常现象都服从正态分布。
领取专属 10元无门槛券
私享最新 技术干货