首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第十一讲:贝叶斯学习与EM算法(中)

整理人:刘秉钧,信息科学与技术学院智能系

目录

贝叶斯学习

1.1估计分布的参数:离散变量(多值)

1.2估计分布的参数:离散变量(二值)

1.30-1分布的MLE/MAP/贝叶斯估计

1.4估计分布的参数:单变量高斯,方差已知

1.5估计分布的参数:单变量高斯,方差未知

1.6估计模型的参数: 回归

1.7 线性回归的预测分布

上一讲讲到了贝叶斯学习法。这种学习方法与MLE和MAP最大的区别在于充分考虑先验信息,并考虑所有可能的参数来预测后续值的出现概率。

为了更好的理解Bayes学习法,我们通过举例,对其进行说明。

1.1 估计分布的参数:离散变量(多值)——Dirichlet分布

在举例说明Bayes学习法的优越性之前,我们对Dirichlet分布经行一个简单的了解:

Dirichlet分布公式如下:

其中:

B(α)为Bate函数,其定义为:

Gamma函数定义如下:

若参数 thet 满足 Dirichlet 分布,考虑所有的参数 thet 的分布情况,将其带入公式(详情见上一讲,可以看作将所有的 thet,根据其条件概率密度函数,给予其相应权重,得到的全局期望值):

则有:

公式推导过程如下:

其中Gamma 函数有如下性质:

现在让我们回到Bayes学习方法。根据概率图模型:

得到:

现在我们将已知的满足 Dirichlet 分布的 thet 信息加入到上式中,得到后验概率公式:

其中thet=q为概率,即后验概率正比于(MLE *先验概率),将后验概率公式代入概率图模型公式有:

其中Ni为xi出现的次数(详情见MLE部分)

根据Dirichlet分布的性质,有:

通过上式可以很明显的看出,随着已知信息(先验概率)的不断跟新,其对后验概率造成的直接影响。

1.2估计分布的参数:离散变量(二值)

当参数 thet 服从Bate分布(又称B分布)时:

其样本似然为(在 thet 已知的情况下,数据集的分布情况):

其中

对于 Bate 分布函数有如下性质:

其函数图像为:

PDF:概率密度函数(probability density function)

同样的,先计算其后验概率:

将结果带入之前的概率图模型得到

1.3 0-1分布的MLE/MAP/贝叶斯估计 三者比较

通过比较我们可以看出在 MLE 中,对于概率的计算偏向于频率学派的观点,而 MAP 和 Bayes 中,充分吸收了 Bayes 学派的观点,考虑了先验信息。当已知信息有限时,MAP和 Bayes 的方法更加科学和有效。

其中bayes的结果还可以写成:

通过上式可以更好的说明,当n(试验次数)充分大时,Bayes的结果与MLE相等。当n有限时,则充分考虑先验信息。

1.4估计分布的参数:单变量高斯,方差已知:

根据后验概率公式:

考虑概率密度函数的等比例性质:

其中等式左边为概率密度函数,证明如下:

即后验概率函数又可写成:

且有:

从上式可知,先验信息(高斯分布的均值)会随着试验次数n的增大,对后验信息的影响逐渐减小。

直观理解:

随着试验次数的增多,预测结果的方差会减小,即预测结果更加准确。

1.5 估计分布的参数:单变量高斯,方差未知

已知:

且其中lambda满足Gamma函数分布

似然函数为:

计算后验概率:

显然后验概率满足Gamma函数。其参数(a,b)与试验次数相关。

1.6估计模型的参数: 回归

Bayes学习方法同样可以用在回归模型中,设:

首先回顾一下之前最大似然估计的思路(详情见之前讲义)

对于其目标函数有:

对参数的估计可转换为最小二乘法:

结果为:

利用bayes的逻辑,将充分考虑先验信息(结构风险最小化):

剩下的公式推导则很容易:

附加对于矩阵的可逆性证明:

1.7 线性回归的预测分布

考虑参数的所有取值情况有:

同样先考虑参数的所有取值情况,由于参数符合高斯分布,且概率之和等于一,有(推导较为繁琐,可直接看结论):

将两个高斯分布展开:

其中:

综上:

继续对上式经行展开推导,有:

其中:

所以最后得到结果为:

继续对结果经行变形:

根据S-M公式(舍曼和莫里森于1949年提出)有:

带入L,有:

尽管本讲公式推导较为繁琐,但各种学习方法都可以和贝叶斯学习方法有效的结合。都是假设已知信息有效的情况下,实验数据偏少,充分利用先验信息,先给定一个初步预测,再通过实验的经行(已知信息的增加)不断对先验信息经行校正,使之不断的向精确偏移。在之前的推到中,我们可以发现随着实验次数的不断增大,贝叶斯学习的结果将无限趋近于MLE的结果。所以事实上当实验数据量足够大时,先验信息的取值误差对结果的影响很小。即当数据量有保障时,先验信息的取值不用过于谨慎。

注:更多内容详见课件,回复「课件」二字即可领取!

历史文章回顾

机器学习Machine Learning

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180516G1YO6U00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券