整理人:刘秉钧,信息科学与技术学院智能系
目录
贝叶斯学习
1.1估计分布的参数:离散变量(多值)
1.2估计分布的参数:离散变量(二值)
1.30-1分布的MLE/MAP/贝叶斯估计
1.4估计分布的参数:单变量高斯,方差已知
1.5估计分布的参数:单变量高斯,方差未知
1.6估计模型的参数: 回归
1.7 线性回归的预测分布
上一讲讲到了贝叶斯学习法。这种学习方法与MLE和MAP最大的区别在于充分考虑先验信息,并考虑所有可能的参数来预测后续值的出现概率。
为了更好的理解Bayes学习法,我们通过举例,对其进行说明。
1.1 估计分布的参数:离散变量(多值)——Dirichlet分布
在举例说明Bayes学习法的优越性之前,我们对Dirichlet分布经行一个简单的了解:
Dirichlet分布公式如下:
其中:
B(α)为Bate函数,其定义为:
Gamma函数定义如下:
若参数 thet 满足 Dirichlet 分布,考虑所有的参数 thet 的分布情况,将其带入公式(详情见上一讲,可以看作将所有的 thet,根据其条件概率密度函数,给予其相应权重,得到的全局期望值):
则有:
公式推导过程如下:
其中Gamma 函数有如下性质:
现在让我们回到Bayes学习方法。根据概率图模型:
得到:
现在我们将已知的满足 Dirichlet 分布的 thet 信息加入到上式中,得到后验概率公式:
其中thet=q为概率,即后验概率正比于(MLE *先验概率),将后验概率公式代入概率图模型公式有:
其中Ni为xi出现的次数(详情见MLE部分)
根据Dirichlet分布的性质,有:
通过上式可以很明显的看出,随着已知信息(先验概率)的不断跟新,其对后验概率造成的直接影响。
1.2估计分布的参数:离散变量(二值)
当参数 thet 服从Bate分布(又称B分布)时:
其样本似然为(在 thet 已知的情况下,数据集的分布情况):
其中
对于 Bate 分布函数有如下性质:
其函数图像为:
PDF:概率密度函数(probability density function)
同样的,先计算其后验概率:
将结果带入之前的概率图模型得到
1.3 0-1分布的MLE/MAP/贝叶斯估计 三者比较
通过比较我们可以看出在 MLE 中,对于概率的计算偏向于频率学派的观点,而 MAP 和 Bayes 中,充分吸收了 Bayes 学派的观点,考虑了先验信息。当已知信息有限时,MAP和 Bayes 的方法更加科学和有效。
其中bayes的结果还可以写成:
通过上式可以更好的说明,当n(试验次数)充分大时,Bayes的结果与MLE相等。当n有限时,则充分考虑先验信息。
1.4估计分布的参数:单变量高斯,方差已知:
根据后验概率公式:
考虑概率密度函数的等比例性质:
其中等式左边为概率密度函数,证明如下:
即后验概率函数又可写成:
且有:
从上式可知,先验信息(高斯分布的均值)会随着试验次数n的增大,对后验信息的影响逐渐减小。
直观理解:
随着试验次数的增多,预测结果的方差会减小,即预测结果更加准确。
1.5 估计分布的参数:单变量高斯,方差未知
已知:
且其中lambda满足Gamma函数分布
似然函数为:
计算后验概率:
显然后验概率满足Gamma函数。其参数(a,b)与试验次数相关。
1.6估计模型的参数: 回归
Bayes学习方法同样可以用在回归模型中,设:
首先回顾一下之前最大似然估计的思路(详情见之前讲义)
对于其目标函数有:
对参数的估计可转换为最小二乘法:
结果为:
利用bayes的逻辑,将充分考虑先验信息(结构风险最小化):
剩下的公式推导则很容易:
附加对于矩阵的可逆性证明:
1.7 线性回归的预测分布
考虑参数的所有取值情况有:
同样先考虑参数的所有取值情况,由于参数符合高斯分布,且概率之和等于一,有(推导较为繁琐,可直接看结论):
将两个高斯分布展开:
其中:
综上:
继续对上式经行展开推导,有:
其中:
所以最后得到结果为:
继续对结果经行变形:
根据S-M公式(舍曼和莫里森于1949年提出)有:
带入L,有:
尽管本讲公式推导较为繁琐,但各种学习方法都可以和贝叶斯学习方法有效的结合。都是假设已知信息有效的情况下,实验数据偏少,充分利用先验信息,先给定一个初步预测,再通过实验的经行(已知信息的增加)不断对先验信息经行校正,使之不断的向精确偏移。在之前的推到中,我们可以发现随着实验次数的不断增大,贝叶斯学习的结果将无限趋近于MLE的结果。所以事实上当实验数据量足够大时,先验信息的取值误差对结果的影响很小。即当数据量有保障时,先验信息的取值不用过于谨慎。
注:更多内容详见课件,回复「课件」二字即可领取!
历史文章回顾
机器学习Machine Learning
领取专属 10元无门槛券
私享最新 技术干货