标题
简介
EM算法详解
Q函数
EM算法的导出
EM算法的收敛性
高斯混合模型
简介
EM算法,又叫做期望最大化算法,该算法可以通过反复迭代来求解带有不可观察的隐变量的概率模型中的参数,本质上每次迭代都是对参数做最大似然估计。
在机器学习建模中,可以用来建模的因素如此之多,我们不可能将所有的因素都考虑进来,因此在模型中往往会有那些被我们忽略或者我们没有观测到的建模因素。这些因素被称为隐变量。EM算法可以将这些隐变量考虑到建模因素中,EM算法的过程如下图所示
如图为完全数据的极大似然函数,但是由于存在隐变量我们没办法得出的正确式子。因此我们定义了极大似然函数的下界函数当前仅当时,两函数的值才相等。因此在E步,我们已有一个估计的参数值(初始化或上次迭代计算出的参数),但是此时这个参数值对应的的值不等于的值。因此在E步中我们以当前的估计参数极大化,使得该参数对应的与的函数值相等。结果如上图所示,处极大似然函数与下界函数的函数值相等。然后在M步,我们求出使得取得极大的参数。然后将作为下一次迭代的当前参数值。
EM算法通过反复的迭代一定可以收敛到某个局部最优,但不能保证能收敛到全局最优,因此,EM算法对初值敏感。
EM算法详解
Q函数
Q函数被定义为,完全数据的对数似然函数关于给定的观测数据Y和当前参数的条件下,对未观测数据Z的条件概率分布的期望。即
这里的Q函数和上面提到的下界函数是等价的,因此EM算法的E步是求解当前参数和观测值对应的Q函数,在M步求出使Q函数极大的参数。
EM算法的导出
完全数据的对数似然函数为
假设是使得上式达到极大的参数值,那么对于任意的参数估计值都会有
且上式恒大于等于0,更进一步由琴生不等式可以得到
因此我们可以定义下界函数为
在M步我们要求使得下界函数取得极大的
最终我们发现下界函数与Q函数是等价的。
EM算法的收敛性
我们知道每次迭代后的参数都使得似然估计变大,由于极大似然函数有界,因此必有极限。并且由下图我们可以知道,如果初始的参数很小的话,EM算法则会收敛到一个局部极大。
高斯混合模型
在高斯判别法中,由于样本数据有自己的标签,故训练集为完全数据,当在无
学习中,样本点不包含标签,故训练集只包含观测数据。以数据由两个高斯分布生成为例,当训练集为完全数据的时候,此时y服从伯努利分布,x服从两个不同的高斯分布,因此有
其对数似然函数可以写为
求
领取专属 10元无门槛券
私享最新 技术干货