概述
EM算法可以用来求解包含隐变量的极大似然参数估计问题。在标注类机器学习问题中,隐变量通常指序列元素的标记变量。例如分词通过标记来解决时,标记变量的枚举有四个:,求解使得似然函数最大的标记序列。此外,GMM和K-means求解也用到了EM算法。
形式
上图中,式(2)为包含隐变量z的对数似然函数,因为时和的对数形式,所以通过求导方式求解比较困难。采取的方式是寻找似然函数的近似函数,该函数满足条件(3)和(4)。利用Jensen不等式,求得该近似函数为式(9)。经过一定近似后,近似函数可以表示为条件期望值,即E步中的目标函数,这里不再赘述。
求解
求解分两步,E和M。E步的目标函数即为上述近似函数简化。M步求的期望函数的极值解,然后将解代入E中,计算得到新的目标期望函数,再进入M求解,重复迭代,直到收敛。由于第二步直接求导数,使其为零,所以不是全局最优解。
类比
牛顿法、梯度下降法的求解公式都是先寻找相似的近似函数,通过求解近似函数局部极值解,迭代得到原始问题的近似解。具体见参考文献。
参考文献
https://spaces.ac.cn/archives/4277
https://spaces.ac.cn/archives/5239
《统计学习方法》
https://www.cnblogs.com/Determined22/p/5776791.html
领取专属 10元无门槛券
私享最新 技术干货