对于概率分布p(y|x),我们希望特征f的期望应该和从训练数据中得到的特征期望是一样的。因此,可以提出约束:
?
假设从训练数据中抽取了n个特征,相应的便有n个特征函数以及n个约束条件。
?...将(4.7)带回(4.6),可以得到:
?
?
(4.9)称为规范化因子。(4.8)中的p是最大熵模型的解,可以看到他具有指数的形式。...根据拉格朗日对偶性,可以通过求解对偶最优化问题得到原始最优化问题的解。所以求解max min L(p,w)首先需要求解关于p的极小化问题。为此需要固定w0和w1。求偏导数:
?...再求L(p,w)关于w的极大化问题:
?
分别对w0和w1求偏导,并令其等于0,可以得到
?
五、最优化算法
公式(4.11)没有显式的解析解,因此需要借助于其他的方法。...由于目标函数是一个 凸函数,所以可以借助多种优化方法来进行求解,并且能保证得到全局最优解。
为最大熵模型量身定制的两个最优化方法分别是通用迭代尺度法(GIS)和改进的迭代尺度法(IIS)。