在这一篇文章中,我们将会介绍下n元语法模型和解决因为数据缺乏的情况下引入的几种常用的平滑度算法,
1:n元语法模型
n元语法模型的基本的公式可以看作为下面的概率公式P:
这个公式所表示的含义其实是在产生第...,所有的历史其实就是前边的i-1个词,这样的话我们构造的模型就成为(n-1)阶马尔科夫模型,或者说n元语法模型(因为我们要预测第n个词)....),trigram(三元语法),fourgram(四元语法)....现在假设一个说话者的使用词有20000个,那么参数的数量如下图所示:
从这个图上我们看到,到四元语法模型就已经拥有非常巨大的参数了,所以构造更多的语法模型显然是不现实的.
2:构建n元语法模型
1;通常构建模型的第一步是处理语料...首先我们需要对语料进行处理,因为根据n元语法要求,一个词的概率只跟前边的词的概率有关,因为要使所有的概率之和为1,因此我们要在句首和句尾加上一个句首标记和句尾标记,这样的话我们就可以计算,下边举一个例子