不难发现,基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计得到。为避开这个障碍,朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设”(attribute conditional independence assumption):对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。基于属性条件独立性假设,贝叶斯公式可重写为:
P(c \mid x)=\frac{P(c) P(x \mid c)}{P(x)}=\frac{P(c)}{P(x)} \prod_{i=1}^{d} P\left(x_{i} \mid c\right)
其中d为属性数目,x_i 为x在第i个属性上的取值。由于对所有类别来说P(x)相同,因此基于贝叶斯判定准则有
h_{n b}(x)=\underset{c \in \gamma}{\arg \min } P(c) \prod_{i=1}^{d} P\left(x_{i} \mid c\right)
这就是朴素贝叶斯分类器的表达式。显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P\left(x_{i} \mid c\right) 。令D_c 表示训练集D中第c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率P(c)=\frac{\left|D_{c}\right|}{|D|}
对离散属性而言,令D_{c, x_{i}} 表示D_c 中在第i个属性上取值为x_i 的样本组成的集合,则条件概率P\left(x_{i} \mid c\right) 可估计为P(c)=\frac{\left|D_{c, x_{i}}\right|}{|D|} 对连续属性可考虑概率密度函数,假定p\left(x_{i} \mid c\right) \sim N\left(\mu_{c, i}, \sigma_{c, i}^{2}\right) ,其中\mu_{c, i} 和\sigma_{c, i}^{2} 分别是第c类样本在第i个属性上取值的均值和方差,则有
p\left(x_{i} \mid c\right)=\frac{1}{\sqrt{2 \pi \sigma_{c, i}}} \exp \left(-\frac{\left(x_{i}-\mu_{c, i}\right)^{2}}{2 \sigma_{c, i}^{2}}\right)
下面我们用西瓜数据集3.0训练一个朴素贝叶斯分类器,对测试例“例1”进行分类;
编号 | 色泽 | 根蒂 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 敲声 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
测1 | 青绿 | 蜷缩 | 清晰 | 凹陷 | 硬滑 | 0.607 | 0.460 | 浊响 | ? |
首先估计类先验概率P(c),显然有
然后为每个属性估计条件概率P\left(x_{i} \mid c\right) :
p密度:0.667|是=p(密度=0.697|好瓜=是)=\frac{1}{\sqrt{2 \pi} \cdot 0.129} \exp \left(-\frac{(0.697-0.574)^{2}}{2 \cdot 0.129^{2}}\right) \approx 1.959
p密度:0.667|是=p(密度=0.697|好瓜=是)=\frac{1}{\sqrt{2 \pi} \cdot 0.195} \exp \left(-\frac{(0.697-0.496)^{2}}{2 \cdot 0.195^{2}}\right) \approx 1.203
p密度:0.667|是=p(密度=0.697|好瓜=是)=\frac{1}{\sqrt{2 \pi} \cdot 0.101} \exp \left(-\frac{(0.460-0.279)^{2}}{2 \cdot 0.101^{2}}\right) \approx 0.788
p密度:0.667|是=p(密度=0.697|好瓜=是)= \frac{1}{\sqrt{2 \pi} \cdot 0.108} \exp \left(-\frac{(0.460-0.154)^{2}}{2 \cdot 0.108^{2}}\right) \approx 0.066
于是,有
P(好瓜=是)\times P青绿|是\times P蜷缩|是\times P浊响|是\times P凹陷|是\times P硬滑|是\times p密度:0.697|是\times p含糖:0.460|是\approx 0.063
P(好瓜=否)\times P青绿|否\times P蜷缩|否\times P浊响|否\times P凹陷|否\times P硬滑|否\times p密度:0.697|否\times p含糖:0.460|否\approx 0.680 \times 10^{-5}
由于0.063>0.680 \times 10^{-5} ,因此,朴素贝叶斯分类器将测试样本“测1”判别为“好瓜”。
需注意,肉某个属性值在训练集中没有与某个类同时出现过,则直接基于P\left(x_{i} \mid c\right) 进行概率估计,再根据h_{n b}(x) 进行判别将出现问题。例如,在使用西瓜数据集3.0训练朴素贝叶斯分类器时,对一个“敲声=清脆”的测试例,有
P清脆|是=P(敲声=清脆|好瓜=是)=0
由h_{n b}(x) 的连乘计算出的概率值为零,因此,无论该样本的其他属性是什么,哪怕在其他属性上明显像好瓜,分类的结构都是“好瓜=否”,这显然不太合理。
为了避免其他属性携带的信息被训练中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”,常用“拉普拉斯修正”(Laplace correction)。具体来说,令N表示训练集中可能的类别数,N_i表示第i个属性可能的取值,则P(c)和P\left(x_{i} \mid c\right) 分别修正为\hat{P}(c)=\frac{\left|D_{c}\right|+1}{|D|+N} ,\hat{P}\left(x_{i} \mid c\right)=\frac{\left|D_{c_{i}, x}\right|+1}{\left|D_{c}\right|+1}
例如,在本例中,类先验概率可估计为\hat{P} (好瓜|是)=(8+1)/(17+2)\approx 0.474
(好瓜|否)=(9+1)/(17+2)\approx 0.526
青绿|是=\hat{P}(色泽=青绿|好瓜=是)=(3+1)/(8+3)\approx 0.364
青绿|否= \hat{P}(色泽=青绿|好瓜=否)=(3+1)/(9+3)\approx 0.333
同时,上文提到的概率P清脆|是,可估计为
青绿|是= \hat{P}(敲声=清脆|好瓜=是)=(0+1)/(8+3)\approx 0.091
显然,拉普拉斯修正避免了因训练集样本不允许而导致概率估值为零的问题,并且在训练集变大时,修正过程所引入的先验(prior)的影响也会逐渐变得可忽略,使得估值趋向于实际概率值。在现实任务中朴素贝叶斯分类器有多种使用方法。例如,若任务对预测速度要求较高,则对给定训练集,可将朴素贝叶斯分类器设计的所有概率值估值实现算好存储起来,这样在进行预测时只需“查表”即可进行判别;若任务数据更换频繁,则可采用“懒惰学习”(lazy learning)方式,先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估值;若数据不断增加,则可在现有估值基础上,仅对新增样本的属性值所涉及的概率估值进行计数修正即可实现增量学习。