先验概率:事情还没有发生,根据以往经验和分析得到的概率,在事情发生之前,得到的事情(结果)发生的概率。...,因为我们的风险比较低,用数学式子表达一下:
计算后验概率是我们需要考虑的,这里有两个模型需可以考虑,一个是判别模型,就是直接构造概率分布:
,一个是生成模型,下面进行叙述:
在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率...因为P(x|c)是需要我们构建复杂的模型进行生成的,我们假设x是独立同分布的,那么有:
,朴素贝叶斯分类器就是基于训练集D来估计先验概率和类条件概率
首先是先验概率:
对于离散属性:我们让其条件概率为...现在我们要求每个字模型的这些参数来作为分类手段
EM算法
还是上面的吃西瓜,对于一个西瓜的数据集,我们很难观察出所有西瓜的数据集成分,所以说我们就假设一个没有观测到的变量,我们把这个变量称为隐变量,现在我们想求隐变量的分布...:依据当前参数,计算每个数据
来自子模型
的可能性
M-step:计算新一轮迭代的模型参数
(用这一轮更新后的
)