贝叶斯公式
例:假设某个动物园里的雌性和雄性熊猫的比例是4:6,雌性熊猫中90%的熊猫是干净整洁的,雄性熊猫中20%是干净整洁的。
1. 求解“正向概率”:
在动物园中看到一只干净整洁的雄性熊猫的概率是多少?
2. 求解“逆向概率”:
如果看到一只熊猫是干净整洁的,它是雄性的概率是多少?
假设x表示观测变量,w表示模型参数:
假设x表示观测变量,w表示模型参数:
联合概率 = 条件概率 X 边缘概率
p(w,x)=p(x│w)p(w)=p(w│x)p(x)
某变量的边缘概率等于
p(x)=∑_w▒p(w,x) p(w)=∑_x▒p(w,x)
贝叶斯公式
p(w|x)=p(w,x)/p(x)=p(x│w)p(w)/∑_w▒p(w,x)
贝叶斯决策分类器的相关概念
贝叶斯决策(Bayesian decision)是概率框架下实施决策的基本方法,它通过综合考虑决策的后验分布和错误决策的损失来做出决策。其中,贝叶斯公式被用于计算后验分布。
贝叶斯决策的前提是假设:
例:根据熊猫的形态特征来判断熊猫的性别。
设w表示性别, w=1表示雌性, w=2表示雄性。
熊猫为雌性的先验概率为p(w=1),为雄性的先验概率为p(w=2),则
p(w=1)+p(w=2)=1
假设x表示观测变量,刻画熊猫的形态特征,x=1表示熊猫是干净整洁的,反之x=0.
在给定决策问题的概率描述(先验概率和似然概率)之后,贝叶斯决策使用贝叶斯公式推导出性别变量w的后验分布p(w|x),然后通过决策规则做出决策。
最小错误率贝叶斯决策
决策的平均错误率尽可能地小。
熊猫分类问题分类错误:
某样本类别是雄性w=2,但被分为雌性w=1;
某样本类别是雄性w=1,但被分为雌性w=2;
决策的平均错误率:
对于二分类问题,最小错误率贝叶斯决策:
二分类的最小错误率贝叶斯决策示意图
考虑更一般的多分类问题,假设存在C个类别,将特征空间分为区域R_1,R_2,⋯,R_C。每一类都会错分成其他类,那么决策的平均错误率可表示为
可能错分的情况存在C×(C−1)种,涉及到的计算很多,
所以通常采样计算平均正确率p(correct)来计算p(error)
对于更一般化的多类分类问题,最小错误率决策表示为最大化平均正确率,平均正确率p(correct)的计算如下:
由上式可以看出,最大化p(correct)等价于将x判别为联合概率p(x,w)最大类别,即决策输出ℎ(x)表示为
在实际分类应用中,往往不必计算后验概率。根据贝叶斯公式,后验概率可以表示为联合概率除以边缘概率p(x),对于所有类别,分母都是相同的,所以决策时实际上只需比较分子即可。因此只需要计算p(x│w)p(w),将样本判别为其值最大类别。
最小风险贝叶斯决策
最小化决策带来的平均损失,也叫做最小化风险(risk)。
考虑一个多类分类问题,样本的真实类别为第j类,但是被误判为第i类的损失为
对于C类分类问题,损失矩阵是一个C×C的矩阵(λ_ij)_C×C.根据损失的定义可知,损失矩阵的对角元素通常为0。
平均损失的两重含义:
获得观测值后,决策造成的损失对实际所属类别的各类可能的平均,称为条件风险(conditional risk):
条件风险对x的数学期望,称为总体风险:
决策函数:
以二分类问题为例。
标记α_1表示把样本判别为第一类,α_2表示把样本判别为第二类。
二分类问题中的损失矩阵λ_ij是一个2×2的矩阵,条件风险为:
根据最小风险贝叶斯决策规则,如果满足
或者满足
则x将被判别为第一类,否则被判别为第二类。
最小风险贝叶斯决策&最小错误率贝叶斯决策
假设决策损失定义为0−1损失,即
此时,条件风险=条件错误率
参数估计
最大似然估计(maximum likelihood estimation)
最大似然估计是一种给定观测时估计模型参数的方法,它试图在给定观测的条件下,找到最大化似然函数的参数值。
例:假设数据的分布是联合高斯分布的,那么似然函数就是所有观测数据以均值与协方差为参数的联合高斯密度函数,此时p(D|θ)=N(D|μ,Σ) 。最大似然方法找到使得似然函数p(D|θ)最大的模型参数的值θ ̂_ml,即
为了计算方便,通常使用似然函数的自然对数作为优化目标,称作对数似然(log-likelihood),那么
如果数据是独立同分布的且样本个数为N,那么所有训练数据的对数似然函数表示为
考虑基于高斯分布的贝叶斯分类器,给出高斯分布的最大似然估计。假设某类别具有N个样本,则类条件密度/似然密度函数的对数为
关于均值和协方差进行求导,对上式进行最大化,以得到均值与协方差的估计值:
最大后验估计
最大后验估计是在最大似然估计的基础上考虑参数的先验分布,通过贝叶斯公式获得参数的后验分布 ,并以后验分布作为估计的优化目标。参数θ的最大后验估计θ ̂_map表示为
虑基于高斯分布的贝叶斯分类器,假设协方差已知情况下给出对均值的最大后验估计。首先假设均值是服从高斯分布的,如μ~N(0,Σ_μ),则其对数后验概率为
期望最大化算法(expectation maximization,EM)
例:对不完整数据建模时,使用隐变量定义缺失数据;
对复杂的观测数据建模时,使用隐变量定义潜在因素。
考虑一个概率模型,X表示观测变量集,Z表示隐变量集,θ表示模型参数,目标是最大化观测变量X对参数θ的对数似然函数:
EM算法是一种迭代算法,常用于求解带有隐变量的概率模型的最大似然或者最大后验估计。
E步:根据给定观测变量X和当前参数θ推理隐变量Z的后验概率分布,并计算观测数据X和隐变量Z的对数联合概率关于Z的后验概率分布的期望;
M步:最大化E步求得的期望,获得新的参数θ。
贝叶斯参数估计
贝叶斯参数估计不直接估计参数的值,而是通过贝叶斯公式推理出参数的后验分布。因此贝叶斯参数估计得到的是参数θ在给定观测数据集D的后验分布
贝叶斯参数估计从训练数据X学习出参数的后验分布p(θ_c|X,w=c)。在训练完成后,利用该后验分布可以得到测试样本 的类条件概率分布为
考虑基于高斯分布的贝叶斯分类器,假设协方差已知,且μ~N(0,Σ_μ),则均值参数的后验分布为
关注我们吧!
微信订阅号:Master编程树
领取专属 10元无门槛券
私享最新 技术干货