estimator:
- consistency 一致性
- bias 偏离
- efficiency
- mean squared error 均方误差 MSE = variance + bias^2
矩量法 Method of Moments
- 通过求解一组矩的方程来估计参数,基于观测数据的矩与模型参数的矩之间的等价关系
- 定义问题,建立数学模型,求解模型参数的矩与观测数据的矩之间的方程组来估计参数
- 示例:求解带电体周围的电势分布,包括定义问题、建立方程、离散化、计算矩量、建立方程组、求解方程组和后处理
极大似然估计 Maximum Likelihood Estimation, MLE
- 通过最大化似然函数来估计模型参数:在给定观测数据的情况下,找到一组参数值,使得模型产生这些数据的概率最大
- 联合概率:两个或多个事件同时发生的概率,
- 条件概率:在已知一个事件已经发生的情况下,另一个事件发生的概率
极大似然估计法估计高斯分布
- 示例:通过极大似然估计法估计高斯分布的均值和标准差
高斯分布的概率密度函数(PDF):观测数据x ,均值\mu ,方差\sigma^2
f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) 似然函数是所有观测数据点联合概率的乘积:
L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i|\mu,\sigma^2) 代入高斯分布pdf:
L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) 取对数似然函数:
\ell(\mu, \sigma^2) = \log L(\mu, \sigma^2) = \sum_{i=1}^{n} \left[ -\frac{1}{2} \log(2\pi\sigma^2) - \frac{(x_i-\mu)^2}{2\sigma^2} \right] 对 \mu 求偏导:
\frac{\partial \ell}{\partial \mu} = \sum_{i=1}^{n} \frac{x_i - \mu}{\sigma^2} = 0 解得 \mu = \frac{1}{n} \sum_{i=1}^{n} x_i 即样本均值
对 \sigma^2 求偏导:
\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^{n} (x_i - \mu)^2 = 0 解得 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 即样本方差
最大后验概率估计 Maximum a posteriori probability estimate,MAP
在已知先验分布的情况下,通过最大化后验概率来估计模型参数
- 在似然函数的基础上,乘以参数的先验分布,然后最大化后验概率来估计参数
MAP与MLE的区别
- MLE:只考虑观测数据,不考虑参数的先验分布,
- MAP:在MLE的基础上,增加了对参数先验分布的考虑
贝叶斯定理 Bayes Rule
条件概率之间的关系:
P(A|B) = \frac{P(B|A)P(A)}{P(B)} 其中,P(A|B) 表示后验概率,P(B|A) ) 表示似然函数,P(A) 是先验概率,P(B)是事件B的边际概率
- 后验 Posterior:基于先验概率和似然函数计算得出,反映给定观测数据后对假设或参数的信念程度。
举例:贝叶斯分类器中计算后验概率来分类,贝叶斯网络中后验用于推理和预测
- 似然Likelihood:给定假设下观测数据出现的概率,反映观测数据与假设或参数之间的一致性程度
举例:MLE寻找能够最大化似然函数的参数值作为最优估计
- 先验 Priors:在没有观测数据前,对某个假设的概率分布的估计,可以基于经验、知识或假设来设定,不合理的先验概率则可能导致模型偏差或过拟合
- 边际 Marginal:某个事件不考虑其他事件发生时的概率,反映了事件本身发生的概率
posterior = \frac{likelihood \ast prior}{marginal} 参考:
https://sjster.github.io/introduction_to_computational_statistics/docs/index.html