从贝叶斯角度,正则项等价于引入参数w的先验概率分布。常见的L1/L2正则,分别等价于引入先验信息:参数w符合均值为0的拉普拉斯分布/高斯分布。
贝叶斯方法的参数估计,就是通过最大化后验概率来估计模型的参数。
假定模型参数为w,数据集为D,贝叶斯通过最大化后验概率估计模型参数w,即:

假定如下:

最新的优化问题为:

当参数w的先验概率满足高斯分布:

优化问题的左项中,如果w满足

:

这时候的优化函数为:

同样地,参数w的先验概率满足均值为0的拉普拉斯分布,有:

这说明:

以参数w的先验概率满足均值为0的高斯分布为例,优化问题为:


所以有:

总结:逻辑回归,通过贝叶斯法最大化后验概率。在数据的概率满足逻辑函数的假设下得到了cross entropy的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。
线性回归,假设误差满足均值为0的高斯分布,该假设符合一般的规律。

所以有:

总结:线性回归,通过贝叶斯法最大化后验概率。在误差为均值0的高斯分布的假设下得到了square error的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。