给定包含
条记录的数据集
:
线性回归模型试图学习一个线性模型以尽可能地预测因变量
:
同大多数算法一样,多元线性回归的准确性也基于它的假设,在符合假设的情况下构建模型才能得到拟合效果较好的表达式和统计性质较优的估计参数。
是一个期望值为零的随机变量,即
的方差是相同的,即
的值是相互独立的
是一个服从正态分布的随机变量
将线性表达式写为向量形式:
利用最小二乘法令均方误差最小化:
注:当线性回归模型存在多重共线性问题时,可能会有多组解使得均方误差最小化,常见的解决方法是引入正则化。
对数线性回归本质上仍然是线性回归模型,只是我们将因变量的对数作为模型新的因变量:
当数据集不适合用传统的多元线性回归方法拟合时,我们可以考虑对因变量做一些合理的变换。最常用的就是对数线性回归,还有很多其他的变换统称为“广义线性模型”generalized linear model
:
其中
是单调可微函数。
在一元线性回归中,我们可以根据因变量和因变量的图像来检验是否符合线性关系。在多元线性回归中无法用图形帮助判断
是否随
作线性变化,因此显著性检验就显得尤为重要。检验包括单个/多个回归系数的显著性检验和回归方程的整体显著性检验。
对于任意一个参数
,构造原假设与备择假设:
当
成立时,我们构造
统计量:
其中
是
的对角线上第
个元素。给定显著性水平
,检验的拒绝域为:
构造原假设:
备择假设即
不全为零,当原假设成立时,构造
统计量:
其中
,通常我们将前者称为回归平方和,后者称为残差平方和。给定显著性水平
,检验的拒绝域为:
我们常使用
来衡量回归直线对观测值的拟合程度,
表示总体利差平方和,这个思想和回归方程的整体显著性检验殊途同归。
由
的统计性质可知:
因此
的区间估计可写为:
[1] 统计建模与R软件 [2] 商务与经济统计