Loading [MathJax]/extensions/TeX/AMSmath.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一元线性回归

一元线性回归

作者头像
爱编程的小明
发布于 2022-09-06 05:56:10
发布于 2022-09-06 05:56:10
1.7K0
举报
文章被收录于专栏:小明的博客小明的博客

本章小结 一元线性回归(掌握) 回归方程及估计(经验)的回归方程(掌握) 参数的最小二乘估计一最小化残差平方和(掌握) 回归方程的拟合优度: 和估计标准误差(掌握) 回归模型的显著性检验(掌握) 回归方程总体的显著性检脸(线性关系检验,或F检验) 回归系数的显著性检验(回归系数检验,或t检验) 回归系数的区间估计(掌握) 利用回归方程进行估计和预测(理解) 点估计:个别值的,点估计、平均值的点估计 区间估计:平均值的置信区间估计、个别值的预测区间

相关和回归分析是用来度量数值型自变量和数值型因变量之间关系的分析方法。

相关分析

相关是考察两个变量是否存在共同变化的趋势 两个变量共同变化的趋势在统计中用共变异数(covariance)来表示,即变量A的取值从低到高变化时变量B是否也同样发生变化。

相关关系是指变量之间存在的不确定的数量关系。这种关系与函数关系最大的区别是一个变量的取值不能由另一个变量唯一确定。

线性相关关系的度量

相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。可以根据计算数据来源分为总体相关系数( )和样本相关系数( )。线性相关系数的计算方法为:

线性相关系数也叫做Pearson相关系数。分子中

又叫做共变异数,通过对共变异数的标准化处理来得到r

相关系数的性质如下:

  • 对称性
  • 数值大小与x和y的原点及尺度无关
  • 仅仅是线性关系的度量
  • 不能作为是否存在因果关系的判断依据。

相关关系的显著性检验

作为 的近似值,会受到抽样波动的影响,因此我们 一般认为 是一个随机变量,因此有必要进行显著性检验。

r的抽样分布受到总体相关系数和样本量的影响,只有当 非常接近0且 很大时,才能认为 是接近正态分布的随机变量。

的显著性检验主要依据R. A. Fisher提出的t检验方法:

  1. 提出假设

  1. 构造并计算检验统计量:
  1. 进行决策,如果 ,则拒绝原假设,表明两个变量之间存在显著线性关系。

一元线性回归

相关分析的目的在于使用相关系数测量变量之间的关系强度,回归分析注重考察变量之间的数量关系。

回归分析解决的问题:

  • 因变量与若干个自变量的数学关系式
  • 对关系式的可信程度进行检验
  • 对自变量对因变量影响的显著程度进行计算
  • 度量预测或者估计的可靠程度

回归模型

一元线性回归模型中,y是x的线性函数再加上误差项

:

针对这一模型的主要假设:

  • 线性关系假设:y与x具有线性关系
  • 独立性:对于一个特定的x,它对应的y或者误差项是和其他x值所对应的y或者误差项是不相关的。
  • 零均值:误差项是一个期望值为0的随机变量,这个假设意味着预测y的期望值

, 即假定模型的形式为一条直线

  • 同方差:对所有的x值,误差项的方差

都相等,这也是说预测值y的方差是

  • 正态性:观察值y服从正态分布,因此,误差项是一个服从正态分布的随机变量,即

回归方程

考虑到回归模型中 均值为零,因此y的期望值

, 描述因变量y的期望值如何依赖x的方程就是回归方程(regression equation),一元线性回归方程的形式为:

实际应用过程中,总体回归参数 是未知的,必须利用样本数据进行估计,通过样本数据估计回归方程中的未知参数的得到的回归方程叫做估计的回归方程(estimated regression equation),一般写作:

其中两个参数为回归方程两个参数的估计量,一般采取最小二乘估计进行计算,这里不加证明地给出参数的估计量:

截距的估计量为:

可以证明,最小二乘法得到的估计量是总体参数的无偏有效一致估计量。

拟合优度度量

拟合优度(Goodness of Fit)是指回归直线和各观测点的接近程度,为说明直线拟合优度,可以计算判定系数或者估计标准误差。 拟合优度实质上说明的是回归模型在多大程度上解释了因变量取值的差异。

判定系数

与方差分析类似,将y取值的波动分解:

两边平方求和导出误差项:

上述式子也可以写作:

关于误差的自由度的问题这里做一个特殊说明,一般来说,统计量的自由度是样本容量和限制条件的差,这个可以用来解释SSE的自由度为什么是n-k-1,SST的自由度是n-1。除此以外,自由度也是值一个随机向量的自由的维数,也就是该向量能被完整描述的最少标准单位向量数,对于样本观察值

, 其实可以看成是k+1个维度的向量的线性组合,故

的自由度是k+1, 但是因为在计算SSR时要考虑

,故SSR损失了一个自由度,自由度为k。

接着定义回归直线的判定系数(coefficient of determination),记为

,用回归平方和占总平方和的比例表示:

越接近1,拟合程度越好。

一元线性回归中的相关系数r实际是

的平方根,正负取决于一次项的回归系数。

在实际运用过程中,我们发现可以通过增加解释变量的个数来增大判定系数,为了解决这个问题对判定系数进行适当修正:

\begin{align*} R_{a}^2&=1-\frac{SSE /(n-k-1)}{SST /(n-1)}\\ &=1-(1-R^2)\times \frac{n-1}{n-k-1} \end{align*}

估计标准误差

估计标准误差(standard error of estimate)就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根:

SSE的自由度是n-k-1,对于多元回归模型,回归方程中参数的估计值有k+1个(k个解释变量加一个截距),相当于给SSE增加了k+1个约束条件,因此自由度为n-k-1。 另外需要注意的是,

其实是回归方程中

的无偏估计量,反映的是y随机波动的大小。

显著性检验

拟合优度反映的是我们用建立的回归方程进行估计或者预测时的精度(回归模型多大程度上解释了因变量取值的差异),根据样本数据拟合回归方程时我们作出了一系列假设,这些假设是否成立则需要进行检验(样本数据是否能真实反应变量之间的关系) 回归分析的显著性检验主要包括线性关系检验回归系数检验两部分内容。

线性关系检验

线性关系检验主要是检验自变量与因变量之间的线性关系是否显著,一般通过构造F统计量进行检验, 这里以一元线性回归为例进行说明:

  1. 提出假设:
  1. 构造F统计量:
  1. 根据F的值做出决策,这里进行简单说明:线性关系越强,随机误差和SSE就越小,即构造的F统计量会越大,越应该拒绝

,这也决定了我们的假设检验应该是一个右侧检验: 若 F>F_{\alpha}> ,则拒绝 ,认为两个变量线性关系显著。

回归系数的检验

回归系数的检验某一自变量对因变量影响的显著程度,需要强调的是这样的检验只是对线性关系的检验,这里需要与前边总体线性关系区分开的是这里所说的检验是指因变量与某一个自变量之间的线性关系的检验,这两种检验方式的差异会在多元线性回归中看到明显区别。

估计回归方程中的回归系数是根据抽烟数据计算得到的,因此回归方程中的回归系数(

)可以视为一个随机变量,也都有自己的分布.

统计上可以证明,回归系数

服从正态分布,均值为

,标准差为:

其中

是误差项的标准差, 然后用

的估计量

代替未知的

可以得到

的标准差:

这样就可以构造回归系数

的t统计量:

接着可以提出回归系数的显著性检验为:

  1. 提出检验:
  1. 计算检验统计量t
  1. 做出决策:

则拒绝 , 即x与y之间存在着显著的线性关系。

区间估计

根据

的分布情况,我们也可以得到它对应的区间估计:

使用回归方程对因变量进行估计和预测

这部分主要涉及的是对建立的回归模型对现实的解释能力,主要包括个别值预测和平均值预测,估计方法主要涉及点估计和置信区间估计,因为置信区间估计会涉及点估计取值,因此这里直接给出置信区间的估计。 个别值预测:

平均值预测:

对于同一个x, 平均值的点估计(记为

)和个别值的点估计是一样的,而两者的方差是不一样的,因此两者的区间估计是不同的。

两种值的点估计值都是

区间估计

对y的区间估计有两种类型:

  • 对y的个别值进行估计得到的估计区间叫做预测区间(prediction interval)。
  • 对y的平均值进行估计得到的估计区间叫做置信区间(confidence interval)。
预测区间估计

对于一个给定的

,对因变量y的个别值的估计区间为(

的置信水平下):

置信区间估计

对于一个给定的

,对因变量y的平均值的估计区间为(

的置信水平下):

通过计算结果可以发现,预测区间的宽度会比置信区间的宽度大。

残差分析*

残差分析是指对回归模型中的残差

的假设是否成立的检验方法之一。 **残差(residual)**是因变量的观测值

与预测值

之间的差值,用

表示。

残差图

绘制残差图是进行残差分析的一个重要方法,一般可以绘制关于x的残差图(以x为自变量,

为因变量)、关于

的残差图

正态性检验

正态性的检验可以通过对标准化残差的分析来完成**。标准化残差(standardized residual)**是残差除以它的标准差后得到的数值,也称为Pearson 残差或者半学生化残差,用

表示。

接着就是针对标准化残差进行的正态分布的检验

多元线性回归

多元线性回归模型与一元类似,只不过相比之下自变量更多,且自变量之间可能存在共线性。 对于多元回归模型来说,在解释回归系数

的含义时,一定要记得强调是在其他自变量的值不改变的情况下,

的变化会引起的预测值的变化。

多元线性回归模型

多元回归方程(multiple regression equation):

估计的多元回归方程

多元回归方程也通过最小二乘进行估计,利用样本值对参数进行估计得到估计的多元回归方程:

拟合优度

拟合优度检验与一元完全一致,这里不再赘述。

显著性检验

线性关系检验

检验因变量y与k个自变量之间的线性关系是否显著,也称为总体显著性检验: 提出假设:

\begin{align*} H_0:\beta_1=\beta_1=\dots=\beta_k=0 \\ H_1:\beta_0,\beta_1,\dots=\beta_k\text{至少有一个不等于0} \end{align*}

计算检验统计量F:

作出统计决策

回归系数检验

提出假设:

\begin{align*} H_0:\beta_i=0 \\ H_1:\beta_i\ne 0 \end{align*}

计算检验统计量t:

其中:

作出统计决策

多重共线性

回归模型中自变量个数大于1个时,可能存在两个或者两个以上的自变量彼此相关,这个时候称回归模型存在多重共线性

多重共线性可能会使得因变量与特定自变量的线性关系不显著,甚至还有可能导致参数估计值有正负号的变化 多重共线性出现的原因有以下几种:

  • 经济变量之间存在较为密切的关系
  • 经济变量之间存在相同的趋势
  • 模型中引入滞后变量容易产生多重共线性

如果出现下列情况,暗示存在多重共线性:

  • 模型中各对自变量之间显著相关
  • 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著
  • 回归系数的正负号与预期的相反
  • 借助构造的统计量容忍度(tolerance)与方差扩大因子(variance inflation factor,VIF)

某个自变量的容忍度等于1减去以该自变量作为因变量,对其它k一1个变量进行回归得到的判定系数。 计算公式:

容忍度越小,多重共线性越严重。 通常认为容忍度小于0.1时,存在严重的多重共线性。 方差扩大因子又叫做方差膨胀因子,等于容忍度的倒数,一般认为

大于2则存在多重共线性问题,VIF大于10则认为存在严重的多重共线性问题。

处理办法

多重共线性的处理办法

  1. 变量选择(将一个或多个相关的自变量从模型中别除,使保留的自变量尽可能不相关)
  2. 如果要在模型中保留所有的自变量,则应
    1. 避免根据t统计量对单个参数进行检验
    2. 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内

选择依据

  1. AIC准则:

k增大会导致

的值变大(自变量个数增加给模型带来的惩罚),SSE减小会使得

的值减小(自变量个数增加带来的残差平方和的减少)。

最终值的变化由两种趋势的相对关系决定,使用

进行变量选择的标准是:使得AIC达到最小的模型就是最优模型 2. BIC准则:

,因此相比来说BIC准则对变量个数的增加惩罚力度更大,选择标准一致。 3. 选择自变量的另一个原则是对统计量进行显著性检验:

  • 若自变量的引入能显著降低

,那么该变量的引入是有必要的,否则没有必要引入,而对于引入自变量是否使得

显著减少,]]]则可以借助

统计量,以此来确定剔除/增加自变量

向前选择:

向后剔除:

逐步回归:

利用回归模型进行估计与预测

与一元类似

含有定性自变量的回归模型

在模型中引入定性自变量

  • 定性变量通常能够以二元信息的形式呈现。
  • 通常用0-1变量来为模型引入相关的定性信息,称之为虚拟变量(dummy variables)或指示变量(indicator variable)
  • 若定性变量只有两个水平,则可将其定义为一个虚拟变量
  • 若定性变量有k个水平,那么需要k-1个虚拟变量(k-1个变量都为0时表示取值为第k个水平)

回归模型中涉及虚拟自变量时,则称为虚拟自变量的回归。 这里给出一个简单的例子 为了研究考试成绩与性别的关系,从某大学获得样本容量为n的样本数据。这时建立回归模型时就需要定义一个虚拟变量x来表示性别,如果假定x=1表示男生,x=0表示女生: 回归方程:

上述回归方程取x=1时就表示男学生考试成绩的期望值;

注意:当指定虚拟变量0一1时

总是代表与虚拟变量值0所对应的那个分类变量水平的平均值

总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=

一个例子

注意含有虚拟变量时回归系数含义的解释方式

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
线性回归(二)-违背基本假设的情况和处理方法
由线性回归(一)^1,我们通过数学中的极值原理推导出了一元线性回归的参数估计和多元线性回归的参数估计的拟合方程计算方法。同时为了检验拟合质量,我们引入了两种主要检验:
EatRice
2020/06/13
13.6K0
线性回归(二)-违背基本假设的情况和处理方法
线性回归(一)-多元线性回归原理介绍
高中的数学必修三有一个概念——线性拟合,其主要原理是通过对两组变量的统计值模型化。高中的的模型主要是简单的一维线性模型,在某种程度上也可以叫做一次函数,即 y = kx + b 的形式。这是一个简单的线性拟合,可以处理两组变量的变化趋势呈现相当的线性规律的问题,且关于因变量只有一个自变量。实际情况下,对于一个目标函数进行估计,其影响因素可能会有多个,且各个因素对于结果的影响程度各不相同。若多个变量的的取值与目标函数取值仍呈现线性关系,则可以使用多元线性回归进行建模预测。本文将从一元线性回归推广到多元线性回归。并通过统计学的显著性检验和误差分析从原理上探究多元线性回归方法,以及该方法的性质和适用条件。
EatRice
2020/06/13
5.8K0
线性回归(一)-多元线性回归原理介绍
最强总结!8个线性回归核心点!!
那从今天开始,我预计会陆陆续续出一些内容,来论述各个算法的基础核心点,大家感兴趣可以关注起来。
Python编程爱好者
2024/05/13
9000
最强总结!8个线性回归核心点!!
spss线性回归模型汇总_多元线性回归分析模型
多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为:
全栈程序员站长
2022/09/20
2.5K0
回归分析中自变量取舍、检验及多重共线性处理(VIF)「建议收藏」
A1 正交假定:误差项矩阵与X中每一个x向量都不相关 高斯-马尔科夫定理:若满足A1和A2假定,则采用最小二乘法得到回归参数估计是最佳线性无偏估计 方程估计值b1和b2可以看做偏回归系数,也是相应自变量对y的一种偏效应 偏效应:在控制变量下,各自变量X对因变量Y的净效应 残差项:针对具体模型而言,被定义为样本回归模型中观测值与预测值之差 误差项:针对总体真实回归模型而言,它由一些不可观测因素或测量误差所引起 纳入无关自变量并不影响OLS估计结果的无偏性,但是如果无关自变量如果与其他自变量相关,会导致相应回归系数(b1,b2)的标准误增大;换句话说,如果总体中无关自变量对y没有偏效应,那么把它加入模型只可能增加多重共线性问题,从而减弱估计的有效性。 因此,不要加入无关自变量,原因是
全栈程序员站长
2022/09/02
3.4K0
ISLR线性回归笔记
对单个的predicter做是否有效(不等于0)的检验可以使用t-test,但是对整体做是否有效(至少有一个系数不等于0)则需要用F-test。
用户1147754
2019/05/27
9550
线性回归的结果解释 II:函数形式变化的影响
因变量(Y)与自变量(X)间的线性关系并非一般性特征,引入非线性(nonlinearities)关系很有必要。在应用研究中,最常见的非线性关系通常有两种:
直立行走
2023/04/25
3K0
线性回归的结果解释 II:函数形式变化的影响
【机器学习】乱象中寻序,虚实间求真:统计学连接数据与真理的桥梁
在机器学习的学习旅程中,统计学作为支撑理论之一,是理解数据与模型之间关系的关键。无论是在数据分析、模型评估还是假设检验中,统计学都有着举足轻重的作用。在之前的博客中,我们已经介绍了线性代数和概率论的基础,这些都为进一步的学习奠定了基础。今天,我们将深入讲解统计学基础,特别是在机器学习中的应用。
半截诗
2025/01/09
1490
【机器学习】乱象中寻序,虚实间求真:统计学连接数据与真理的桥梁
【机器学习笔记】:大话线性回归(三)
当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性,也就是说共线性的自变量提供了重复的信息。
Python数据科学
2018/12/13
1.7K0
《机器学习核心算法》二、线性回归:协方差分析、多重共线性与假设检验
大家好!今天我们来聊聊线性回归中三个重要的概念:协方差分析、多重共线性和假设检验。线性回归是一种强大的工具,用于研究变量之间的关系,但要正确使用它,我们需要理解这些关键概念。让我们开始吧!
javpower
2025/05/30
1.2K0
《机器学习核心算法》二、线性回归:协方差分析、多重共线性与假设检验
【机器学习笔记】:大话线性回归(二)
前一篇文章给大家介绍了线性回归的模型假设,损失函数,参数估计,和简单的预测。具体内容请看下面链接:【机器学习笔记】:大话线性回归(一)
Python数据科学
2018/12/10
2K0
【机器学习笔记】:大话线性回归(二)
回归模型最强总结!!
先来进行一个简单的介绍,回归算法的重要性体现在其能够建立特征与目标之间的关系模型,实现预测、关系分析和特征重要性评估等多方面的应用。通过回归分析,我们能够理解变量之间的趋势、检测异常值、为决策提供支持,并在时间序列中进行趋势分析,为数据科学和实际问题提供有力的工具。
Python编程爱好者
2024/01/18
4400
回归模型最强总结!!
突破最强算法模型,回归!!
读者问:“我听说在某些回归算法中,如岭回归和LASSO,数据标准化或归一化非常重要。但是,我不太清楚什么时候以及为什么需要进行这些步骤。方便大概解释一下吗?”
Python编程爱好者
2023/12/18
3530
突破最强算法模型,回归!!
多元回归分析
前面我们讲了一元线性回归,没看过的可以先去看看:一元线性回归分析。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。
张俊红
2019/11/07
1.4K0
一元线性回归的细节
文/程sir(简书作者) 原文:http://www.jianshu.com/p/fcd220697182 一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。 ---- 什么是一元线性回归 回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条
机器学习AI算法工程
2018/03/14
2.1K0
一元线性回归的细节
【数据挖掘 & 机器学习 | 时间序列】时间序列必备工具箱: 自相关与偏相关检验
【数据挖掘 & 机器学习 | 时间序列】时间序列必备工具箱: 自相关与偏相关检验 作者: 计算机魔术师 版本: 1.0 ( 2023.11.18 )
计算机魔术师
2023/11/20
1.6K0
【数据挖掘 & 机器学习 | 时间序列】时间序列必备工具箱: 自相关与偏相关检验
一元线性回归分析
回归模型最重要的两个应用场景就是预测分析和因果关系分析,比如我们上学的时候学过的一元一次方程组y = kx + b就是一个最简单的回归模型,当我们知道一个x时,比如此时的x是月份,就可以通过方程求出这个这个x对应的y,这里的y可以是销量,这个通过x求取y的过程就是一个预测的过程。
张俊红
2019/08/21
1.4K0
一元线性回归分析
【数据分析 R语言实战】学习笔记 第九章(中)多元回归分析 回归诊断
多元线性回归分析同样由函数lm()完成,但参数formula的表达式应表示为多元形式
Ai学习的老章
2019/04/10
5.3K0
【数据分析 R语言实战】学习笔记 第九章(中)多元回归分析 回归诊断
[机器学习算法]线性回归模型
同大多数算法一样,多元线性回归的准确性也基于它的假设,在符合假设的情况下构建模型才能得到拟合效果较好的表达式和统计性质较优的估计参数。
TOMOCAT
2020/06/09
1K0
[机器学习算法]线性回归模型
线性回归模型
线性回归模型作为统计学和机器学习领域的一项基础而强大的工具,广泛应用于预测分析和数据建模。其简单直观的特性使其成为理解和实践数据科学的入门砖石。本文旨在深入浅出地讲解线性回归模型的基本概念、工作原理、实现步骤以及在实际问题中的应用示例,帮助读者全面掌握这一经典模型。
终有链响
2024/07/29
2210
推荐阅读
相关推荐
线性回归(二)-违背基本假设的情况和处理方法
更多 >
LV.1
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档