Loading [MathJax]/extensions/TeX/AMSmath.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一元线性回归

一元线性回归

作者头像
爱编程的小明
发布于 2022-09-06 05:56:10
发布于 2022-09-06 05:56:10
1.7K0
举报
文章被收录于专栏:小明的博客小明的博客

本章小结 一元线性回归(掌握) 回归方程及估计(经验)的回归方程(掌握) 参数的最小二乘估计一最小化残差平方和(掌握) 回归方程的拟合优度: 和估计标准误差(掌握) 回归模型的显著性检验(掌握) 回归方程总体的显著性检脸(线性关系检验,或F检验) 回归系数的显著性检验(回归系数检验,或t检验) 回归系数的区间估计(掌握) 利用回归方程进行估计和预测(理解) 点估计:个别值的,点估计、平均值的点估计 区间估计:平均值的置信区间估计、个别值的预测区间

相关和回归分析是用来度量数值型自变量和数值型因变量之间关系的分析方法。

相关分析

相关是考察两个变量是否存在共同变化的趋势 两个变量共同变化的趋势在统计中用共变异数(covariance)来表示,即变量A的取值从低到高变化时变量B是否也同样发生变化。

相关关系是指变量之间存在的不确定的数量关系。这种关系与函数关系最大的区别是一个变量的取值不能由另一个变量唯一确定。

线性相关关系的度量

相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。可以根据计算数据来源分为总体相关系数( )和样本相关系数( )。线性相关系数的计算方法为:

线性相关系数也叫做Pearson相关系数。分子中

又叫做共变异数,通过对共变异数的标准化处理来得到r

相关系数的性质如下:

  • 对称性
  • 数值大小与x和y的原点及尺度无关
  • 仅仅是线性关系的度量
  • 不能作为是否存在因果关系的判断依据。

相关关系的显著性检验

作为 的近似值,会受到抽样波动的影响,因此我们 一般认为 是一个随机变量,因此有必要进行显著性检验。

r的抽样分布受到总体相关系数和样本量的影响,只有当 非常接近0且 很大时,才能认为 是接近正态分布的随机变量。

的显著性检验主要依据R. A. Fisher提出的t检验方法:

  1. 提出假设

  1. 构造并计算检验统计量:
  1. 进行决策,如果 ,则拒绝原假设,表明两个变量之间存在显著线性关系。

一元线性回归

相关分析的目的在于使用相关系数测量变量之间的关系强度,回归分析注重考察变量之间的数量关系。

回归分析解决的问题:

  • 因变量与若干个自变量的数学关系式
  • 对关系式的可信程度进行检验
  • 对自变量对因变量影响的显著程度进行计算
  • 度量预测或者估计的可靠程度

回归模型

一元线性回归模型中,y是x的线性函数再加上误差项

:

针对这一模型的主要假设:

  • 线性关系假设:y与x具有线性关系
  • 独立性:对于一个特定的x,它对应的y或者误差项是和其他x值所对应的y或者误差项是不相关的。
  • 零均值:误差项是一个期望值为0的随机变量,这个假设意味着预测y的期望值

, 即假定模型的形式为一条直线

  • 同方差:对所有的x值,误差项的方差

都相等,这也是说预测值y的方差是

  • 正态性:观察值y服从正态分布,因此,误差项是一个服从正态分布的随机变量,即

回归方程

考虑到回归模型中 均值为零,因此y的期望值

, 描述因变量y的期望值如何依赖x的方程就是回归方程(regression equation),一元线性回归方程的形式为:

实际应用过程中,总体回归参数 是未知的,必须利用样本数据进行估计,通过样本数据估计回归方程中的未知参数的得到的回归方程叫做估计的回归方程(estimated regression equation),一般写作:

其中两个参数为回归方程两个参数的估计量,一般采取最小二乘估计进行计算,这里不加证明地给出参数的估计量:

截距的估计量为:

可以证明,最小二乘法得到的估计量是总体参数的无偏有效一致估计量。

拟合优度度量

拟合优度(Goodness of Fit)是指回归直线和各观测点的接近程度,为说明直线拟合优度,可以计算判定系数或者估计标准误差。 拟合优度实质上说明的是回归模型在多大程度上解释了因变量取值的差异。

判定系数

与方差分析类似,将y取值的波动分解:

两边平方求和导出误差项:

上述式子也可以写作:

关于误差的自由度的问题这里做一个特殊说明,一般来说,统计量的自由度是样本容量和限制条件的差,这个可以用来解释SSE的自由度为什么是n-k-1,SST的自由度是n-1。除此以外,自由度也是值一个随机向量的自由的维数,也就是该向量能被完整描述的最少标准单位向量数,对于样本观察值

, 其实可以看成是k+1个维度的向量的线性组合,故

的自由度是k+1, 但是因为在计算SSR时要考虑

,故SSR损失了一个自由度,自由度为k。

接着定义回归直线的判定系数(coefficient of determination),记为

,用回归平方和占总平方和的比例表示:

越接近1,拟合程度越好。

一元线性回归中的相关系数r实际是

的平方根,正负取决于一次项的回归系数。

在实际运用过程中,我们发现可以通过增加解释变量的个数来增大判定系数,为了解决这个问题对判定系数进行适当修正:

\begin{align*} R_{a}^2&=1-\frac{SSE /(n-k-1)}{SST /(n-1)}\\ &=1-(1-R^2)\times \frac{n-1}{n-k-1} \end{align*}

估计标准误差

估计标准误差(standard error of estimate)就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根:

SSE的自由度是n-k-1,对于多元回归模型,回归方程中参数的估计值有k+1个(k个解释变量加一个截距),相当于给SSE增加了k+1个约束条件,因此自由度为n-k-1。 另外需要注意的是,

其实是回归方程中

的无偏估计量,反映的是y随机波动的大小。

显著性检验

拟合优度反映的是我们用建立的回归方程进行估计或者预测时的精度(回归模型多大程度上解释了因变量取值的差异),根据样本数据拟合回归方程时我们作出了一系列假设,这些假设是否成立则需要进行检验(样本数据是否能真实反应变量之间的关系) 回归分析的显著性检验主要包括线性关系检验回归系数检验两部分内容。

线性关系检验

线性关系检验主要是检验自变量与因变量之间的线性关系是否显著,一般通过构造F统计量进行检验, 这里以一元线性回归为例进行说明:

  1. 提出假设:
  1. 构造F统计量:
  1. 根据F的值做出决策,这里进行简单说明:线性关系越强,随机误差和SSE就越小,即构造的F统计量会越大,越应该拒绝

,这也决定了我们的假设检验应该是一个右侧检验: 若 F>F_{\alpha}> ,则拒绝 ,认为两个变量线性关系显著。

回归系数的检验

回归系数的检验某一自变量对因变量影响的显著程度,需要强调的是这样的检验只是对线性关系的检验,这里需要与前边总体线性关系区分开的是这里所说的检验是指因变量与某一个自变量之间的线性关系的检验,这两种检验方式的差异会在多元线性回归中看到明显区别。

估计回归方程中的回归系数是根据抽烟数据计算得到的,因此回归方程中的回归系数(

)可以视为一个随机变量,也都有自己的分布.

统计上可以证明,回归系数

服从正态分布,均值为

,标准差为:

其中

是误差项的标准差, 然后用

的估计量

代替未知的

σ

可以得到

^β1

的标准差:

s^β1=Seni=1(xi¯¯¯x)2

这样就可以构造回归系数

β1

的t统计量:

t=^β1β1s^β1t(n2)

接着可以提出回归系数的显著性检验为:

  1. 提出检验:
H0:β1=0
  1. 计算检验统计量t
t=^β1S^β1
  1. 做出决策:

则拒绝H0 , 即x与y之间存在着显著的线性关系。

区间估计

根据

^β1

的分布情况,我们也可以得到它对应的区间估计:

ˆβ1±tα/2(n2)Seni=1(xi¯x)2

使用回归方程对因变量进行估计和预测

这部分主要涉及的是对建立的回归模型对现实的解释能力,主要包括个别值预测和平均值预测,估计方法主要涉及点估计和置信区间估计,因为置信区间估计会涉及点估计取值,因此这里直接给出置信区间的估计。 个别值预测:

^y=^β0+^β1x+ε

平均值预测:

E(^y)=^β0+^β1x

对于同一个x, 平均值的点估计(记为

)和个别值的点估计是一样的,而两者的方差是不一样的,因此两者的区间估计是不同的。

两种值的点估计值都是

区间估计

对y的区间估计有两种类型:

  • 对y的个别值进行估计得到的估计区间叫做预测区间(prediction interval)。
  • 对y的平均值进行估计得到的估计区间叫做置信区间(confidence interval)。
预测区间估计

对于一个给定的

,对因变量y的个别值的估计区间为(

的置信水平下):

置信区间估计

对于一个给定的

,对因变量y的平均值的估计区间为(

的置信水平下):

通过计算结果可以发现,预测区间的宽度会比置信区间的宽度大。

残差分析*

残差分析是指对回归模型中的残差

的假设是否成立的检验方法之一。 **残差(residual)**是因变量的观测值

与预测值

之间的差值,用

表示。

残差图

绘制残差图是进行残差分析的一个重要方法,一般可以绘制关于x的残差图(以x为自变量,

为因变量)、关于

的残差图

正态性检验

正态性的检验可以通过对标准化残差的分析来完成**。标准化残差(standardized residual)**是残差除以它的标准差后得到的数值,也称为Pearson 残差或者半学生化残差,用

表示。

接着就是针对标准化残差进行的正态分布的检验

多元线性回归

多元线性回归模型与一元类似,只不过相比之下自变量更多,且自变量之间可能存在共线性。 对于多元回归模型来说,在解释回归系数

的含义时,一定要记得强调是在其他自变量的值不改变的情况下,

的变化会引起的预测值的变化。

多元线性回归模型

多元回归方程(multiple regression equation):

估计的多元回归方程

多元回归方程也通过最小二乘进行估计,利用样本值对参数进行估计得到估计的多元回归方程:

拟合优度

拟合优度检验与一元完全一致,这里不再赘述。

显著性检验

线性关系检验

检验因变量y与k个自变量之间的线性关系是否显著,也称为总体显著性检验: 提出假设:

\begin{align*} H_0:\beta_1=\beta_1=\dots=\beta_k=0 \\ H_1:\beta_0,\beta_1,\dots=\beta_k\text{至少有一个不等于0} \end{align*}

计算检验统计量F:

作出统计决策

回归系数检验

提出假设:

\begin{align*} H_0:\beta_i=0 \\ H_1:\beta_i\ne 0 \end{align*}

计算检验统计量t:

其中:

作出统计决策

多重共线性

回归模型中自变量个数大于1个时,可能存在两个或者两个以上的自变量彼此相关,这个时候称回归模型存在多重共线性

多重共线性可能会使得因变量与特定自变量的线性关系不显著,甚至还有可能导致参数估计值有正负号的变化 多重共线性出现的原因有以下几种:

  • 经济变量之间存在较为密切的关系
  • 经济变量之间存在相同的趋势
  • 模型中引入滞后变量容易产生多重共线性

如果出现下列情况,暗示存在多重共线性:

  • 模型中各对自变量之间显著相关
  • 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著
  • 回归系数的正负号与预期的相反
  • 借助构造的统计量容忍度(tolerance)与方差扩大因子(variance inflation factor,VIF)

某个自变量的容忍度等于1减去以该自变量作为因变量,对其它k一1个变量进行回归得到的判定系数。 计算公式:

容忍度越小,多重共线性越严重。 通常认为容忍度小于0.1时,存在严重的多重共线性。 方差扩大因子又叫做方差膨胀因子,等于容忍度的倒数,一般认为

大于2则存在多重共线性问题,VIF大于10则认为存在严重的多重共线性问题。

处理办法

多重共线性的处理办法

  1. 变量选择(将一个或多个相关的自变量从模型中别除,使保留的自变量尽可能不相关)
  2. 如果要在模型中保留所有的自变量,则应
    1. 避免根据t统计量对单个参数进行检验
    2. 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内

选择依据

  1. AIC准则:

k增大会导致

的值变大(自变量个数增加给模型带来的惩罚),SSE减小会使得

的值减小(自变量个数增加带来的残差平方和的减少)。

最终值的变化由两种趋势的相对关系决定,使用

进行变量选择的标准是:使得AIC达到最小的模型就是最优模型 2. BIC准则:

,因此相比来说BIC准则对变量个数的增加惩罚力度更大,选择标准一致。 3. 选择自变量的另一个原则是对统计量进行显著性检验:

  • 若自变量的引入能显著降低

,那么该变量的引入是有必要的,否则没有必要引入,而对于引入自变量是否使得

显著减少,]]]则可以借助

统计量,以此来确定剔除/增加自变量

向前选择:

向后剔除:

逐步回归:

利用回归模型进行估计与预测

与一元类似

含有定性自变量的回归模型

在模型中引入定性自变量

  • 定性变量通常能够以二元信息的形式呈现。
  • 通常用0-1变量来为模型引入相关的定性信息,称之为虚拟变量(dummy variables)或指示变量(indicator variable)
  • 若定性变量只有两个水平,则可将其定义为一个虚拟变量
  • 若定性变量有k个水平,那么需要k-1个虚拟变量(k-1个变量都为0时表示取值为第k个水平)

回归模型中涉及虚拟自变量时,则称为虚拟自变量的回归。 这里给出一个简单的例子 为了研究考试成绩与性别的关系,从某大学获得样本容量为n的样本数据。这时建立回归模型时就需要定义一个虚拟变量x来表示性别,如果假定x=1表示男生,x=0表示女生: 回归方程:

上述回归方程取x=1时就表示男学生考试成绩的期望值;

注意:当指定虚拟变量0一1时

总是代表与虚拟变量值0所对应的那个分类变量水平的平均值

总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=

一个例子

注意含有虚拟变量时回归系数含义的解释方式

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【今日三题】爱吃素(数学) / 相差不超过k的最多数(滑动窗口) / 最长公共子序列(一)(两个数组的dp)
_小羊_
2025/05/04
910
【今日三题】爱吃素(数学) / 相差不超过k的最多数(滑动窗口) / 最长公共子序列(一)(两个数组的dp)
【今日三题】经此一役小红所向无敌(模拟) / 连续子数组最大和(动态规划) / 非对称之美(贪心)
_小羊_
2025/04/16
360
【今日三题】经此一役小红所向无敌(模拟) / 连续子数组最大和(动态规划) / 非对称之美(贪心)
【今日三题】压缩字符串(模拟) / chika和蜜柑(topK) / 01背包
_小羊_
2025/04/13
770
【今日三题】压缩字符串(模拟) / chika和蜜柑(topK) / 01背包
18级个人训练赛--2
B --Consecutive Integers AtCoder 5037 思路:水题,签到~
杨鹏伟
2020/09/11
3170
人工智能基础-动态规划
田忌赛马中,使用下等马对战上等马,使用上等马和中等马对战中等马和下等马,这就是运筹学的一个应用
DearXuan
2022/01/19
4340
动态规划--Kin
动态规划: 1.最大子序列和 2.LIS最长递增子序列 3.LCS最长公共子序列 4.矩阵连乘 5.数字金字塔 1.最大子序列和 #include<iostream> using namespace std; int maxsub(int a[],int n) { int sum=0,b=0; for(int i=0;i<=n;i++) { if(b>0) b+=a[i]; else b=a[i]; if(b>sum) sum=b; } return s
Kindear
2018/05/09
5480
河工院首届工业设计大赛程序组(挑战赛)题解
本题主要考察四舍五入,C语言中是四舍六入,但是需要四舍五入,则在结果后面加上0.001即可。
浪漫主义狗
2024/05/07
1380
【算法/训练】:动态规划DP
动态规划(Dynamic Programming,DP)是一种在数学、管理科学、计算机科学、经济学和生物信息学等领域中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题
IsLand1314
2024/10/15
4440
【算法/训练】:动态规划DP
河南工程学院2022级新生周赛(三)题解
A. 6男 ---- 原题链接 题目大意: 给定一个字符串 S,求最长的连续的 6 的字串的长度。 S 可能含有空格。 ---- 思想: 签到题。 读入时注意空格。 ---- 代码: #include <iostream> #include <cstring> #include <cstdio> #include <algorithm> #include <cmath> #include <sstream> #include <vector> #include <queue> #include <stac
浪漫主义狗
2022/10/09
3020
动态规划专题刷题记录②:最长上升子序列
朴素的LIS做法,这里展示O(n^2)的做法,思考方法见上方最长上升子序列模型的思考方法。
Here_SDUT
2022/06/29
1.1K0
动态规划专题刷题记录②:最长上升子序列
【今日三题】ISBN号码(模拟) / kotori和迷宫(BFS最短路) / 矩阵最长递增路径(dfs)
_小羊_
2025/05/09
280
【今日三题】ISBN号码(模拟) / kotori和迷宫(BFS最短路) / 矩阵最长递增路径(dfs)
合唱队形【动态规划】【最长递增子序列】
N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学不交换位置就能排成合唱队形。 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1, 2, …, K,他们的身高分别为T1, T2, …, TK, 则他们的身高满足T1 < T2 < … < Ti , Ti > Ti+1 > … > TK (1 <= i <= K)。 你的任务是,已知所有N位同学的身高,计算最少需要几位同学出列,可以使得剩下的同学排成合唱队形。
来杯Sherry
2023/05/25
3260
【今日三题】小红的口罩(小堆) / 春游(模拟) / 数位染色(01背包)
_小羊_
2025/05/06
620
【今日三题】小红的口罩(小堆) / 春游(模拟) / 数位染色(01背包)
动态规划专题——线性DP
给定一个如下图所示的数字三角形,从顶部出发,在每一结点可以选择移动至其左下方的结点或移动至其右下方的结点,一直走到底层,要求找出一条路径,使路径上的数字的和最大。
浪漫主义狗
2022/09/21
5990
2019年安徽大学ACM/ICPC实验室新生赛
A.素数分布函数\pi (n)π(n)表示小于或等于n的素数的数目。例如\pi (10)=4π(10)=4(2,3,5,7是素数)。这个函数涉及到许多高等数论的内容,甚至和黎曼猜想挂钩,目前还有很多数学家正在不断探索其中的奥秘。千里之行始于足下,现在你开始关心一个问题:在正整数域中素数的分布是怎么样的。为了探索这个问题,你需要计算出一些\pi (n)π(n)的值。
杨鹏伟
2020/09/11
6740
动态规划-区间DP
文章目录 区间DP 四边形不等式优化 例题 石子合并 回文串 区间DP image.png //朴素DP参考 for (int i = 1; i <= n; i++)dp[i][i]=0; for (int len = 1; len <= n; len++){ //枚举区间长度 for (int i = 1; i <= n - len; i++){ //枚举区间的起点 int j = i + len; //根据起点和长度得出终点 for(int k = i; k
唔仄lo咚锵
2020/09/15
4460
HPU personal-training 2
A - Kefa and Park 题意:就是一棵树,然后本人的家在根上,餐厅在叶子节点上。然后在前往叶子结点的餐厅的时候,途中的结点上有猫,而这个人特别怕毛,如果猫超过M只,那么他就不会走这条路!最终要你输出他能去餐厅的数量,也就是多少条路!
杨鹏伟
2020/09/11
3210
湖南大学程序设计竞赛新生赛(重现赛)
题目链接—点我开启传送门哦! A.题意:就是求任意两个斐波那契数列的最大公约数!
杨鹏伟
2020/09/11
5430
湖南大学程序设计竞赛新生赛(重现赛)
Codeforces Round #725 (Div. 3)
n个石子排成一排,每个石子有一个能力值,且每个石子的能力值各不相同,每次可以销毁最左边的石子或者最右边的石子,问最少几次消除能力值最大和最小的石子。
Here_SDUT
2022/08/08
2910
Codeforces Round #725 (Div. 3)
【今日三题】爱丽丝的人偶(贪心) / 集合(排序) / 最长回文子序列(动态规划)
_小羊_
2025/04/16
400
【今日三题】爱丽丝的人偶(贪心) / 集合(排序) / 最长回文子序列(动态规划)
推荐阅读
相关推荐
【今日三题】爱吃素(数学) / 相差不超过k的最多数(滑动窗口) / 最长公共子序列(一)(两个数组的dp)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档