Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >回归分析

回归分析

作者头像
爱编程的小明
发布于 2022-09-05 09:47:18
发布于 2022-09-05 09:47:18
9220
举报
文章被收录于专栏:小明的博客小明的博客

在一些问题中,常常希望根据已有数据,确定目标变量(输出,即因变量)与其它变量(输入,即自变量)的关系。当观测到新的输入时,预测它可能的输出值。这种方法叫回归分析(确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法)。

  • 自变量的数量:一元回归和多元回归分析。
  • 线性关系:线性回归分析和非线性回归分析。
  • 一元线性回归:只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。
  • 多重线性回归分析:如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关。

常用方法

线性回归

线性回归模型通常是处理因变量是连续变量的问题。最小二乘法是用于拟合回归线最常用的方法。对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。 在计算总偏差时,偏差先平方,所以正值和负值没有抵消。 线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。

逻辑回归

为什么要在公式中使用对数log呢?因为在这里使用的是二项分布(因变量),需要选择一个对于这个分布最佳的连结函数。它就是logit函数。在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差。 逻辑回归属于分类算法,预测结果是离散的分类,例如判断用户是否会点击某条广告。因此逻辑回归是一种经典的二分类算法。

改造方法:

OvR(One vs Rest),一对剩余的意思,有时候也称它为 OvA(One vs All);一般使用 OvR,更标准;n 种类型的样本进行分类时,分别取一种样本作为一类,将剩余的所有类型的样本看做另一类,这样就形成了 n 个二分类问题,使用逻辑回归算法对 n 个数据集训练出 n 个模型,将待预测的样本传入这 n 个模型中,所得概率最高的那个模型对应的样本类型即认为是该预测样本的类型; OvO(One vs One),一对一的意思;n 类样本中,每次挑出 2 种类型,两两结合,一共有Cn2C_n^2Cn2​ 种二分类情况,使用 Cn2C_n^2Cn2​种模型预测样本类型,有 Cn2 个预测结果,种类最多的那种样本类型,就认为是该样本最终的预测类型; 改造方法不是指针对逻辑回归算法,而是在机器学习领域有通用性,所有二分类的机器学习算法都可使用此方法进行改造,解决多分类问题;

多项式回归(Polynomial Regression)

对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 通常,多项式回归的方法是通过增加特征的方法,将高次项变换为1次项,从而将多项式回归问题转化为线性回归问题

逐步回归(Stepwise Regression)

在处理多个自变量时,可以使用逐步回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。

通过观察统计的值,来识别重要变量。逐步回归通过增删制定标准的协变量来拟合模型。 (1)标准逐步回归法。该方法做两件事情,即增加和删除每个步骤所需的预测。 (2)向前选择法。该方法从模型中最显著的预测开始,然后为每一步添加变量(依据AIC值)。 (3)向后剔除法。该方法与模型的所有预测同时开始,然后在每一步消除最小显著性的变量。 使用最少的预测变量数来最大化预测能力。是处理高维数据集的方法之一。

回归正则化办法

正则化是一种常见的防止过拟合的方法,一般原理是在代价函数后面加上一个对参数的约束项,这个约束项被叫做 正则化项 (regularizer)。

套索回归(Lasso Regression)

  • 弥补最小二乘和逐步回归的不足,可以很好的进行特征选择
  • 很好解决了特征多重共线性的问题
  • 特征高度相关,模型倾向于选择一个特征忽略其它特征,会导致结果的不稳定

岭回归(Ridge Regression)

自变量高度相关时使用,此时使用最小二乘虽然偏差不大,但方差会很大,进而导致观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。 线性等式中的预测误差来自偏差和方差,我们这里讨论来自方差的误差。 岭回归通过收缩参数λ(lambda)解决多重共线性问题。岭回归的损失函数(loss function)是在最小二乘法的损失函数的基础上添加了一个惩罚函数,该函数是回归系数向量的l2范数的λ倍。

两个组成部分。第一个是最小二乘项,另一个是β平方的λ倍,其中β是相关系数向量,与收缩参数一起添加到最小二乘项中以得到一个非常低的方差。

弹性网络回归(ElasticNet)

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。 当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。

支持向量机回归(SVR)

优点:

  • 不仅支持线性模型,对于数据和特征之间的非线性关系也能很好抓住;
  • 不需要担心多重共线性问题,可以避免局部极小化问题,提高泛化性能,解决高维问题;
  • 支持向量回归虽然不会在过程中直接排除异常点,但会使得由异常点引起的偏差更小。

缺点:计算复杂度高,在面临数据量大的时候,计算耗时长。

拟合程度检验–R²

R2R^2R2

  • 总偏差平方和(SST):实际值与实际值平均值的差的平方和
  • 回归平方和(SSR):观测值与实际值均值的差的平方和。它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。
  • 残差平方和(SSE):它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的。(一般会通过以自变量或者观测量为横坐标去绘制残差图,对拟合效果进行评价)
  • SST=SSR+SSE

模型评价

回归分析在数据量远大于特征数量时往往能表现出比较优良的效果,但是需要注意的是线性模型对于特征之间的共线性非常敏感,当特征之间存在共线性时,数据稍微有一些变动(噪声的存在)都会对回归结果产生巨大影响。

python实现

scikit-learn库

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
七种回归分析方法 个个经典
什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。 我们为什么使用回归分析? 如上所述,回归分析估计了两个或多个变量之间的关系。下面,让我们举一个
小莹莹
2018/04/18
1.1K0
七种回归分析方法 个个经典
你应该掌握的七种回归技术
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归
用户1737318
2018/06/05
7710
算法金 | 线性回归:不能忽视的五个问题
线性回归是一种统计方法,用于研究因变量 𝑌 和一个或多个自变量 𝑋 之间的线性关系。其理论依据主要基于以下几个方面:
算法金
2024/06/30
1300
算法金 | 线性回归:不能忽视的五个问题
详解:7大经典回归模型
来源:csdn 深度学习爱好者本文约2900字,建议阅读5分钟本文给大家介绍机器学习建模中7大经典的回归分析模型。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细
数据派THU
2023/04/18
1.2K0
详解:7大经典回归模型
【学习】让你欲罢不能的回归分析
本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/
小莹莹
2018/04/20
1.2K0
【学习】让你欲罢不能的回归分析
回归分析技术|机器学习
原文:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 回归分析是建模和分析数据的重要工具。本文
陆勤_数据人网
2018/02/28
1K0
回归分析技术|机器学习
突破最强算法模型,回归!!
读者问:“我听说在某些回归算法中,如岭回归和LASSO,数据标准化或归一化非常重要。但是,我不太清楚什么时候以及为什么需要进行这些步骤。方便大概解释一下吗?”
Python编程爱好者
2023/12/18
3500
突破最强算法模型,回归!!
你应该掌握的 7 种回归模型!
线性回归和逻辑回归通常是人们学习预测模型的第一个算法。由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了。而了解更多的学者会知道它们是所有回归模型的主要两种形式。
红色石头
2019/05/25
2.3K0
最强总结!8个线性回归核心点!!
那从今天开始,我预计会陆陆续续出一些内容,来论述各个算法的基础核心点,大家感兴趣可以关注起来。
Python编程爱好者
2024/05/13
8830
最强总结!8个线性回归核心点!!
机器学习回归模型的最全总结!
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将介绍回归分析概念、7种重要的回归模型、10 个重要的回归问题和5个评价指标。
算法进阶
2023/09/21
2K0
机器学习回归模型的最全总结!
常见回归算法
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中,它是一种预测性的建模技术,它研究的是因变量y(目标)和影响它的自变量x(预测器)之间的回归模型,从而预测因变量y的发展趋向。当有多个自变量时,可以研究每个自变量x对因变量y的影响强度。
咖喱猫
2024/01/19
2170
岭回归与LASSO回归:解析两大经典线性回归方法
岭回归,又称L2正则化,是一种用于解决多重共线性问题的线性回归技术。多重共线性是指自变量之间存在高度相关性的情况,这会导致普通最小二乘法(OLS)估计的不稳定性,使得模型的预测性能下降。岭回归通过在损失函数中添加一个正则化项来解决这个问题,其数学表达式如下:
小馒头学Python
2023/11/23
6.8K0
岭回归与LASSO回归:解析两大经典线性回归方法
「回归分析」知识点梳理
这正是回归分析所追求的目标。它是最常用的预测建模技术之一,有助于在重要情况下做出更明智的决策。在本文中,我们将讨论什么是回归分析,它是如何工作的。
Ai学习的老章
2020/12/08
9690
「回归分析」知识点梳理
线性回归模型
线性回归模型作为统计学和机器学习领域的一项基础而强大的工具,广泛应用于预测分析和数据建模。其简单直观的特性使其成为理解和实践数据科学的入门砖石。本文旨在深入浅出地讲解线性回归模型的基本概念、工作原理、实现步骤以及在实际问题中的应用示例,帮助读者全面掌握这一经典模型。
终有链响
2024/07/29
2160
数据分析之回归分析
回归,最初是遗传学中的一个名词,是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时,发现高个子回归于人口的平均身高,而矮个子则从另一个方向回归于人口的平均身高。
黄成甲
2018/09/12
3.6K0
数据分析之回归分析
机器学习中的回归分析:理论与实践
回归分析是统计学和机器学习中广泛使用的技术,主要用于建立因变量与自变量之间的关系模型。在实际应用中,回归分析不仅可以帮助我们理解数据,还能进行有效的预测。本文将深入探讨回归分析的基本概念、常用的回归算法、应用场景,以及如何使用 Python 实现回归模型。
平凡之路.
2024/10/10
1810
机器学习中的回归分析:理论与实践
常见的七种回归技术
介绍 根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。 内容 1.什么是回归分析? 2.我们为什么要使用回归分析? 3.回归有哪些类型 ? 4.线性回归 5.逻辑回归 6.多项式回归 7.逐步回归 8.岭回归 9.Lasso回归 10.ElasticNet回归 什么是回归分析? 回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些
智能算法
2018/04/02
1.2K0
常见的七种回归技术
【干货】机器学习中的五种回归模型及其优缺点
【导读】近日,机器学习工程师 George Seif 撰写了一篇探讨回归模型的不同方法以及其优缺点。回归是用于建模和分析变量之间关系的一种技术,常用来处理预测问题。博文介绍了常见的五种回归算法和各自的特点,其中不仅包括常见的线性回归和多项式回归,而且还介绍了能用于高维度和多重共线性的情况的Ridge回归、Lasso回归、ElasticNet回归,了解它们各自的优缺点能帮助我们在实际应用中选择合适的方法。 编译 | 专知 参与 | Yingying 五种回归模型及其优缺点 线性和逻辑斯蒂(Logistic)回
WZEARW
2018/04/08
9.5K0
【干货】机器学习中的五种回归模型及其优缺点
【独家】一文读懂回归分析
本文字数为10000字,阅读全文约需25分钟 本文为回归分析学习笔记。 前言 1.“回归”一词的由来 我们不必在“回归”一词上费太多脑筋。英国著名统计学家弗朗西斯·高尔顿(Francis Galton,1822—1911)是最先应用统计方法研究两个变量之间关系问题的人。“回归”一词就是由他引入的。他对父母身高与儿女身高之间的关系很感兴趣,并致力于此方面的研究。高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但从平均意义上说,给定父母的身高,儿女的身高却趋同于或者说回归于总人口的平均身
数据派THU
2018/01/29
3.6K0
回归分析中自变量取舍、检验及多重共线性处理(VIF)「建议收藏」
A1 正交假定:误差项矩阵与X中每一个x向量都不相关 高斯-马尔科夫定理:若满足A1和A2假定,则采用最小二乘法得到回归参数估计是最佳线性无偏估计 方程估计值b1和b2可以看做偏回归系数,也是相应自变量对y的一种偏效应 偏效应:在控制变量下,各自变量X对因变量Y的净效应 残差项:针对具体模型而言,被定义为样本回归模型中观测值与预测值之差 误差项:针对总体真实回归模型而言,它由一些不可观测因素或测量误差所引起 纳入无关自变量并不影响OLS估计结果的无偏性,但是如果无关自变量如果与其他自变量相关,会导致相应回归系数(b1,b2)的标准误增大;换句话说,如果总体中无关自变量对y没有偏效应,那么把它加入模型只可能增加多重共线性问题,从而减弱估计的有效性。 因此,不要加入无关自变量,原因是
全栈程序员站长
2022/09/02
3.4K0
相关推荐
七种回归分析方法 个个经典
更多 >
LV.1
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档