数据处理与回归模型的确立
你好,四月
大数据时代的到来
处理数据的能力便尤其显得重要了
尤其是在数学建模中
接下来,小编将与你一起初始这些知识
一.回归模型及其应用—线性回归模型
具体
1.线性回归模型
2.回归诊断
3.假设检验与预测
4.回归方程的选择
5.非线性回归
1.线性回归模型
线性统计(线性回归和方差分析)模型是现代统计学中应用最为广泛的模型之一,是其它统计模型研究或应用的基础.
线性关系是数学中最简单,最基本的一种关系,处理容易且有成熟的理论与方法.
夏日的美味
回归模型的任务
1.找出能够反映变量间真实关系的表达式
2.对变量之间的关系进行分析
3.利用这样的关系进行预测
多元线性回归模型
回归参数的估计—
最小二乘估计(约束最小二乘估计)
对β求偏导即可
2.回归诊断
回归诊断的两个任务:
1.考察实际数据是否满足多元线性回归模型的
Gauss-Markov假设——残差分析
2.探察对估计或预测有异常大影响的数据——
Cook统计量
回归诊断-影响分析
Cook统计量的大小度量了每组数据的影响的大小,对
每组数据,都可以有一个量来刻画它对回归系数估计
影响的大小.但是在实际中确定其临界值比较困难,可
通过实际问题进行比较.
对回归估计影响很大的数据,要进行必要的处理,
如修正,或者剔除
回归诊断-Box-Cox变换
Welcome
保罗的口袋
一家可以随意
借书的旧书店。
一般,如果残差图显示了误差方差不相等
,则可采用一些方法使得其模型方差近似相等.
包括:因变量的变换,
实际中效果比较好的有Box-Cox变换.
3.假设检验与预测
回归系数的检验—t检验
异常点的检验—F检验
因变量预测——点预测
因变量预测——区间预测
4.回归方程的选择—逐步回归分析
“最优”的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。
选择“最优”的回归方程有以下几种方法:
(1)从所有可能的因子(变量)组合的回归方程中选择最优者;
(2)从包含全部变量的回归方程中逐次剔除不显著因子;
(3)从一个变量开始,把变量逐个引入方程;
(4)“有进有出”的逐步回归分析。
以第四种方法,即逐步回归分析法在筛选变量方面较为理想.
逐步回归分析的思想
• 从一个自变量开始,视自变量Y作用的显著程度,从大到小依次逐个引入回归方程。
• 当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。
• 引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
• 对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。
• 这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
5.非线性回归—可线性化的一元非线性回归
此即非线性回归或曲线回归问题(需要配曲线)
配曲线的一般方法是:
先对两个变量x和y 作n次试验观察得画出散点图,
根据散点图确定须配曲线的类型.
然后由n对试验数据确定每一类曲线的未知参数a和b.采用的方法是通过变量代换把非线性回归化成线性回归,
即采用非线性回归线性化的方法.
通常选择的六类曲线如下:
今天算法分享到此结束,下期再见哦!
喜欢就关注我们哟,记得推荐哦
点个赞,晚安吧~
人之旅游,无非是走出原本的生活情境,跑去别人的情境里寻新鲜。
“熟悉的地方没有风景”。
——许嵩《海上灵光》
领取专属 10元无门槛券
私享最新 技术干货