当回归模型中的自变量之间高度相关时,存在多重共线性。
例如,如果你的模型包括2个变量,即工作经验年数和工资,那么在你的模型中就很有可能存在多重共线性。原因是从常识上讲,经验越丰富,薪水越高。
它会使模型估计失真或难以估计准确, 回想一下线性回归模型的 MSE 损失函数的偏导数:
为了找到最优回归系数,我们要最小化损失函数 MSE,换句话说就是找到最小化 MSE 的回归系数值。通过进行一些转换,可以使用以下等式找到最佳参数:
上面的公式中:
这里我们假设 XTX 是可逆的,以便能够估计 theta_hat 。但是,如果 X 的列彼此线性相关(存在多重共线性),则 XTX 是不可逆的。
由于回归模型中存在共线性,所以很难解释模型的系数 。
还记得回归系数的解释吗?
回归系数英文名称:regression coefficient
定义:回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,因变量所期望的变化量。在回归方程中表示自变量x 对因变量y 影响大小的参数。回归系数越大表示x 对y 影响越大,正回归系数表示y 随x 增大而增大,负回归系数表示y 随x 增大而减小。回归方程式Y=bX+a中之斜率b,称为回归系数,表X每变动一单位,平均而言,Y将变动b单位。
如果模型中存在多重共线性,这意味着一些自变量是相关的,简单的说一个变量的变化与另一个变量的变化相关。相关性越强,在不改变另一个输入的情况下解释每次输入变化的输出变化就越困难。所以会降低估计系数的精度或降低模型的性能。
这里有一些推荐的方法来消除或减少线性回归模型中的多重共线性
本文分享自 DeepHub IMBA 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!