☂
变是永恒的真理
拨开数据的迷雾,坐上老师机的车,Let's go!
在many many实际问题中,因变量Y的自变量往往有很多。在这个时候,你可能为不知选择哪些自变量建模而困扰! 什么样的模型才是最优啦?在这里,我们讨论一种最简单但又普遍的模型,既多元线性回归的建模策略。
栗子:研究各个因素对企业牙膏销售量的影响,为便于理解,我们研究牙膏价格X1,投入的广告费用X2,对企业牙膏销售量的影响(数据如下)。
1. 首先我们进行简单的模型确定
设变量Y与变量X1,X2,.....,Xp间有线性关系
Y=B+B1X1+.......+BpXp+Z
输入数据(只列部分),调用函数:
yagao
我们可以看到,回归系数和回归方程的检验都是显著滴,我们理所应当的确定多元线性方程:
Y=4.4075+1.5883X1+0.5635X2
到这里,很多人可能感觉so easy,但是真的是这样吗?
2. 模型的进一步分析
我们画出X1~Y和X2~Y的散点图,从散点图看出,对X1~Y用直线模拟较好,而X2~Y,则用二次曲线拟合较好。
所以,下面我们对X2进行相应的回归分析:
我们发现,此时模型残差的标准误有所下降,相应系数的平方R2却有点上升,说明模型的修正是合理的,but,也出现了一个问题,对应的X2的P值>0.05。
下面我们尝试着去掉X2的一次项,再次进行分析。
此时,模型虽然通过了F检验和t检验,但是,与上个模型对比,模型残差的标准误上升,R2下降,模型还是不足,难道我们只能止步于此,用一开始的模型吗?当然不是!
再做进一步修正,我们是否考虑X1和X2的交互作用,接下来,请看:
此模型不仅通过了F检验和t检验,并且,模型残差的标准误减少(几个模型中最小),R2增加(几个模型中最大),所以,此时的模型才是最优滴。
Y=29.1133+11.1342X1-7.6080X2+0.6712X22-1.4777X1X2
因为奔豆芽微信群已满100+,欢迎大家扫码添加管理员微信,由管理员拉大家进微信群交流。
领取专属 10元无门槛券
私享最新 技术干货