虚拟变量是什么
实际场景中,有很多现象不能单纯的进行定量描述,只能用例如“出现”“不出现”这样的形式进行描述,这种情况下就需要引入虚拟变量。例如即将到来的女生节,每年的这个时候毛绒玩具的销量都会上升,说明女生节对毛绒玩具的销量产生了一定影响,但是这个影响程度又很难界定,这时只能定义一个虚拟变量去描述事情“发生”与“不发生”了。
虚拟变量指的是:用成对数据如0和1 分别表示具备某种属性和不具备该种属性的变量,也叫作二进制变量、二分变量、分类变量以及哑变量。模型中引入了虚拟变量,虽然模型看似变的略显复杂,但实际上模型变的更具有可描述性。
例如如下的虚拟变量:
虚拟变量该怎样设置
构建模型时,可以利用虚拟变量进行变量区间划分。例如:
一般,对于只有两种特征的因素,用一个虚拟变量即可将两种特征完全表达出来。例如:天气因素有晴天、多云与下雨三种特征,可以设置两个虚拟变量来描绘这三种特征,即:
这样就可以用两个特征描述出天气变量全部的特征。也就是:
需要注意的是,m种特征的因素,一般情况下只需引入m-1个虚拟变量,否则会出现局部多重共线性。
建模数据不符合假定怎么办
构建回归模型时,如果数据不符合假定,一般我首先考虑的是数据变换,如果无法找到合适的变换方式,则需要构建分段模型,即用虚拟变量表示模型中解释变量的不同区间,但分段点的划分还是要依赖经验的累积。
回归模型的解读
回归模型可以简单这样理解:
我很少单独使回归模型
回归模型我很少单独使用,一般会配合逻辑回归使用,即常说的两步法建模。例如购物场景中,买与不买可以构建逻辑回归模型,至于买多少则需要构建普通回归模型了。
本文分享自 Data Analyst 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!