前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >虚拟变量在模型中的作用

虚拟变量在模型中的作用

作者头像
许卉
发布2019-07-15 17:13:13
发布2019-07-15 17:13:13
4.3K0
举报
文章被收录于专栏:Data AnalystData Analyst

虚拟变量是什么

实际场景中,有很多现象不能单纯的进行定量描述,只能用例如“出现”“不出现”这样的形式进行描述,这种情况下就需要引入虚拟变量。例如即将到来的女生节,每年的这个时候毛绒玩具的销量都会上升,说明女生节对毛绒玩具的销量产生了一定影响,但是这个影响程度又很难界定,这时只能定义一个虚拟变量去描述事情“发生”与“不发生”了。

虚拟变量指的是:用成对数据如0和1 分别表示具备某种属性和不具备该种属性的变量,也叫作二进制变量、二分变量、分类变量以及哑变量。模型中引入了虚拟变量,虽然模型看似变的略显复杂,但实际上模型变的更具有可描述性

例如如下的虚拟变量:

  • 1表示男生,则0表示女生;
  • 1表示蒙古族,则0表示非蒙古族;
  • 1表示清明节前,则0表示清明节后。

虚拟变量该怎样设置

构建模型时,可以利用虚拟变量进行变量区间划分。例如:

  • 构建居民存款影响因素模型时,可将年龄作为自变量引入模型,将年龄变量划分为“35岁前”与“35岁后”两个区间;
  • 构建消费影响因素模型时,可将历史时期作为自变量引入模型,将历史时期变量划分为“改革开放以前”与“改革开放以后”两个区间;
  • 构建公司员工绩效模型时,可将打卡时间作为自变量引入模型,将打卡时间变量划分为“准时”与“不准时”两个区间。

一般,对于只有两种特征的因素,用一个虚拟变量即可将两种特征完全表达出来。例如:天气因素有晴天、多云与下雨三种特征,可以设置两个虚拟变量来描绘这三种特征,即:

  • 特征A=1表示晴天、特征A=0表示其他;
  • 特征B=1表示多云、特征B=0表示其他。

这样就可以用两个特征描述出天气变量全部的特征。也就是:

  • 特征A=1特征B=0表示晴天;
  • 特征A=0特征B=1表示多云;
  • 特征A=0特征B=0表示下雨

需要注意的是,m种特征的因素,一般情况下只需引入m-1个虚拟变量,否则会出现局部多重共线性。

建模数据不符合假定怎么办

构建回归模型时,如果数据不符合假定,一般我首先考虑的是数据变换,如果无法找到合适的变换方式,则需要构建分段模型,即用虚拟变量表示模型中解释变量的不同区间,但分段点的划分还是要依赖经验的累积。

回归模型的解读

回归模型可以简单这样理解:

  • 如果模型为 log(wage)=x0+x1*edu+u 的形式,则可以简单理解为:X每变化一个单位,则Y变化的百分点数;
  • 如果模型为 log(wage)=x0+x1*log(edu)+u 的形式,则可以简单理解为:X每变化一个百分点,则Y变化的百分点数。

我很少单独使回归模型

回归模型我很少单独使用,一般会配合逻辑回归使用,即常说的两步法建模。例如购物场景中,买与不买可以构建逻辑回归模型,至于买多少则需要构建普通回归模型了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档