作者|Nature
出品|AI机器思维
人类生活的现实社会经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。正如一个病人得某种病是多种因素影响造成的。
房价的高低也是受多个因素影响的,如房子所处的城市是一线还是二线,房子周边交通方便程度如通不通地铁,房子周边学校和医院等,这些都影响了房子的价格。
医学领域根据自变量以及某个阈值判断病因归属。生物领域根据父辈的基因经过回归分析判断对子辈的影响。
今天给大家通过案例讲讲回归分析,回归分析在经济、社会学、医学、生物学等领域得到了广泛的应用,这种技术最早可以追溯到达尔文(Charles Darwin)时期。
达尔文的表弟Francis Galton致力于研究父代豌豆种子尺寸对子代豌豆尺寸的影响,采用了回归分析。回归分析对人体健康研究也可以重要,病因分析。19世纪高斯系统地提出最小二乘估计,从而使回归分析得到蓬勃发展。
目前回归分析的研究范围可以分为如下几个部分组成:
线性回归:一元线性回归、多元线性回归和多个因变量与多个自变量的回归。
回归诊断:通过数据推断回归模型基本假设的合理性、基本假设不成立时对数据的修正、回归方程拟合效果的判断以及回归函数形式的选择。
回归变量的选择:根据什么标准选择自变量和逐步回归分析方法。
参数估计方法:偏最小二乘回归、主成分回归和岭回归。
非线性回归:一元非线性回归、分段回归和多元非线性回归。
定性变量的回归:因变量含有定性变量和自变量含有定性变量。
现实中常用的回归分析是线性回归、逻辑回归、多项式回归和岭回归。
本节以线性回归案例讲解,以波士顿房价数据集为线性回归案例数据,进行模型训练,不讲过多理论,理论大家可以自己去看资料,到处都是理论材料。
波士顿房价数据说明:此数据源于美国某经济学杂志上,分析研究波士顿房价( Boston HousePrice)的数据集。数据集中的每一行数据都是对波士顿周边或城镇房价的情况描述,下面对数据集变量说明下,方便大家理解数据集变量代表的意义。
CRIM: 城镇人均犯罪率 ZN: 住宅用地所占比例 INDUS: 城镇中非住宅用地所占比例 CHAS: 虚拟变量,用于回归分析 NOX: 环保指数 RM: 每栋住宅的房间数 AGE: 1940 年以前建成的自住单位的比例 DIS: 距离 5 个波士顿的就业中心的加权距离 RAD: 距离高速公路的便利指数 TAX: 每一万美元的不动产税率 PTRATIO: 城镇中的教师学生比例 B: 城镇中的黑人比例 LSTAT: 地区中有多少房东属于低收入人群 MEDV: 自住房屋房价中位数(也就是均价)
首先对数据分析,处理特殊异常值,然后才是模型和评估,并应用模型进行预测。
1.首先导入数据集,对数据进行分析
程序运行后结构现实特征变量如下:
对上面程序加入如下语句分析数据集数据样本总数,与特征变量个数:
程序运行后显示波士顿数据集506个样本,13个特征变量:
我们根据经验也可以看到,房价的高低在中国具体的房价就有太多维度了,比方说学区房、超市、菜场、高铁、机场、地铁、就业等等,而波士顿房价给出了13个特征维度变量预测房价,和中国比还是有很大差距的。国情不一样也影响房价。
继续对上面数据分析,查看前五条数据,看下这13个变量数据情况:
程序运行后结果显示前5条数据如下:
2.对自变量进行特征分析,并画出散点图,分析因变量与自变量的相关性,把不相关的数据剔除。
程序如下:
程序运行后结果显示如下:
CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例
CHAS: 虚拟变量,用于回归分析
NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例
DIS: 距离 5 个波士顿的就业中心的加权距离
RAD: 距离高速公路的便利指数
TAX: 每一万美元的不动产税率
PTRATIO: 城镇中的教师学生比例
B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群
经过上面散点图的分析,可以看到数据异常的变量需要特殊处理,根据散点图分析,房屋的’RM(每栋住宅的房间数)’,‘LSTAT(地区中有多少房东属于低收入人群)’,'PTRATIO(城镇中的教师学生比例)’特征与房价的相关性最大,所以,将其余不相关特征剔除。
二、任务介绍 1、通过数据挖掘对影响波士顿房价的因素进行分析。 2、搭建一个波士顿房价预测模型。
本案例我们以每栋住宅的房间数RM研究与房价的关系。
程序如下:
程序执行后模型相关系统如下:
图形显示如下:
通过分析可以看出住宅平均房间数与最终房价一般成正相关。
对上面程序改造,我们也可以分析其他特征变量对房价的影响。具体大家可以根据案例改造学习。