这次分享一段数据特征挖掘准备工作的套路~
数据格式是这样的:
task
预测值:速度
特征值:
Region 区域
Length 长度Volume 流量
Median 中央分隔形式
Separator 机非分隔形式
CrossingO 路段起点行人过街形式
CrossingD 路段终点行人过街形式
Access 接入口数量
数字型变量有length,volume,出入口数量
类别型变量有地区,中央分隔带,机非分隔带,路段开始和结束处的行人过街方式
框架
单变量研究
多变量研究
数据清洗
假设检验
简单的线性回归
特征挖掘
参考
1. 数据概览
导入数据
绘制各变量之间散点图
2. 变量数据观察
进行后续分析之前,需要对每一个变量的分布情况有所了解,对每个数据了然于心后才能做分析
对于单连续性变量可以观察其直方图、核密度图等
两个变量之间的观察采用散点图。连续型变量之间非常easy;对于定类变量与因变量之间的观察,由于每一个类别的数据都同一条线上,数据会有重叠,为了观察其分布集中情况,可以对每个类别的数据加上一个横向扰动,这样就便于观察了,除此之外最合适的就是箱式图了!
3. 数据清洗与转换
对定类变量尝试合并
对连续变量剔除异常值
4. 相关性分析
主要先看相关系数矩阵及热力图
5. 多元回归
6. 结论与展望
本次内容只写到了数据的初始处理,对于单变量的观察、数据的转换清洗、解释变量与被解释变量之间的关系。其实简单地想一下流密速关系,速度与流量本书就不是一个简单的线性关系,采用线性模型去做效果并不好。需要采用其他的如ElasticNet,Lasso,Ridge,SVM等来看看哪个的回归效果更好些。
anyway,这次先总结一下挖掘特征前数据清洗和变换的套路,我会思考着后面的东西,以后有更好的有效模型再更~
不过,还有两个问题给大家参考,一个是之前取对数变化的意义在哪里,另外一个是本例中进行多元线性回归,如果去掉截距项调整R方会很大,但是这个时候是否有意义,欢迎大家留言讨论:
在统计学中为什么要对变量取对数?https://www.zhihu.com/question/22012482
无常数项的线性多元回归模型和有常数项的线性多元回归模型有何区别?https://www.zhihu.com/question/19664505
参考
Hair et al., 2013, Multivariate Data Analysis, 7th Edition (https://www.amazon.com/Multivariate-Data-Analysis-Joseph-Hair/dp/0138132631)
Pedro Marcelino,2017,COMPREHENSIVE DATA EXPLORATION WITH PYTHON
代码如下:以为代码保存为html格式,转成图片以后代码的高亮没有了,影响阅读。。。
有需要可以从百度云下载:https://pan.baidu.com/s/1nuHg2oD 密码:tb2n
本文来自企鹅号 - 交通在学中媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文来自企鹅号 - 交通在学中媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。