Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用Python进行速度预测

用Python进行速度预测

作者头像
企鹅号小编
发布于 2018-01-25 08:55:49
发布于 2018-01-25 08:55:49
1.6K0
举报
文章被收录于专栏:编程编程

这次分享一段数据特征挖掘准备工作的套路~

数据格式是这样的:

task

预测值:速度

特征值:

Region 区域

Length 长度Volume 流量

Median 中央分隔形式

Separator 机非分隔形式

CrossingO 路段起点行人过街形式

CrossingD 路段终点行人过街形式

Access 接入口数量

数字型变量有length,volume,出入口数量

类别型变量有地区,中央分隔带,机非分隔带,路段开始和结束处的行人过街方式

框架

单变量研究

多变量研究

数据清洗

假设检验

简单的线性回归

特征挖掘

参考

1. 数据概览

导入数据

绘制各变量之间散点图

2. 变量数据观察

进行后续分析之前,需要对每一个变量的分布情况有所了解,对每个数据了然于心后才能做分析

对于单连续性变量可以观察其直方图、核密度图等

两个变量之间的观察采用散点图。连续型变量之间非常easy;对于定类变量与因变量之间的观察,由于每一个类别的数据都同一条线上,数据会有重叠,为了观察其分布集中情况,可以对每个类别的数据加上一个横向扰动,这样就便于观察了,除此之外最合适的就是箱式图了!

3. 数据清洗与转换

对定类变量尝试合并

对连续变量剔除异常值

4. 相关性分析

主要先看相关系数矩阵及热力图

5. 多元回归

6. 结论与展望

本次内容只写到了数据的初始处理,对于单变量的观察、数据的转换清洗、解释变量与被解释变量之间的关系。其实简单地想一下流密速关系,速度与流量本书就不是一个简单的线性关系,采用线性模型去做效果并不好。需要采用其他的如ElasticNet,Lasso,Ridge,SVM等来看看哪个的回归效果更好些。

anyway,这次先总结一下挖掘特征前数据清洗和变换的套路,我会思考着后面的东西,以后有更好的有效模型再更~

不过,还有两个问题给大家参考,一个是之前取对数变化的意义在哪里,另外一个是本例中进行多元线性回归,如果去掉截距项调整R方会很大,但是这个时候是否有意义,欢迎大家留言讨论:

在统计学中为什么要对变量取对数?https://www.zhihu.com/question/22012482

无常数项的线性多元回归模型和有常数项的线性多元回归模型有何区别?https://www.zhihu.com/question/19664505

参考

Hair et al., 2013, Multivariate Data Analysis, 7th Edition (https://www.amazon.com/Multivariate-Data-Analysis-Joseph-Hair/dp/0138132631)

Pedro Marcelino,2017,COMPREHENSIVE DATA EXPLORATION WITH PYTHON

代码如下:以为代码保存为html格式,转成图片以后代码的高亮没有了,影响阅读。。。

有需要可以从百度云下载:https://pan.baidu.com/s/1nuHg2oD 密码:tb2n

本文来自企鹅号 - 交通在学中媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 交通在学中媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索
AI 研习社按:Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束。这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对
AI研习社
2018/03/29
1.9K0
详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索
创建模型,从停止死记硬背开始
对于机器学习/数据科学的研究者而言,回归分析是最基础的功课之一,可以称得上是大多数机器学习/数据科学研究的起点。
AI科技评论
2020/03/25
8780
创建模型,从停止死记硬背开始
Spss软件中文版电脑下载安装,Spss 27版统计分析软件下载安装
SPSS软件是一款功能强大的数据分析软件,它可用于数据预处理、描述性统计分析、探索性因子分析、多元回归分析和非参数检验方法等。对于研究人员来说,掌握SPSS软件能力,不仅可以提高研究效率和质量,还能够为学术研究和商业决策提供更加精准的分析结果。
用户10410624
2023/04/11
7380
Python路面平整度检测车辆数据——速度修正
目前主流的轻量化路面平整度检测技术方案为:使用车载加速度传感器采集车辆在路面上行驶时的竖向振动数据,并按照每100米计算竖向振动数据统计指标:均方根值RMS,并建立RMS与路面平整度指标:IRI之间的回归模型。检测前需要将车辆行驶至标准路段(即已知IRI真值的路段)上来回行驶对传感器进行标定,完成标定后驾驶车辆前往待检测路段进行平整度检测。
拓端
2023/01/12
4770
Python数据科学:线性回归
数据库:一个存储数据的工具。因为Python是内存计算,难以处理几十G的数据,所以有时数据清洗需在数据库中进行。
小F
2020/10/09
1K0
Python数据科学:线性回归
对比R语言和Python,教你实现回归分析
r的取值范围是[-1,1],r=1表示完全正相关!r=-1表示完全负相关!r=0表示完全不相关。
1480
2020/03/03
1.8K0
我眼中的多元回归模型
模型自变量增加后,即便使用聚类等手段进行变量压缩,也不能将自变量的相关性完全剔除,这便会导致具有相关性的自变量溜进模型。由于自变量间关系不同,建模所选择的策略也会不同,模型的结果相对也会有较大差异,SAS中一般会使用selection参数进行变量控制,这个参数即为变量选择提供准则与方法。
许卉
2019/07/15
1.2K0
我眼中的多元回归模型
python数据分析——在面对各种问题时,因如何做分析的分类汇总
Python数据分析是指使用Python编程语言对数据进行收集、处理、分析和可视化的过程。Python是一种非常流行的编程语言,具有简单易学、代码可读性高、生态系统强大的特点,因此在数据科学领域得到广泛应用。
鲜于言悠
2024/03/20
3700
python数据分析——在面对各种问题时,因如何做分析的分类汇总
如何用逻辑回归做数据分析?
逻辑回归是解决二分类问题的监督学习算法,用来估计某个类别的概率。其直接预测值是表示0-1区间概率的数据,基于概率再划定阈值进行分类,而求解概率的过程就是回归的过程。
Python数据科学
2021/01/28
1K0
如何用逻辑回归做数据分析?
【深度学习—线性回归预测销售额(含源码,CSV文件)】
进行程序训练之前,需已经成功安装好深度学习环境 若没有安装环境,可以参考:深度学习环境安装教程,进行环境安装。
magize
2023/07/11
1.3K1
【深度学习—线性回归预测销售额(含源码,CSV文件)】
一文了解11个常见的多变量分析方法!
在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA)、主成分分析(Principal component analysis)、因子分析(Factor analysis)、典型相关(Canonical correlation analysis)、聚类分析(Cluster analysis)、判别分析(Discriminant analysis)、多维量表分析(Multidimensional scaling),以及近来颇受瞩目的验证性因子分析(Confirmatory factor analysis )或线性结构模型(LISREL)与逻辑斯蒂回归分析等,以下简单说明这些方法的观念和适用时机。
abs_zero
2021/07/28
2.9K0
数据分析之回归分析
回归,最初是遗传学中的一个名词,是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时,发现高个子回归于人口的平均身高,而矮个子则从另一个方向回归于人口的平均身高。
黄成甲
2018/09/12
3.6K0
数据分析之回归分析
超实用!详解7大经典回归模型,建议收藏!
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
派大星的数据屋
2025/02/25
1950
超实用!详解7大经典回归模型,建议收藏!
「回归分析」知识点梳理
这正是回归分析所追求的目标。它是最常用的预测建模技术之一,有助于在重要情况下做出更明智的决策。在本文中,我们将讨论什么是回归分析,它是如何工作的。
统计学家
2020/12/08
9530
「回归分析」知识点梳理
你应该掌握的 7 种回归模型!
线性回归和逻辑回归通常是人们学习预测模型的第一个算法。由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了。而了解更多的学者会知道它们是所有回归模型的主要两种形式。
红色石头
2019/05/25
2.3K0
R语言进行机器学习方法及实例(一)
  机器学习的研究领域是发明计算机算法,把数据转变为智能行为。机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西。 机器学习一般步骤 收集数据,将数据转化为适合分析的电子数据 探索和准备数据,机器学习中许多时间花费在数据探索中,它要学习更多的数据信息,识别它们的微小差异 基于数据训练模型,根据你要学习什么的设想,选择你要使用的一种或多种算法 评价模型的性能,需要依据一定的检验标准 改进模型的性能,有时候需要利用更高级的方法,有时候需要更换模型 机器学习算法
用户1680321
2018/04/27
3.5K0
R语言进行机器学习方法及实例(一)
你应该掌握的七种回归技术
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归
用户1737318
2018/06/05
7550
回归分析技术|机器学习
原文:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 回归分析是建模和分析数据的重要工具。本文
陆勤_数据人网
2018/02/28
9900
回归分析技术|机器学习
北大数据分析老鸟写给学弟们一封信
以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析方法介绍,它只 是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、
小莹莹
2018/04/20
1.7K0
北大数据分析老鸟写给学弟们一封信
从零开始学机器学习——逻辑回归
首先给大家介绍一个很好用的学习地址:https://cloudstudio.net/columns
努力的小雨
2024/09/24
5422
相关推荐
详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档