前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析|附代码数据

SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析|附代码数据

原创
作者头像
拓端
发布于 2023-04-28 09:25:14
发布于 2023-04-28 09:25:14
3680
举报
文章被收录于专栏:拓端tecdat拓端tecdat

原文下载链接:http://tecdat.cn/?p=27587

最近我们被客户要求撰写关于通勤出行的研究报告,包括一些图形和统计输出。

某交通工程专业博士生想要研究不同因素对通勤交通方式选择的影响,对成都两个大型小区(高端和普通)居民分别进行了出行调查,各调查了300人

其中

Distance:居住地离上班地的距离(公里)

Pincome:个人年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Gender:性别(0:女;1:男)

Car:家庭拥有汽车的数量

Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

People:家里人口数量

Children:家里未成年人数量

Housing:房屋拥有类型(0:租房;1:买房)

Area:房屋居住面积(平方米)

Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)

但是小区的编号忘记记录下来。

任务:

  1. 判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。

数值型变量为:

Distance:居住地离上班地的距离(公里)

Pincome:个人年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Car:家庭拥有汽车的数量

People:家里人口数量

Children:家里未成年人数量

Area:房屋居住面积(平方米)


R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

01

02

03

04

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

Housing:房屋拥有类型(0:租房;1:买房)

Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

Housing:房屋拥有类型(0:租房;1:买房)

Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)

  1. 判断每个受访者所在的小区。

根据居住地距离 ,我们使用kmean聚类将样本分成2个类别,并保存结果到小区变量中。

结果如图所示。

聚类中心结果如下

每个样本的聚类信息: 

  1. 分析不同小区居民的平均出行距离、平均家庭收入、年龄分布、性别分布、家庭人口数和受教育程度有什么区别吗?

从均值比较的结果来来看,第1个类别的工作里小区工作距离较短,第三个类别年龄较小,第一个小区家庭人口较大,教育水平第四个小区较低。

然后对不同聚类类别的数据进行独立样本t检验。

由上表中的结果:distance的sig>0.05,可知:distance无显著区别。

  1. 对每个小区分别建模(逻辑回归和决策树),看哪个模型对出行方式选择的拟合更好(比较模型在检验样本里的表现,而不是训练样本),并分析各个变量如何影响通勤交通方式的选择。

首先对1区的样本进行决策树模型

可以看到距离 收入、家庭人口数和性别对出行方式有较大的影响,男性出行以电动车为主,女性也有一部分以公交出行为主,从家庭人口数来看,大于2人的家庭出行以公交车为主。

然后使用逻辑回归进行预测

由结果来看整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。

对2区出行数据进行决策树模型分析

从结果来看,决策树分类模型可以看到区2的出行方式主要受到距离的影响。若距离较大,则出行方式以汽车和电瓶车为主,若距离较小,则以公交车为主。

对区2的出行数据进行逻辑回归

由结果来看整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。

本文选自《SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究不同因素对通勤出行交通方式选择的影响调查数据分析》。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
某交通工程专业博士生想要研究不同因素对通勤交通方式选择的影响,对成都两个大型小区(高端和普通)居民分别进行了出行调查,各调查了300人(点击文末“阅读原文”获取完整文件数据)。
拓端
2025/03/17
780
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据|附代码数据
最近我们被客户要求撰写关于电商购物网站的用户行为的研究报告,包括一些图形和统计输出。
拓端
2023/07/21
3330
Weka数据挖掘Apriori关联规则算法分析用户网购数据
随着大数据时代的来临,如何从海量的存储数据中发现有价值的信息或知识帮助用户更好决策是一项非常艰巨的任务。数据挖掘正是为了满足此种需求而迅速发展起来的,它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。由于大数据技术的发展,零售企业可以利用互联网收集大量的销售数据,这些数据是一条条的购买事务信息,每条信息存储了销售事务的处理时间,顾客所购买的商品、各种商品的数量以及价格等。如果对这些历史数据进行分析,则可以对理解分析顾客的购买行为提供有价值的信息。
拓端
2023/04/14
8370
SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林
近几年来,各家商业银行陆续推出多种贷款业务,如何识别贷款违约因素已经成为各家商业银行健康有序发展贷款业务的关键。在贷款违约预测的数据的基础上,探索是否能通过借贷者的数据判断其违约风险,从而帮助商业银行提前做好应对。
拓端
2023/03/07
4290
R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化|附代码数据
最近我们被客户要求撰写关于回归、anova方差分析、相关性分析的研究报告,包括一些图形和统计输出。
拓端
2023/03/03
5980
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户|附代码数据
项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人)。银行拥有不断增长的客户
拓端
2023/02/06
5250
R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟、喝酒和赌博影响数据|附代码数据
最近我们被客户要求撰写关于逻辑回归混合效应模型的研究报告,包括一些图形和统计输出。
拓端
2023/04/10
4390
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上(点击文末“阅读原文”获取完整代码数据)。
拓端
2022/11/02
5580
PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化|附代码数据
最近我们被客户要求撰写关于租房数据的研究报告,包括一些图形和统计输出。 1 利用 python 爬取链家网公开的租房数据;
拓端
2022/12/01
4730
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上
拓端
2023/03/03
3510
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上
拓端
2023/03/13
2630
Python 人工智能:1~5
在本章中,我们将讨论人工智能(AI)的概念及其在现实世界中的应用。 我们在日常生活中花费了大量时间与智能系统进行交互。 这可以采取以下形式:在互联网上搜索某些内容,进行生物特征识别的人脸识别或将口语单词转换为文本。 人工智能是这一切的核心,它正在成为我们现代生活方式的重要组成部分。 所有这些系统都是复杂的实际应用,而 AI 通过数学和算法解决了这些问题。 在整本书中,我们将学习可用于构建此类应用的基本原理。 我们的总体目标是使您能够应对日常生活中可能遇到的具有挑战性的新 AI 问题。
ApacheCN_飞龙
2023/04/23
9460
金融市场中的人工智能:新算法和解决方案(全)
金融市场可能是少数真正可以被描述为复杂系统的人类成就之一。复杂系统是物理学中的结构,它们:(a) 从组件之间的相互作用中获得其动态的很大一部分,(b) 相互作用高度非线性,并且往往根据其自身的动态(反馈)而变化,© 系统的行为不能直接归因于个体相互作用的纯和:整体远大于个体部分的总和,(d) 并由此产生两个非常重要的后果:对初始条件的非常强烈的依赖(从相似的情况开始,我们观察到完全不同的最终状态)(一个典型的例子是天气预报)。
ApacheCN_飞龙
2024/05/16
5140
金融市场中的人工智能:新算法和解决方案(全)
Python 无监督学习实用指南:1~5
在本章中,我们将介绍基本的机器学习概念,即 ,前提是您具有一些统计学习和概率论的基本知识 。 您将了解机器学习技术的使用以及逻辑过程,这些逻辑过程将增进我们对数据集的性质和属性的了解。 整个过程的目的是建立可支持业务决策的描述性和预测性模型。
ApacheCN_飞龙
2023/04/24
1.3K0
Python 无监督学习实用指南:1~5
机器学习学术速递[10.19]
【1】 Beltrami Flow and Neural Diffusion on Graphs 标题:图上的Beltrami流与神经扩散 链接:https://arxiv.org/abs/2110.09443
公众号-arXiv每日学术速递
2021/10/21
2.1K0
推荐阅读
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
780
SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据|附代码数据
3330
Weka数据挖掘Apriori关联规则算法分析用户网购数据
8370
SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林
4290
R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化|附代码数据
5980
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户|附代码数据
5250
R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟、喝酒和赌博影响数据|附代码数据
4390
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
5580
PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化|附代码数据
4730
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
3510
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
2630
Python 人工智能:1~5
9460
金融市场中的人工智能:新算法和解决方案(全)
5140
Python 无监督学习实用指南:1~5
1.3K0
机器学习学术速递[10.19]
2.1K0
相关推荐
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档