以上是用PPT展示的数据分析报告,具体代码如下
数据分析步骤:
1、提出问题
2、理解数据
采集数据
导入数据
数据基本信息查看
3、清洗数据
4、建立模型
5、模型评估
6、方案实施
提交数据到kaggle
撰写PPT报告
1. 提出问题
目前,共享单车在国内非常火爆,给市民的出行带来了很多便利。德国很早就使用共享单车。本次的案例就是利用德国柏林一家的共享单车公司2011至2012年度的数据,研究共享单车使用量的影响因素。
2. 理解数据
2.1 采集数据
https://www.kaggle.com/c/bike-sharing-demand
2.2 导入数据
2.3 查看数据集
3.数据清洗
分析
训练集有12列,测试集有9列,训练集比测试集多casual,registered,count三列
只有日期这一列是字符串,其余均为数值类型,故将字符串转换成为月、星期、天、小时
3.1 特征工程
3.2 特征相关性可视化
3.2.1 可视化热图
分析count
和温度的相关性较高,且成正相关;
和温度的相关性次之,且成负相关;
与小时成正相关,说明一天中租车量与时间有线性关系;
与季节年费都有关,需要可视化进一步研究;
4.特征数据可视化
4.1 温度、湿度、风速对使用量的影响
从图可以看出,温度、湿度、风速和使用梁呈线性关系,在温度在30度左右,湿度在20左右,最适合出行,且风速越大使用量越低
4.2 2011和2012年的车辆使用量对比
可以看出,2012年较2011年各月份使用都有较大提升。
4.3 各个月份平均使用量
4.4 用户习惯分析
4.5 其他影响因素
以上就是共享单车数据可视化内容,本次分析报告重点强调数据可视化!
领取专属 10元无门槛券
私享最新 技术干货