首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Kaggle项目:共享单车数据分析报告

以上是用PPT展示的数据分析报告,具体代码如下

数据分析步骤:

1、提出问题

2、理解数据

采集数据

导入数据

数据基本信息查看

3、清洗数据

4、建立模型

5、模型评估

6、方案实施

提交数据到kaggle

撰写PPT报告

1. 提出问题

目前,共享单车在国内非常火爆,给市民的出行带来了很多便利。德国很早就使用共享单车。本次的案例就是利用德国柏林一家的共享单车公司2011至2012年度的数据,研究共享单车使用量的影响因素。

2. 理解数据

2.1 采集数据

https://www.kaggle.com/c/bike-sharing-demand

2.2 导入数据

2.3 查看数据集

3.数据清洗

分析

训练集有12列,测试集有9列,训练集比测试集多casual,registered,count三列

只有日期这一列是字符串,其余均为数值类型,故将字符串转换成为月、星期、天、小时

3.1 特征工程

3.2 特征相关性可视化

3.2.1 可视化热图

分析count

和温度的相关性较高,且成正相关;

和温度的相关性次之,且成负相关;

与小时成正相关,说明一天中租车量与时间有线性关系;

与季节年费都有关,需要可视化进一步研究;

4.特征数据可视化

4.1 温度、湿度、风速对使用量的影响

从图可以看出,温度、湿度、风速和使用梁呈线性关系,在温度在30度左右,湿度在20左右,最适合出行,且风速越大使用量越低

4.2 2011和2012年的车辆使用量对比

可以看出,2012年较2011年各月份使用都有较大提升。

4.3 各个月份平均使用量

4.4 用户习惯分析

4.5 其他影响因素

以上就是共享单车数据可视化内容,本次分析报告重点强调数据可视化!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180722G0TO5X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券