相信每个人的心中都有一个做老板的梦,即便是个小店。民以食为天,大多数人,在资金有限的情况下,会首选餐饮作为创业的项目,但是餐饮也有很多类型,大众的口味也是千差万别的。那既然是创业,也不能只靠拍脑袋来做决定的,那么数据分析就能给你一些确切的信息,来帮助你决策。
这里正好有上海的餐饮数据,总共有96400条信息,不妨就此分析一下。
拿到数据,首先就是进行清洗和整理了,这样更有利于我们的分析。基本的三大工具先导进来,Pandas,Numpy,Matplotlib。接着就是去掉空值,绘制箱线图查看源数据的数据分布。由于各指标的量级不一样,计量单位也不一样,所以还要对数据进行标准化处理。
基本工具
数据清洗与处理_代码
以上代码,用Matplotlib绘制箱线图,对源数据初始分布做可视化展示,可看出,不同指标的数据分布都存在超出bar值的异常点、离群点,所以在数据处理时,还要按分位值过滤掉重度异常的值(3IQR)。
源数据箱线图
数据处理完成,接下来确定餐饮类型。口味得分为餐饮行业里的核心指标,按照这个指标,画图分析哪种类型的餐饮最受欢迎。运用Bokeh工具,绘制联动的气泡图和柱状图。
Bokeh绘制联动图
作图如下,气泡图的气泡大小代表了口味得分,灰色区域为大众消费的人均费用范围(40-80)。可看出在大众消费的范围内,口味得分最高的是素菜类型,甚至在全部类型的餐饮中,素菜的口味得分也是最高的。如果从口味的角度出发,基本确定我们可以选择素菜作为我们的餐饮类型。
气泡、柱状图_联动图
确定了餐饮类型,我们需要再确定餐饮店的选址。
在Qgis上,分别按照人口密度栅格图进行统计餐饮店个数、素菜餐饮店个数、以及道路密度,人口密度。最后把栅格进行质心转换。
Qgis_餐饮个数统计
Qgis_道路密度统计
Qgis_统计结果进行质心转换
完成了所有的空间统计,再将统计好的数据导入到Spider中进行数据清洗和处理,先对数据进行标准化处理,然后计算每个地点的综合得分,综合得分为:0.4*人口密度指标+0.3*餐饮热度指标+0.2*道路密度指标+0.1*素菜热度指标(同类竞品的指标)。
空间统计数据清洗与处理
清理好统建数据,在运用Bokeh绘制散点图(正方形状),将综合得分top10标为红色,这也是餐饮地点的top10选择,这样就知道餐饮店的大概选址啦。
Bokeh绘制散点图代码
散点图_地点选择top10
领取专属 10元无门槛券
私享最新 技术干货