前天给大家分享了我国什么地方吃货最多的分析结果,今天给大家上R语言分析过程和代码。
本文需要用到的R包有reshape2、plyr、ggplot2、Hmisc、coefplot。
1、整理数据
由于我们下载到的数据是好几个单表,为了后期数据处理方便我们需要合成一个单表。
图为:中华人民共和国国家统计局下载的各省市人们平均年收入数据
如图列名都是中文命名,为了方便R语言程序处理我们把列名命名为“zone、y2016、y2015、y2014、y2013,此外为了方便把表和在一起,这里我把每一张表后面添加一个index列表示该城市的某个指标,如下图
从表中我们可以发现对于特定的城市,每年的数值在不同的列中,也就是所谓的交叉表,虽然方便人类使用,但对于我们接下来用ggplot2作图和数据分析算法不理想,我们想让他设置为每一行代表一个单独的城市-指标-年,因此我们使用reshape包中的melt函数来“融化”这些数据,使其变成单独的城市-年-指标
其他表同样的处理,之后就是用plyr包中的join函数按照“zone”和“year”两个字段把所有表链接起来
最后处理好的数据是这样的
计算人均消费支出的数据、全部消费与收入比、饮食消费与全部消费比
到这里我们的数据全部处理好了,接下来就是数据可视化的操作,用到ggplot2包制作图像。
1、各省市人均收入
人均收入箱线图
2、连锁餐饮企业门店个数
3、餐饮行业从业人数(代码和上面一样,最好的方式时写一个函数封装起来,方便调用,这里因为数据不多,小编没有封装就一个一个写了)
4、人均消费率
5、用于餐饮的消费率
建立数据模型
1、构建人均消费和收入率的模型
2、构建连锁门店数量和消费率的模型(和上面代码一样,这里也没有封装,直接重复使用代码)
3、构建餐饮行业从业人数和消费率的模型
4、构建餐饮消费率与人均收入、门店个数、和从业人数的模型
好了今天明明同学就给大家讲到这里,谢谢大家对“毕业零距离”的支持。由于小编还在学习,以后会继续给出R语言分析和图像制作过程教学。
观看更实用教程请看本微信公共号历史记录。有任何问题请随时后台留言或者私信小编。
领取专属 10元无门槛券
私享最新 技术干货