这是我的第5篇数据可视化(data visualization)的文章。
本文介绍对数据集中重要的连续型单一变量做可视化分析。比方说,金融科技里面用户信用评分的分布,世界各国的国民经济总产值分布等。我们可以使用直方图来揭示连续型单一变量的分布关系。
直方图简介
直方图,大家都不陌生。很多领域里面都会谈到,大同小异。数学里面,说到了直方图;数据分析里面,说到了直方图;数字图像处理里面,也说到了直方图。直方图,不仅仅是一种很有效的可视化分析工具,还是一种巧妙地特征工程方法。
如何做直方图呢?
第一步:对变量分箱。分箱要么指定箱子的数目(ggplot2的直方图默认值是30),要么指定箱子的宽度。
第二步:统计每个箱子所占的频数。
第三步: 针对各个箱子和对应的频数结果绘制图形(与Excel的柱状图相类似了)。
ggplot2包画直方图
第一步:加载R包
第二步:准备数据集
第三步:研究变量weight的分布
采用直方图,并且修饰和完善直方图
接下来对每个柱子做修饰,利用参数fill填充柱子的颜色,参数color设计柱子边框的颜色。
通过参数bins或者binwidth控制直方图所要展示的柱子数目。
或者
直方图默认情况下是采用计数(count)表示,我们采用百分比来表示。
ggplot2包利用ggplot()函数绘制的图像,返回值也可以记录为一个对象,类似变量一样,后续在其基础上,可以继续补充和完善。
在图像对象基础上增添平均线。
在图像对象基础上增添核密度曲线。
使用变量sex控制分组,并且对每个组添加均值线。
更多内容,可以查看geom_histogram()函数帮助文档。可视化分析的时候,要清楚可视化的目的,然后再选择合适的可视化手段,最后再做些锦上添花的事情。
领取专属 10元无门槛券
私享最新 技术干货