在现实数据分析中,多个变量之间的探索分析是很常见的,发现这些关系可以发现新的数据价值。
在研究两个及多个变量时,有一个点需要注意:相关性并不意味着因果关系。也就是说仅仅因为两个变量似乎发生了变化,并不一定意味着其中一个变量会导致另一个变量发生变化;第三个变量可能导致另外两个变量都发生变化,也可能是巧合,根本没有任何因果感想。因此,当我们拥有的只是相关性证据时,我们不能迅速地就假设因果关系的存在。
下文中我们将使用几种方式来探索多个变量关系,并放在同一个图表中。
散点图
散点图是通常用于显示和比较数值。通常情况下,在不考虑时间的情况下,数据越多,比较的效果更好。默认情况下,散点图以圆圈显示数据点,纵横坐标分别代表不同数据列。如有第三个数据列,以圆圈的大小显示数据,即为气泡图。如图所示是职业足球球员的统计数据散点图。
足球球员的统计数据散点图
让我们来探索如何创建这个散点图,首先确定根据球员控球和运球能力,来探索球员的基本能力,使用这两个信息轴来定位平面上的圆。
导入相关数据源,进入DataFocus搜索页面。双击选择“运球”、“控球”、“首选用脚”、“名字”字段,切换图形为散点图,至此我们就可以得到基本的散点图。
如图所示,Y轴为球员的控球能力,X轴为球员的运球能力,图例为“首选用脚”。一个散点代表一个球员。
创建基本散点图
到目前为止,我们比较了两个变量:控球和运球,如果要添加第三个数据变量,我们可以直接双击“评分”字段,切换图形为气泡图,如图所示。
添加第三个数据变量
圆圈的大小越大,该球员的评分也就越高。可以看到即使控球、运球能力较低的球员,其评分也可能挺高的,说明运球控球能力并不是球员踢球的唯一标准。
一个圆点代表什么?
在一个没有数据标签的图表中,我们无法认识到一个圆点具体代表的是什么。
简单的显示数据标签,只能显示Y轴的数据内容,想了解具体的详细的内容,DataFocus有一个非常棒的功能点,标签提示。当用户与图表交互时,将鼠标光标悬停在一个单独标记上(在本例中是圆形),提示就会出现。
如图所示,当鼠标光标悬停在这个圆形上时,可以看到,这个圆形代表的是名为“Manuel Neuer”的球员,其运球能力为30,控球能力为48,评分为92。
标签提示
美化图形
做完图表后,下一步纯粹是为了美观。可以点击图标属性,对主题颜色,字体大小,图例位置等进行设置。本例中,我们选择将主题颜色设置为默认列表第二种,图例位置设置为顶部,见图。根据自己的偏好美化可视化部分。
自定义美化
堆叠条形图
散点图并不是在同一视图中显示多个变量的唯一方法。我们可以使用另一种可视化类型,堆叠条形图。堆叠条形图一般有两种形式:堆积条形图和堆积柱状图。
我们来了解各个球员的长传和短传能力。双击选择“名字”、“长传”、“短传”字段入搜索框,并将数据按长传的总和降序排列。切换图形为堆积条形图。如图所示,可以看到每个球员长传和短传的综合能力。
从多个度量创建堆积条形图
组合图
除了散点图和堆叠条形图以外,还有另一种多变量视图——组合图。组合图以折线图和柱状图的结合的方式呈现,可以设置为双Y轴,但是要注意只能探索两个变量的数据关系。
我们来了解各个球员的协调性和敏捷性。双击选择“名字”、“协调性”、“敏捷性”字段入搜索框,并将数据按协调性的总和降序排列。切换图形为组合图,并设置“敏捷性的总和”为右Y轴。如图所示,可以看到球员的协调性和敏捷性变动基本一致,说明两个能力有一定的联系。
从两个度量创建组合图
领取专属 10元无门槛券
私享最新 技术干货