以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
数据可视化中有三种基本的颜色用途:
1.使用颜色来区分分组
2.使用颜色来表示数据值
3.使用颜色突出显示 在这三种情况下,我们使用的颜色类型和使用方式非常不同。
我们经常使用颜色来区分没有顺序的离散的分组。例如地图上的不同国家或某种产品的不同制造商。在这种情况下,我们使用定性颜色标度(qualitative color scale)。这是一类特定的颜色,这一类彼此都不相同,但是每一个颜色和其他颜色比起来也不会突出自己的颜色。
例如下面这个例子, 它显示了2000年至2010年美国各州的人口增长百分比。我按人口增长的顺序排列了州,并按地理区域为州上色。下图使用的这四个颜色,都不一样,但是也不会让人觉得说哪一个颜色会特别的突兀。
颜色也可以用来表示数据值,例如收入,温度或速度。在这种情况下,我们使用顺序颜色标度(sequential color scale)。这些颜色清楚地显示(i)哪些值大于或小于其他值,以及(ii)两个特定值之间的距离。顺序刻度可以基于单个色调(例如,从深蓝色到浅蓝色),也可以基于多种色调(例如,从深红色到浅黄色)。
当我们想显示数据值如何在地理区域内变化时,将数据值表示为颜色特别有用。在这种情况下,我们可以绘制地理区域的地图并通过数据值对其进行着色。这样的地图被称为choropleths。下图就是一个将德克萨斯州每个县的年中位收入绘制到了这些县的地图上的例子
在某些情况下,我们需要可视化相对于中点的两个方向之一的数据值偏差。一个简单的例子是一个既包含正数又包含负数的数据集。我们可能希望显示不同颜色的颜色,以便立即知道一个值是正还是负,以及它在任一方向上偏离零的距离。
下图就是使用不同颜色的例子,该图显示了得克萨斯州白人的人口百分比。尽管百分比始终是一个正数,但这里有一个合理的标准,认为50%是有意义的中点值。高于50%的数字表示白人占多数,低于50%的数字相反。可视化清楚地显示了在哪个县中白人占多数,在白人中占少数,在白人和非白人中所占比例大致相等。
颜色也可以是突出显示数据中特定元素的有效工具。数据集中可能存在特定类别或值,其中包含我们想要讲述的故事的关键信息,我们可以通过向读者强调相关数字元素来增说明我们的故事。实现这个目的的一种简单方法是,用一种或多种颜色对这些图形元素进行着色,以使其在其余图形中脱颖而出。这种方法可以通过强调颜色标度来实现(accent color scales)。它是一类既包含一组柔和的颜色,同时也包含一组更强,更暗和/或更饱和的颜色。
以上上面统计各个州人口的例子,在文字描述当中,如果想要强调说明德克萨斯州和路易斯安那州。就可以这么绘制图形。
上图是是我们使用了弱色调和强色调进行对比来突出强色调。同时我们也是可以使用没有颜色和有颜色进行对比来进行突出的。例如下图