文:数据观
经常在网络上看到这样的问题:“从零开始学习数据可视化,需要怎么开始?”《Data at Work》一书的作者Jorge Camoes在一次演讲中,提出了“数据可视化思考者”这一概念,并分享了他的12个想法。我们从中选取了最具价值的8个,进行了编译。
1973年,统计学家F.J. Anscombe提出了四组奇妙的数据。它们x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。但是,经过可视化之后,人们发现这四组数据有着天壤之别。
第一组数据是最“正常”的;第二组数据所反映的是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。 “有数无形少直观,有形无数难入微”。这个日后被称为“安斯科比四重奏”的例子告诉我们,在分析中,数据可视化与统计指标缺一不可,相辅相成。
“数据可视化”这一表达,很容易让人觉得这是一个把70%的时间与精力花在“可视化”上的过程。但实际上,如果你真的用了大部分时间来保障图表炫酷,那么最后的成果只有30%的可能性是好的。真正的“数据可视化”,我们会把70%的时间花在减少错误、构建数据、确保概念正确等工作上。
(在线ETL功能,可以帮助您更顺利地完成那70%的“幕后”工作。)
如今,从内部机制(如人脑认知系统)到外部机制(如社交规则,企业文化,同辈压力,受众画像等),都在影响着我们的可视化沟通方式。因此,有追求的数据可视化思考者应当追求成为“杂学家“,而不是局限于对可视化技巧与技能的学习。
俄国新闻机构TASS重新演绎了著名的《拿破仑远征图》。左边是随着故事线不断自动演绎变化的地图,右边是故事+信息图。像一本可以动的“小说”一样,利用叙事、色彩、动画等多种技巧,在可读性方面,完美致敬并超越了经典原作。
FRANCES CAALBREZZI对泰坦尼克号悲剧的数据可视化作品。她认为有千百种方法可以对数据进行可视化,但最终选择了冲积图。除了这种图表可以表现分类数据之间的流量与相关性之外,如水波暗涌一般的可视化效果,也更能让人回想起那一夜海上的惊心动魄。
从你开始收集数据,到你阅读其它人的图表,这一切都是在诠释。你可以尽情地“折磨”数据,以压榨出各种各样的解释与观点。一个好的图表,会把数据想要说的话,尽善尽美地表达出来。也就是说,一个好的数据可视化作品,会是一个优秀的数据预处理系统,可以让人脑专注于更高层次的目标。但是光有数据可视化还不够:你必须拥有相关的知识,以识破和解读隐藏在可视化作品中的模式。
(优秀的可视化作品,可以让人拥有“数据视觉”,一眼看穿数据背后隐藏的模式、问题或机遇。将复杂的数据解读过程,变成简单的“比大小”、“看长短”、“辨深浅”、“明趋势”。)
请注意自己所提的问题。它们通常不仅透露你想要知道的内容,还透露你实际知道的内容。更好的问题意味着更佳的理解。将问题分门别类,与各种图表类型配对,是个非常有趣的过程。一个有50个切片的饼图并不一定是坏的:通常,可视化失败并不是因为数据点太多,而是因为作者本身不理解数据,或是不关心数据传达出的信息。
(选择什么图表背后,隐藏着一个重要的问题——你想展示什么?)
删除不相关的内容,最小化辅助的内容,调整必要的内容,添加有用的内容。
把色彩当作是数据可视化作品的促进因素,思考它们的强度,功能,还有背后的象征意义。对于非专业设计师来说,可以先考虑数据可视化整体,再考虑配色。但请使用专业设计的配色模版,而不是默认的色板。
尝试结构化或图表矩阵,多使用“看板”或“信息图”等表现形式,用图表与文字对数据进行连贯的叙述。在进行探索性分析的时候,“焦点+上下文”的表现形式,往往比“单图+过滤”更好。
(可实现“焦点+上下文”形式的看板。copyright@数据观)
数据可视化思考者,以数据可视化为工具,对工作、对企业、对市场、对世界进行思考。 数据观,帮助您踏出成为数据可视化思考者的第一步。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。