前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >遇见大数据可视化:基础研究

遇见大数据可视化:基础研究

原创
作者头像
腾讯大数据可视化设计团队
修改于 2017-06-30 09:09:51
修改于 2017-06-30 09:09:51
7.2K0
举报

杨凯,腾讯用户体验部成都设计中心高级交互设计师。负责腾讯云大数据相关设计,目前专注大数据可视化方向的研究。

近日星巴克与微信推出的社交礼品功能“用星说”,可以说刷遍了朋友圈。无论你爱不爱喝咖啡,星巴克似乎都成为了一种文化象征。上班族青睐,小清新喜欢,基本上大家看到绿色的人鱼标志就能马上认出它来。

虽然一直也有喝咖啡的习惯,但至今不知道星巴克菜单版上列的【摩卡】、【拿铁】、【美式】、【卡布奇诺】等等有什么区别。直到看到下列图,才很直观的了解到每个咖啡类别的区别是什么。

类似上图示,针对内容复制,难以形象表达的信息,通过图形简单清晰地向受众呈现出来,这种图称之为信息图

信息图

信息图本身是一个合成词,由信息和图两个词组成多称之为(Infographics或Infographics Graphics),在40年代的时候就开始出现,使用在报纸及新闻类杂志方面,其中杰出的代表阿根廷的信息图先驱Alejandro Malofiej,在1993年西班牙设立了以他为名的主要针对信息图表设计的Malofiej奖。

在报纸、杂志等纸质媒体中,为了让读者感到新奇且直观容易的理解,运用了大量的信息图解的表现。

如下图所示:

信息图早已融入我们的日常生活中,目的为了创造方便舒适的生活环境,使人们的生活变得更加更加安全舒适。

为什么人们会对信息图的传播内容更有效呢?主要原因是因为视觉是人类最强的信息输入方式,人类感知周围世界最强的方式,在Brain Rules《大脑法则》一书中,发展分子生物学家John Medina写道:“视觉是迄今我们最主要的感官,占用了我们大脑中一半的资源。”信息图提供了一种语境的方法(Language of Context),通过展示多个维度数值并且相互比较来为受众提供语境,使我们更高效的把内容反射到大脑中。

后来随着技术的发展,除了传统的纸质媒体出现了以互联网为主的电脑,电视,手机,大屏终端等更多类型的电子媒体。信息图的分类也逐步划分为:图解(Diagram) 、图表(Chart) 、 表格(Table) 、统计图(Graph) 、 地图(Map)和图形符号(Pictogram)这几部分。

图解Diagram – 主要运用插图对事物进行说明

图表 Chart - 运用图形、线条及插图等,阐明事物的相互关系

表格 Table – 根据特定信息标准进行区分,设置纵轴与横轴

统计图 Graph – 通过数值来表现变化趋势或进行比较

地图 Map – 描述在特定区域和空间里的位置关系

图形符号 Pictogram – 不使用文字,运用图画直接传达信息

在以纸质媒体为主的报刊杂志的传统行业中信息图是对实际事物的描述, 而在互联网行业中侧更多的是对数据的描述。将数据图形化的过程又称之为数据可视化。把数据,包括测量获得的数值、图像或是计算中涉及、产生的数字信息变为直观的、以图形图像信息表示的、随时间和空间变化的物理现象或物理量呈现出来。

我们来看一组简单的数据,比较下图形和数据对于人脑感观的差异。

这组数据包括I、II、III、IV,一共四组,每组有X和Y两个维度。数据很简单,但从数据上来看,你能说出这四组数据的区别吗?

从数据上很难看出有什么区别,因为每组数据看上去都十分的相近。下面我们把这四组数据转换成图表来进行对比下。

通过图表的比较,我们很容易就能找出这四组数据的区别了。I组数据呈现整体离散向上的趋势。II组数据呈现弧度上升,然后再下降的趋势。III组数据呈现线性上涨的趋势,但有一个点突出。IV组数据呈现Y坐标不变X上升的趋势,但有一点突出。

将数据图形化后,大脑天然的会对图形的不同点做出反应,从而更高效的理解数据带来的意义。

我们再来看下其他例子:

将当前QQ的在线人数,通过可视化的方式展示给用户。把数据置于视觉控件中,这样用户就能很直观的了解到QQ当前使用的人群分布在中国是怎么样的,那里的人群分布多,那里的人群少。

Eric Fischer针对Twitter 发短消息的位置和Flickr 拍照片的位置为数据源做的名为“看图或说话”(SeeSomething or Say Something)的大数据可视化展示,通过简单但大量的数据,做出非常美的数据图展示。

这种用图形化对数据进行描述设计的过程,我们通常称为【数据可视化】。有时候,可视化的结果可能只是一个条形图表,但大多数的时候可视化的过程会很复杂的,因为数据本身可能会很复杂的。一般流程包括【数据收集】-【数据分析&清理】-【可视化设计】,从抽象的原始数据到可视化图像。

要做出好的【数据可视化】,拆分出来核心要先了解什么是【数据】

数据

数据是可视化的基础,它不仅仅是数字,要想把数据可视化,就必须知道它表达的是什么。根据Ben Shneiderman的分类,信息可视化的数据分为以下几类:

一维数据:X轴一个维度如果1、2、3、4 •••

二维数据:X,Y两个二维度(1、2),(3、4),(5、6),(7、8)•••

三维数据:X,Y,Z三个维度(1、2、3),(4、5、6),(7、8、9) •••

多维数据:X,Y,Z,•••多个维度(1、2、3、4、•••),(5、6、7、8、•••)

时态数据:具有数据属性的数据集合。

层次数据:具有等级或层次关系数据集合。

数据种类划分是十分多的,但是这些数据都描述了现实的世界中的一部分,是现实世界的一个快照。除了类型,数据的数量级也影响这数据的表达结果。

小数据量(小于1K)展示一下静态结果,中数据量(1K~100K)呈现数据反映的事实,大数据量(大于1M+)用于研究分析,推测结果。

我们来看一个数据:【2017年1月28号,成都PM2.5值245】,从这个数据里能看出什么,可能只是会觉得当天成都空气质量不好,我们可能会联想到这个样一个画面。

好像就不能得出什么了。其实从单个数据上,我们很难得到什么有价值的信息。所以要想发挥出数据可视化的作用,首先我们需要大量真实的数据,知道数据的来龙去脉,把它作为一个整体来理解,关注全貌对原始数据了解得越多,打造的基础就越坚实,也就越可能制作出令人信服的数据图表。

OK,我们继续丰富我们的原始数据,在中国环境监测总站(http://www.cnemc.cn/) 的网站获取到成都2017年整个1月份的PM2.5的数据。

中国环境监测总站作为空气质量公开的数据来源,它提供了获取数据的API接口。通过API接口我们可以获取到原始数据。

原始数据一般包含的信息都比较多,什么PM2.5,、空气质量指数、PM10、一氧化碳、二氧化碳、臭氧、二氧化硫等等。我们只需要PM2.5的,所以清理数据,把其他不必要的内容去掉。然后导入到Excel表中,可以得到我们最终需要的数据。

有了【数据】下一步就可以开始做数据的【可视化】。

可视化

通俗地说,可视化设计的目的是“让数据说话”,用图形去讲述数据的故事。可视化是一种表达数据的方式,是现实世界的抽象表达。它像文字一样,为我们讲述各种各样的故事。作为一种媒介,可视化已经发展成为一种很好的故事讲述方式。

我们把成都PM2.5的数据,按照日期和当天的PM2.5指数做出最简单图形来,我们可以得到下面这类的图表来。

这类的图用Excel很简单就能得到。我们可去修改下柱状图的配色,但它依然只是一个简单的图表,而不是好的可视化作品。

那什么是好的可视化作品呢?

好的可视化设计需要具备统计和设计方面的知识。没有前者,可视化只是插图和美术练习;没有后者,可视化就只是研究分析结果。统计和设计的知识都只能帮助你完成数据图形的一部分。

我们需要去讲述数据的故事。那PM2.5代表的是什么,是当天天气的情况,所以我们可以用天气的维度去讲述这个故事。

我们把成都2017年1月份的天气照片的到,天气好的时候天是蓝色,PM2.5超标的时候是灰色。把它图形化我们可以得到这样一个展示,可以看出对于成都来说一个月中天气好的时间是十分少的。

好的可视化设计能让你有一见钟情的感觉,你知道眼前的东西就是你想看到的。既可以是艺术的,同时又是真实的。而不是直接把数据转换成图表,找到数据和它所代表事物之间的关系按照“数字化叙事”去做设计,这是全面分析数据的关键,同样还是深层次理解数据的关键。

我们在网上可以看到大量的优秀的数据可视化图,这些优秀的作品都会以这种“数字化叙事”的方式,告诉用户数据的意义。

这是哈佛做的一个数据可视化项目,将全球价15万亿美元的大宗交易表现在这里。地图上的每个点都代表 1 亿美元的进出口商品,十分的形象和震撼。

当然好的数据可视化图都是不断迭代优化出来的,判断是不是一个好的数据可视化可以按照以下的步骤去考虑。【你有什么数据】 -> 【关于数据你想知道什么】 -> 【数据可视化的表现方式】 -> 【你看到了什么?有意义吗?】。每一个问题的答案都取决于前一个答案,不断的去问自己,每个环节有没有问题,这样才能做出最好的设计。

我们一直在讲数据可视化的目的是有两个:一个是更好地分享和传达数据信息,二个是通过设计之美有效地缩短信息的传达。这是可视化的最根本的目的,可视化的定义在不同人眼中是不一样的。作为一个整体,可视化的广度每天都在变化,但是这是一个新的领域,我们可以用一种全新的方式去认识世界的过程,数据可视化,改变对数据的呈现和思考方式。

参考资料

  1. 《图解力》 – 木村博之
  2. 《数据之美》 – 邱南森
  3. 《可视化沟通》 – Randy Krun
  4. 《信息设计》 – Dopress Books
  5. Designing Data Visualizations with Noah Iliinsky – TED演讲
  6. 信息可视化研究综述 - 河北科技大学学报

相关推荐

概览:可视化前端测试

YCSB:雅虎推出的云数据库基准测试套件

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Il2cpp逆向:global-metadata解密
  关于Il2cpp的资料网上有很多,简而言之,Il2cpp就是unity用来代替原来的基于Mono虚拟机的一种新的打包方式,它先生成IL(中间语言),然后再转换成Cpp文件,提高运行效率的同时增加了安全性。原本基于Mono的打包方式极其容易被逆向,现在市面上的新游戏基本上都是用Il2cpp的方式打包的,当然Il2cpp的逆向教程也很多,但是都是千篇一律,教你用国内大佬写的Il2cppDumper去dump就完事,毫无技术含量。事实上,由于这个工具太过出名,很多游戏厂商都采取了对抗措施,导致就算你照着教程来,大多数情况下也不会成功的。因此打算学习一下Il2cpp相关的攻防技术,于是在网上找了一个Il2cpp的CTF题来练手。题目来源:n1ctf-2018
大A
2023/02/14
15.6K2
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现|附代码数据
Glmnet是一个通过惩罚最大似然关系拟合广义线性模型的软件包。正则化路径是针对正则化参数λ的值网格处的lasso或Elastic Net(弹性网络)惩罚值计算的 ( 点击文末“阅读原文”获取完整代码数据******** )。
拓端
2022/11/08
3.2K0
R语言使用Rasch模型分析学生答题能力|附代码数据
请注意,item1是V2而不是V1,item29是V30。要获得第一个题目V1的难易程度,只需将题目1到题目29的系数求和,然后乘以-1。
拓端
2022/12/07
5470
行业案例 | 数据分析在银行业应用之欺诈检测
在本文中我们将通过探索一个很常见的用例——欺诈检测,从而了解数据分析在银行业是如何运用的。
CDA数据分析师
2022/04/15
8920
行业案例 | 数据分析在银行业应用之欺诈检测
iOS逆向之人脸识别绕过
达到目的的手段有很多种,也许存在优劣之分,我只是选择了其中一种我认为好玩的方式。人脸识别校验状态存储在服务端,因此即使通过该种方法绕过客户端人脸识别,由于并未获得合法session,因此无任何危害,仅做为IOS逆向学习思路。
FB客服
2020/06/16
2.3K0
[CTF]攻防世界Simple-check-100题解(GDB)
注:本博文记录压缩包中ELF文件flag的获取过程,exe文件flag是乱码,具体过程就不给大家演示了。着重分享GDB的内容。
李鹏华
2024/03/12
2360
[CTF]攻防世界Simple-check-100题解(GDB)
B.机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
汀丶人工智能
2023/03/28
6770
B.机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
【攻防世界】REVERSE高手进阶区
然后我们查看一波他的字符串,发现了个fake的flag(一眼丁真),咱们就从这fake入手去分析
YanXia
2023/04/07
6420
【攻防世界】REVERSE高手进阶区
R语言使用Rasch模型分析学生答题能力
几个月以来,我一直对序数回归与项目响应理论(IRT)之间的关系感兴趣。 在这篇文章中,我重点介绍Rasch分析。
拓端
2020/08/14
1.2K0
机器学习——信用卡反欺诈案例
导入类库 1 import numpy as np 2 import pandas as pd 3 from pandas import Series, DataFrame 4 import matplotlib.pyplot as plt 5 from sklearn.preprocessing import StandardScaler 6 from imblearn.over_sampling import SMOTE 7 from sklearn.ensemble import Gra
py3study
2020/01/19
1.3K0
机器学习入门数据集--6.信用卡诈骗预测
欧洲的信用卡持卡人在2013年9月2天时间里的284807笔交易数据,其中有492笔交易是欺诈交易,占比0.172%。数据采用PCA变换映射为V1,V2,...,V28 数值型属性,只有交易时间和金额这两个变量没有经过PCA变换。输出变量为二值变量,1为正常,0为欺诈交易。
birdskyws
2019/03/04
1.6K0
机器学习入门数据集--6.信用卡诈骗预测
(数据科学学习手札24)逻辑回归分类器原理详解&Python与R实现
一、简介   逻辑回归(Logistic Regression),与它的名字恰恰相反,它是一个分类器而非回归方法,在一些文献里它也被称为logit回归、最大熵分类器(MaxEnt)、对数线性分类器等
Feffery
2018/04/17
1.5K0
(数据科学学习手札24)逻辑回归分类器原理详解&Python与R实现
PhpStudy 后门分析
2019/09/20,一则杭州警方通报打击涉网违法犯罪专项行动战果的新闻出现在我的朋友圈,其中通报了警方发现PhpStudy软件被种入后门后进行的侦查和逮捕了犯罪嫌疑人的事情。用PhpStudy的Web狗还挺多的,曾经我还是Web狗的时候也用过几天,不过因为不习惯就卸了。还记得当初会用PhpStudy的原因是在网上自学一些Web方向的课程时,那些课程中就是使用PhpStudy。在拿到样本后,我就对PhpStudy中的后门进行了一波逆向分析。
知道创宇云安全
2019/09/29
2K0
PhpStudy 后门分析
【愚公系列】2021年12月 攻防世界-简单题-MOBILE-010(easy-dex)
APK解包后是没有dex文件的,运行代码使用了NativeActivity的方法封装到了libnative.so 这个文件中。APK实际包含了2个APP,这2个APP的包名一致。一个存放在libnative.so文件中,另一个是解压后的dex文件。APK安装后,的功能是摇晃收集达到一定次数(10秒100次,肯定做不到)然后解压一个dex文件到特定的目录下。flag在通过分析释放出来dex文件得出。
愚公搬代码
2021/12/24
3140
【愚公系列】2021年12月 攻防世界-简单题-MOBILE-010(easy-dex)
【愚公系列】2023年04月 攻防世界-MOBILE(boomshakalaka-3)
Objection是一款移动设备运行时漏洞利用工具,该工具由Frida驱动,可以帮助研究人员访问移动端应用程序,并在无需越狱或root操作的情况下对移动端应用程序的安全进行评估检查。
愚公搬代码
2023/04/28
7250
【愚公系列】2023年04月 攻防世界-MOBILE(boomshakalaka-3)
HITCON2022--ctf驱动逆向题
挺有意思的一道题,这里的关键函数是使用的动态生成执行操作,按照特定参数序列进行解密才能正常执行,否则一定会报错异常
极安御信安全研究院
2022/12/28
7660
HITCON2022--ctf驱动逆向题
漏洞分析丨cve-2012-0003
这次漏洞属于堆溢出漏洞,他是MIDI文件中存在的堆溢出漏洞。在IE6,IE7,IE8中都存在这个漏洞。而这个漏洞是Winmm.dll中产生的。
极安御信安全研究院
2023/03/09
3140
漏洞分析丨cve-2012-0003
一文读懂Python复杂网络分析库networkx | CSDN博文精选
networkx是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便的进行复杂网络数据分析、仿真建模等工作。
AI科技大本营
2019/10/21
29.7K0
一文读懂Python复杂网络分析库networkx | CSDN博文精选
预后建模绕不开的lasso cox回归
回归我们并不陌生,线性回归和最小二乘法,逻辑回归和最大似然法,这些都是我们耳熟能详的事物,在生物信息学中的应用也比较广泛, 回归中经常出现两类问题,欠拟合和过拟合。
生信修炼手册
2022/06/09
3.5K0
预后建模绕不开的lasso cox回归
反逆向分析
OLLVM(Obfuscator-LLVM)是瑞士西北应用科技大学安全实验室于2010年6月份发起的一个项目,该项目旨在提供一套开源的针对LLVM的代码混淆工具,以增加逆向工程的难度, 只不过Ollvm仅更新到llvm的4.0,2017年开始就没再更新。
i0gan
2021/06/26
2.2K0
推荐阅读
相关推荐
Il2cpp逆向:global-metadata解密
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档