首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DataFocus 与数据对话之数据变化

第七章 数据变化

获得数据,掌握数据价值是我们对信息化世界洞察的一种重要途径。有数据支持的决策更具有科学性。但是数据来源的产生来自不同渠道,十分杂乱,因此如果我们正在处理的数据集是有不必要信息存在的,就需要谨慎处理。

交流数据的可信原则是数据的真实性,如果数据有很大的杀意,或者我们只处理有限的样本,我们应该让读者明白这一点,否则就会误导其作出错误的决定。

在本章中,我们我讲述的就是数据的变化。所谓数据变化是指个体观察与群体中其他个体观察的差异程度。

7.1 关于变化

在第六章中,我们展现了变量在其值形式的分布类型上有根本的不同,前者表现出种型曲线的高斯特性,而后者的特征是极端异常值。Benoit Mandelbrot和Nicholas Nassim Taleb都阐明了这种区别的重要性,以及它对我们处理数据的方式的意义。简而言之,用标准偏差等方差度量来描述和预测经济学和金融学中的任何参数等是应该避免的。

7.1.1 可视化的选择

拿到数据第一步便是展示数据,也就是可视化。那么如果仅仅显示平均水平,就会得出一个过于简单的总览,因为并不是一个国家的每一个人都拥有那个国家最常见的特征,即不是数据集中的每个值都等于平均值、中位数或众数。

如图7-1-1我们展示了一个简单的每月PM2.5平均浓度的折线图。

图7-1-1 每月PM2.5平均浓度

然而,从这个图表中我们不知道的是,一个月中每日的PM2.5浓度是否有差异性?有什么差异?除折线图以外,我们还可以用其他不同的方法来展示数据变化,如图7-1-2所示。

7-1-2 不同时间序列数据视图方式

7.2 随时间变化:控制图

控制图说明了随着时间的推移所收集的数据是否具有统计上的重要信号。在实际运用中,我们可以通过控制图来测量过程行为,尽量减少变化或进行数据监控改善,从而提高质量。

让我们先来看看控制图的整体呈现,如图7-2-1所示,然后我们再一步步创建它。

图7-2-1 控制图样图

7.2.1 控制图的要素

控制图一般包含一下基本要素:

·时间序列数据集

·平均线/控制极限

·信号

-警告值(数据点超过最高标准或低于最低标准)

-颜色规则(科学划分数据集,利用颜色进行划分监控)

7.2.2 DataFocus中创建控制图

我们已经了解了基本知识,接下来我们通过DataFocus数据分析工具来创建控制图。我们集合2015-2018年成都的天气情况,如图7-2-2所示。

图7-2-2 所用数据源

进入搜索页面,选择“成都天气”数据源,双击选择“日期”、“PM2.5_μg/㎥”。我们以2017年的数据为例,故在搜索框中键入“2017”,选择柱状图进行呈现,见图7-2-3。

图7-2-3 创建基本时序图

设置标准线。可以选择设置直线模式或者范围(上下限)模式。这里以直线模式为例,点击图表属性——标度,选择直线——平均值——虚线显示,见图7-2-4。

图7-2-4 设置标准线

设置警告值。当PM2.5浓度大于等于250μg/㎥时,为严重污染。见图7-2-5,设置成功后,超过250 μg/㎥浓度的柱形会以红色高亮显示,并发送邮件通知用户。

图7-2-5设置警告值

设置颜色规则:

优:0~35μg/m³(浅绿色)

良:35~75μg/m³(深绿色)

轻度污染:75~115μg/m³(蓝色)

中度污染:115~150μg/m³(黄色)

重度污染:150~250μg/m³(红色)

图7-2-6设置颜色规则

简单几步操作后,就可以得到如图7-2-7所示的控制图。可以看到2017年年初的PM2.5浓度是不理想的,甚至有两天严重污染,属于异常值。随着时间的推移,PM2.5浓度得到了很好的控制,到2017年年底时,基本达到良及良以上。

图7-2-7 创建PM2.5浓度控制图

控制图对过程数据及时间数据呦广泛的应用。在DataFocus中创建控制图标是跟踪该过程并对数据中的信号发出警报的好方式,用户可以根据的需要在设置统计的严格程度,大大的节省时间和精力。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190826A0DPY400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券