大家普遍的痛点,都觉得数据分析的前80%的工作都花费在了数据整理上了,其中一个直接的原因就是,几乎所有人,都在加班加点,努力为他人制造这个麻烦。虽然出发点是为了完成自己的报告,想把数据呈现的更加美观和漂亮,再漂亮些,或者基于老板们的要求,把最后的报告整理成老板们希望看到的样子。而所有这一切,最后都成为你想要抱怨的对象。
在开启数据分析之旅前,必须要搞清楚的几个基本概念,及其之间的区别。了解了这些以后,至少你会少制造一些麻烦(你所认为的亮点)出来。
工作表与数据源(表)的区别
需要先澄清一个概念,就是Excel里sheet和table的区别。这也可能是很多早期的Excel书籍或培训老师,带来的误解,大家普遍的理解是把sheet就是表,就连官方的翻译都是把sheet直接译为“工作表"。然而此表非彼表。
这都是中英文翻译的歧义埋的坑,还是先来看下他们的英文直译
sheet
table
这样是不是清楚一些了,基于大家的习惯,还是把sheet称为工作表,那工作表就是提供给我们的一个工作区域,可以随意在上面输入数据,做表格,画简图等等,反正你喜欢就好。
table才是真正的表格,称其为数据表。数据表由表头和数据记录组成。
第一行为表头,然后是数据记录(当然表头也可以被省略…)
在SQL Server等大型数据库里,数据表必须被严格定义
数据表结构的定义
而在Excel里,由于开放给用户更多的便利性,所以没有就数据表的定义做出严格的限制,而这给数据分析的入门设置了最大的阻碍。也正是由于其强大功能,使得大家对此概念的混淆深入骨髓。
狭义上的理解,凡有以下任何一种情形的,严格的来说都不能被称为数据表
复杂表头
无合并单元格
数据类型不匹配
到这里,大家应该清楚了,进行数据分析的源头,数据源必须是数据表,而不是工作表。
数据表与数据报表的区别
数据表在上述已经讲的十分清楚了,那么接着来看看什么是数据报表。
数据报表,是为了更好的呈现数据,使用诸如可视化的方式,颜色,合并单元格等等方式,以便更清晰的展示数据间的逻辑,原则上,数据报表都是数据表的汇总和摘要,仅仅显示其中较为重要的数值。例如,财务上的三大报表就是典型的数据报表。
典型的数据报表
两者之间主要存在以下的区别
数据表和数据报表的用途,和角色不同
数据表是用以存储数据的载体,是进行数据分析的原料,半成品。
数据报表则是进行数据展示的作品,是数据分析的最终成品,即分析的结果。
使用数据表和数据报表的终端用户不同
数据表的使用者是所有数据分析人员,不论你处在数据分析的哪些阶段,只要你的输出对象,还需要或者还有意识对你的数据进行二次处理和分析,那你所给出的就应该是数据表。
数据报表的使用者是公司的CEO,董事长,或外部的利益相关方,如果你还想让他们给你干活,只能说你想多了。
他们需要看到的是最终的结果,最终的结论,需要呈现的是最简洁的分析结果。
数据表和数据报表的形式不同
数据表是有形的,有实际数据存储在数据表里的
而数据报表可以是有形的,也可以是无形的,数据报表可以空有其表,而没有存储任何数据。只有在需要的时候,数据才会被加载到数据报表中来。
这其实已经是非常成熟的理论和技术了,只是技术的传播,学习和使用需要时间的沉淀,只能说数据表和数据报表分离的概念,还没有完全被底层业务,和分析人员所掌握。
一维表和二维表的区别
一维表
二维表
看了图,应该很清楚了。
一维表可以容纳更多的数据,可以让数据更多更丰富,更详细。这种表格适合用来存储数据,如库存管理等,还可以作为数据分析的源数据,数据处理起来更方便。
二维表的优点是可以让数据看起来更加直观明显,这种表格一般用来展示数据,汇报表等。
概括起来:
首先,两者都是数据表
其次,两者皆可以作为数据源,被用于数据分析
再次,作为数据源时推荐使用一维表,报表输出时,推荐二维表
总结
理解了这些基本概念及其之间的区别,有助于我们更好的理解数据,和数据分析将极大的帮助我们节省数据整理的时间。一份合格的数据源必须满足下面几点:
必须是数据表
推荐使用一维表
除非你很确定,一般情况下,分析的输出依然采用数据表
数据分析爱好者,长期服务于500强企业,擅长自助商业智能分析
助您透视数据本质,洞察商业价值
分享成就价值,愿与有相同兴趣同学互相交流,共同成长
DataPivotal
领取专属 10元无门槛券
私享最新 技术干货