数据一道,可深可浅,可大可小。同为数据人,新手和老鸟亦有很大差别。本篇是了解数据的入门篇,包含两部门内容:
如果你只是闷着头,来一个需求就接一个,而对于自己接入的数据一无所知,那就值得尽早做好打算了,因为不管是面试、汇报工作、亦或是老大们的好奇心,他们可能随时会向你发出这样的诘难:咱们集群总共多大的存储啊?现在有多大的数据量啊?总共接了多少个业务啊?日增量是多少啊,有多少条数据啊?按照这样的速度,集群还能撑多久?
面对上面的问题,你是否懵逼?如果有点懵,可以看一下下面的图,这是笔者认为需要了解的基本的数据内容。
了解数据接入的情况,应该算是最基本的要求,它意味着我们对自己负责的事情有了最基本的掌控力。对不同的人来讲,区别仅在于掌控的程度不同而已。
数据的坑无处不在,不管是接入、清洗亦或是模型计算,都会有遇到坑的地方。对于这些坑,你是否已经总结出了应对的套路?这个话题范围可能有点大,我们暂时将其缩小至数据的接入和基本的数据清洗过程。
现阶段,我将数据的坑,分为三部分:一为数据缺失,分为丢数据和字段缺失。二为业务层面的数据异常,比如数据中出现了不符合业务逻辑的取值。三为工程层面的数据异常,主要侧重数据ETL会遇到的异常。详细的一点的可以看下图。
注意,上面提到的都是数据异常,但是并没有说明数据异常的原因,而且也没有引入数据处理中工程上的坑。因为这两点和数据本身的理解上不是强耦合的,再加上不同数据处理流的特性会增加总结的难度,因此暂不讨论。
本篇是了解数据的一个基础篇,主要聊一聊数据接入和数据的坑这两个主题,没有讨论过多细化的内容。只为抛砖引玉,梳理大致的思路。