刚入行做数据开发的时候经常听企业导师讲,你要有数据的意识,不能只知道闷着头来一个需求接一个,要从业务的角度来理解数据,这样你的职业线才能更长。
本篇不会分享和业务强相关的数据 Sense,但是会引入一些各种业务都会涉及的最基本内容:
核心维度分布主要是指数据中那些比较重要的列的内容分布,比如说用户最基本的年龄、性别和城市信息,这是最常用的数据分布,再引申一点的话会涉及到一些业务内容,比如说各省份的人的订单情况、不同时间段男女活跃信息对比,等等。如果有用户画像表的话还应包括各种画像中的维度分布。
因此,我们来做一个大概的划分的话,那就是三部分内容:1.基础资料;2.业务行为;3.用户画像。这三部分能帮助我们来理解用户是什么样子的?更好的懂业务,能促进更深入地理解数据。
上图是我画的一个大致的图,具体的内容应该是自己根据业务来详细的划分和填充。这些数据内容,你了解吗?不了解的话,就赶快整理一下吧。
关于数据口径,很难给它一个准确权威的定义,我们不妨举几个例子来说明:
上面就是我想表达的关于数据口径的一些例子,下面整理了一份大致的思维导图可供参考。
关于数据口径的问题,如何避免和解决这些问题可能就是一行代码或者是提前约定好规则就能搞定的,但是我们要先有这种意识,有了这样的意识,我们在接入和处理数据的时候就能提前预知问题或者出现问题了能快速定位和解决。
本篇的内容是希望数据小伙伴能从相对贴近数据或者说是贴近业务的层面上来理解数据。
数据的核心维度分布能让你对自己的数据有更全局观地把控,数据口径的问题能让你从更微观地角度来理解数据,以便更好地去处理数据。