前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你了解你的数据吗(练气篇):数据接入和常见的坑

你了解你的数据吗(练气篇):数据接入和常见的坑

作者头像
木东居士
发布2018-05-25 16:27:00
1.1K0
发布2018-05-25 16:27:00
举报
文章被收录于专栏:木东居士的专栏

0x00 前言

数据一道,可深可浅,可大可小。同为数据人,新手和老鸟亦有很大差别。本篇是了解数据的入门篇,包含两部门内容:

  1. 数据接入,你的掌控力如何?主要聊一聊数据接入人员对自己接入数据的了解的程度。
  2. 数据的坑,你总结了多少规律?在数据接入和基本的数据处理中,会遇到很多数据异常,这些异常你是否已经总结出了规律并纳入到了自己的知识体系。

0x01 数据接入量,你知道多少?

如果你只是闷着头,来一个需求就接一个,而对于自己接入的数据一无所知,那就值得尽早做好打算了,因为不管是面试、汇报工作、亦或是老大们的好奇心,他们可能随时会向你发出这样的诘难:咱们集群总共多大的存储啊?现在有多大的数据量啊?总共接了多少个业务啊?日增量是多少啊,有多少条数据啊?按照这样的速度,集群还能撑多久?

面对上面的问题,你是否懵逼?如果有点懵,可以看一下下面的图,这是笔者认为需要了解的基本的数据内容。

了解数据接入的情况,应该算是最基本的要求,它意味着我们对自己负责的事情有了最基本的掌控力。对不同的人来讲,区别仅在于掌控的程度不同而已。

0x02 数据的坑,你总结了多少规律?

数据的坑无处不在,不管是接入、清洗亦或是模型计算,都会有遇到坑的地方。对于这些坑,你是否已经总结出了应对的套路?这个话题范围可能有点大,我们暂时将其缩小至数据的接入和基本的数据清洗过程。

现阶段,我将数据的坑,分为三部分:一为数据缺失,分为丢数据和字段缺失。二为业务层面的数据异常,比如数据中出现了不符合业务逻辑的取值。三为工程层面的数据异常,主要侧重数据ETL会遇到的异常。详细的一点的可以看下图。

注意,上面提到的都是数据异常,但是并没有说明数据异常的原因,而且也没有引入数据处理中工程上的坑。因为这两点和数据本身的理解上不是强耦合的,再加上不同数据处理流的特性会增加总结的难度,因此暂不讨论。

0xFF 总结

本篇是了解数据的一个基础篇,主要聊一聊数据接入和数据的坑这两个主题,没有讨论过多细化的内容。只为抛砖引玉,梳理大致的思路。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0x00 前言
  • 0x01 数据接入量,你知道多少?
  • 0x02 数据的坑,你总结了多少规律?
  • 0xFF 总结
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档