数据知行合一
知:掌握数据建设方法论、技术体系;
行:将数据建设方法论、技术体系与业务场景结合落地
关注“数据万有引力”公众号
正文共:3198字 11图 | 预计阅读时间:8分钟
2019-2021 人人都提数据中台,张口就说业务数据化、数据业务化,数据驱动业务,甚至数据重塑业务;如今大家又与时俱进开始侃侃而谈数据化转型。在我们讨论数据化转型、数据中台、数据云时候都离不开一个稳定可持续迭代的数据底座。这里数据底座包括离线数仓、实时数仓、数据湖。数仓(包括离线数仓、实时数仓、数据湖)就是这个数据底座。
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 数据仓库之父比尔·恩门
数仓主要是围绕着数据使用方与数据开发方诉求进行建设;因此在开始规划数仓建设时,需要先剖析各方需求、痛点与痒点,然后再在这些诉求设计解决方案与确定建设内容。数据使用方主要诉求是能不能快速找到、找到怎么用、有哪些数据,在使用数据时,主要存在三大类问题
因此针对数据使用方,在数仓建设过程中需要满足:找得到、看得懂、用得对数据开发工程师更多是关注数据开发便利性、高效性与快速定位问题,因此数据开发方主要是以下几点诉求:
明确数仓建设目标之后,主要是从以下几个方面搭建数仓能力:
通过数据分层管理可以更好组织、管理与维护数仓数据,简化数据开发工作,每一层的处理逻辑相对简单与容易理解,也比较容易保证每一个步骤的正确性,从而简化数据清洗的过程。
分层是在利用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
通过数据分层为数据与模型可复用提供基础,很多数据质量问题是因为我们数据与模型无法复用导致业务口径与技术口径无法统一;新的需求,都从原始数据重新计算,从而衍生出很多数据质量问题。数仓分层一般如下:
能够满足企业跨部门协同需要的、反映核心业务实体状态属性的企业(组织机构)基础信息,属性相对稳定、准确度要求更高、唯一识别的,就是主数据,称为MDM。 《主数据管理实践白皮书》
主数据是描述核心业务的关键事实,例如客户、产品、员工、地区等;同时也包含这些事实间的数据关系。主数据管理主要体现了以下价值:
下图是主数据资产清单示例,要实现对主数据管理,主要是从以下几方面实现:
指标是一个可以量化目标事物多少的数值,有时候也称为度量,如:DNU、留存率等都是指标。
指标体系就是将各个指标按照特定的框架组织起来,从而统一指标名称及口径定义,理清指标间构成关系,避免重复建设。下图是指标体系示例。
词根是企业最细粒度业务术语,是维度和指标管理的基础,通过词根可以用来统一表名、字段名、主题域名;建立和维护可收敛的词根库,业务域、主题域我们都可以用词根的方式枚举清楚,不断完善,粒度也是同样的,主要的是时间粒度、日、月、年、周等,使用词根定义好简称,数仓开发的字段命名也可以使用词根进行组合;划分为普通词根与专有词根
词根示例如下:
数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题。比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的。也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量。
数据血缘关系的作用
数据血缘示例图如下:
在夯实企业数据底座过程,需要从道角度出发,这是决定我们做事情思考高度与宽度;也需要从术上明确落地实施路径。也就是,道以生术,术为道生。
给大家介绍两本书,
道:《数据仓库与商业智能宝典第2版》这本书是从道层面阐述数据建设过程方法论;
术:《大数据之路:阿里巴巴大数据实践》这本书是从术层面指导具体项目落地。
关注"数据万有引力"公众号,可以下载这两本书
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。