背景
有数据分析师曾抱怨:80%时间在清洗数据、加工数据和识别数据,仅有20%时间在做数据分析。面临这种困境的原因,大致有三点:
上述这些问题都会浪费数据分析师大量宝贵时间,降低了数据分析洞察的效率。理想状态应该是让数据分析师拿到数据就能"开箱即用",加速数据分析洞察,及时快速响应提高组织决策能力。
解决数据分析师面临这些困境,可引入数据探查,并与数据质量管理、元数据管理等数据治理等等功能模块整合并持续不断迭代优化,让数据洞察分析更高效。
数据探查是对源数据内容的系统分析和诊断。分析和诊断包括以下几个方面:
总之,数据探查可协助与数据加工人员提高数据清洗和加工效率,提高数据质量,让数据分析开箱即用到高质量数据,让元数据对数据的描述内容更加完善的展示等多应用场景。
数据探查应用
这里从ETL数据加工、数据分析或数据使用角度等角度来应用数据探查。如ETL工程师在ODS层源数据的数据探查、数据分析师做数据分析时的数据探查或全局元数据管理应用。
ETL数据加工
在ETL开发时,对ODS层源数据或据仓中间层的数据探查,有助于ETL工程师在加工处理数据时,查看对不满足数据质量要求进行数据清洗,如空值率、异常长度、数值范围、格式数据分布、重复率和单位、编码、数据类型不一致等等数据异常清洗和数据加工。
数据加工处理完成后,在数据质量监控系统对可能出现质量问题的表或字段配置监控规则,也可根据产出数据优先级别配置强规则或弱规则(是否熔断执行任务规则),对数据质量全链路监控,保证数据质量持续不断迭代。
数据分析
有助于数据分析师识别数据,了解全局数据概况,常用的分析指标如度量有最大值、最小值、平均值、汇总值、方差、中位数;维度有枚举值、枚举值数值或数据分布。
元数据管理
元数据是对潜在信息的信息,是关于数据的更高层次抽象,是对数据的描述。
数据探查结果属于对数据的抽象,了解和数据总体概括。元数据管理模块展示表的每列数据的字段名、维度和度量不同字段类型等探查结果,如下:
技术实现方案
实现数据探查出结果在元数据管理模块的应用有三种方案:一是数据分析或应用时点击探查按钮即时计算当前表的探查结果展示;二是利用计算集群空闲时大批量计算;三是前面两种方案的结合,展示当前探查结果更新时间戳。前两种方式各有利弊,第三种方案较好既可以充分利用集群的计算资源,又可以保证数据全或大部分探查结果覆盖,还可以数据使用根据需要即时更新数据探查结果。实现思路如下:
数据探查与数据质量监控系统的配合即便于数据质量迭代,又便于数据分析或使用者对数据全局概况的了解。高质量数据释放了数据分析清洗、加工数据大部分时间,对数据全局认识,减少识别数据的时间,让数据分析师更专注于数据分析洞察工作,提高产出效率。
总结
本篇文章从数据探查是什么和技术实现方案,其中包括数据探查大致包含哪些探查指标等,还有数据探查与数据质量管理、元数据管理和数据应用或使用等之间整合。
上述是对批数据的数据探查,其在实时数据探查功能同样可以在实时数据仓库和实时标签等实现。数据探查是元数据管理内容的补充,对数据内容的描述更加准确和完善,让数据分析师或数据使用者从容地简单地使用数据。