前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【rainbowzhou 面试19/101】技术提问--如何进行数据质量提升?

【rainbowzhou 面试19/101】技术提问--如何进行数据质量提升?

作者头像
rainbowzhouj
发布2023-03-16 14:36:36
4920
发布2023-03-16 14:36:36
举报
文章被收录于专栏:rainbowzhou的成长足迹

数据质量问题产生原因

在进行数据质量提升前,首先需要探究数据质量问题产生的原因。一般数据质量问题的原因与数据标准的三方面组成是一致的,即管理层面、业务层面、技术层面。

  • 管理层面
    • 流程规范方面:数据质量管理办法不完善,缺乏统一的数据标准,考核机制不严格导致数据处理人员缺乏敬畏心等。
    • 分工协作方面:数据缺少归属的部门和责任人,导致数据无人维护。也可能数据处理链路长、周期长、经手的部门和人员多,导致对数据的理解不一致,存在偏差,从而导致后续处理和使用不当的问题。
  • 业务层面
    • 业务需求不明确:业务需求描述不清,导致数据人员对业务理解存在偏差,从而导致无法正确构建数据模型。
    • 业务变更:在业务变更后, 数据相关处理流程和模型没有及时更新。
    • 业务自身问题:业务数据本身在产生时就存在缺失。例如,填写用户信息时,有非必填项,则其内容会存在缺失的情况。对于缺失的数据,需要统一的评判或处理标准。
  • 技术层面
    • 数据采集,采集的频率、内容、映射关系和处理逻辑不正确。
    • 数据校验,业务数据在产生时未进行错误拦截和校验,导致非预期数据进入数据系统。
    • 数据填充,对内容缺失的字段填充时,填充的默认值未按规定或不合理。
    • 数据传输,网络延迟,以及传输异常导致数据延迟和数据丢失。
    • 数据存储,数据存储组件不合理导致数据丢失。
    • 数据计算,数据计算逻辑不正确导致数据不准确,数据计算占用资源过大导致内存溢出或程序异常退出。
    • 数据模型:数据表结构、字段类型、约束条件等设计不合理导致数据失真和数据重复等问题。

针对管理方面导致的问题,可以完善相关制度后,发布执行;针对业务层面和技术层面导致的问题,则需要进行问题等级评估后,再进行进一步处理。

数据质量问题等级评估

我们可以结合数据资产等级、问题类型、影响范围、数据质量问题引起的资损等指标来评估数据质量问题的等级。对于数据质量问题等级低或修复收益(ROI)低的数据质量问题,可以先暂时不进行数据修复,反之,则要及时进行数据处理。

可参考阿里的数据资产等级:

  1. 毁灭性质:A1 等级;
  2. 全局性质:A2 等级;
  3. 局部性质:A3 等级;
  4. 一般性质:A4 等级;
  5. 未知性质:A5 等级;

五个数据等级,不同性质的重要性一次降低:

对于不同的数据资产等级,使用英文 Asset 进行标记:

重要程度:A1 > A2 > A3 > A4 > A5;

制定数据修复方案

可以通过代码或者SQL语句等方式新增、修改和删除问题数据记录。在进行数据修复时,我们需要考虑修正的表和字段的相关引用,考虑订正操作是否带来什么负面影响。在进行数据订正时,可参考下面4个原则。

  1. 最小化原则:尽量减少数据订正操作和其影响的数据量。
  2. 错峰原则:尽量选择业务低峰期进行,以减小对业务带来风险和影响。
  3. 审慎性原则:涉及数据修复流程的团队和人员,都应谨慎对待数据修复操作,保证操作的合理性和准确性。
  4. 可回滚原则:在进行修复前,必须有配套的回滚方案,以保证数据修复出问题后能及时回滚。

进行修复操作

进行数据修复操作时,需要确保修复数据量的正确,即确保该更新的更新,不该更新的不动;该加的加,(尽量避免删操作)确保修复的值与预期的值一致;确保操作的数据库名、数据表和字段名正确;对于主键唯一的字段,确保订正后无重复主键。

验证修复结果

如果修复失败或出现其他问题,可以视情况进行回归或者进行二次修复。如果回滚了,需要确保回滚后的数据与数据修复前一致。

数据质量问题归档

可以将出现的质量问题进行归档,为后续学习或出现类似问题时,提供参考案例。

通过上述措施,形成闭环,逐渐地提升数据质量。那么问题来了,有了大数据测试方法+数据质量的管理方式,我们就可以保证企业的数据质量了吗?还有没有其他方式方法?欲知后事如何,请看下篇文章~

参考资源:

  • 大数据测试技术与实践

看完今天的分享对你是不是有所启发呢,有任何想法都欢迎大家后台私信我,一起探讨交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 rainbowzhou的成长足迹 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据质量问题等级评估
  • 制定数据修复方案
  • 进行修复操作
  • 验证修复结果
  • 数据质量问题归档
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档